所有語言
分享
來源:雷鋒網
作者:董子博 王悅
原標題:《AIGC:熱潮之下,前沿在哪?丨GAIR 2023》
從畫圖到寫詩,從文案到製表,從PPT到寫代碼,十幾個月以前,如果有人說,這些工作都可以用 AI 代勞,相信的人恐怕寥寥無幾。
然而科技發展的起速卻總是爆炸性的,2023年還遠未結束,生成式 AI 的風潮就席捲了整個科技圈,讓人無不心馳神往,趨之若鶩。
在由 GAIR 研究院、雷峰網、世界科技出版社、科特勒諮詢集團聯合主辦的第七屆 GAIR 全球人工智能與機器人大會上,AIGC 領域的各路大牛齊聚在新加坡烏節大酒店,向世界分享他們在生成式 AI 領域的一手信息和最新認知。
此次參与 GAIR AIGC 和生成式內容分論壇的發言嘉賓有:
南洋理工大學計算機科學與工程學院助理教授,潘新鋼
joinrealm.ai 創始人,蔡叢興
新加坡 Help&Grow 社群發起人,王桐
荔枝集團 CTO,丁寧
南洋理工大學高級研究科學家;Deepir Inc. 創始人,吳鵬程
騰訊海外遊戲發行算法中心主任,郎君
在當下炙手可熱的 AI 賽道,如何保持清醒的頭腦,在技術、產品和商業模式上精研革新?與會嘉賓們又有哪些真知灼見,讓他們能夠在生成式 AI 的熱潮中長風破浪?
提到 AIGC,在當下的賽道,所有人第一個總會想起在海外評價頗高的 MidJourney,和它背後的技術支持——擴散模型。
而來自南洋理工大學計算機科學與工程學院的助理教授,曾在港中文師從湯曉鷗教授的潘新鋼,卻在他最新的“視覺內容關鍵點拖拽式編輯”中,果斷放棄了擴散模型,而是使用了一項更“老”的技術——生成對抗網絡(GAN)。
不少人看到了 AI 生成圖像的強大能力,就認為 AIGC 的時代已經來臨;而潘新鋼卻發現,“生成圖像”往往不是用戶創作過程的最後一步。
後續對圖片的調整——尤其是對 AI 生成的畫面元素往往充滿不確定性,要滿足用戶的需求,就必須得讓畫面中的各個元素可以在後期被用戶微調。
比如 AI 生成了一隻很逼真的獅子,用戶如果想要獅子的頭轉一轉、移動它的位置、甚至改變獅子的表情,以當下的產品形態就很難完成。
這些操作聽起來簡單,但都是關於物體空間屬性的精細控制,在技術上還面臨着巨大的挑戰。
過去曾有方式是沿襲文生圖的思路,去根據文字的指引編輯圖片——比如“讓獅子的鼻子向右移動30像素”。
但這個解決思路也存在問題:
一方面,是文字模型對於物體空間屬性的理解必須足夠強大,才能滿足用戶不一而足的編輯需求和方式,讓交互更直觀;
另一方面,對於語言模型來說,它很難精確理解圖像中的長度和尺寸,這也給視覺內容編輯帶來了不小的麻煩。
交互層面,對於用戶來說,最直覺、最易用的,無疑是拖拽式的交互;而從技術實現層面,用戶只需要指定一個紅色的抓取點和藍色的目標點,由 AI 把紅點所對應的圖像的語義的部分,移到藍點的位置,就能達到對圖像空間屬性的編輯的效果。
在過去,也有人開發過類似的功能,但通常需要對所要編輯的圖像進行網格化,並且對物體的高度有一定的假設——對圖像的編輯不過是對原圖2D的扭曲變形,沒法生成新的內容。
既要精細,又要有生成內容,潘新鋼在做技術研判時並未採用當下最熱的擴散模型,而是選用了生成對抗網絡的技術。首先,是 GAN 所描述的圖像空間非常連續,比擴散模型連續很多;其次 GAN 的 comtact 的隱空間非常適合編輯的屬性。
而隨着潘新鋼團隊研究的進一步發展,他們又在原有基礎上支持了多點編輯,可以讓圖像內的物品姿態改變,重新設計一款車的外形、或改變車的視角,讓一隻小貓睜一隻眼閉一隻眼,改變人像的髮型或表情、姿態或衣服長短,讓使用者能更方便地對圖像進行編輯,甚至可以以這個方式,來完成視頻內容的生成。
當下這個工作已在 GitHub 上開源,並且獲得了32000個 Star。
而未來,把 GAN 和擴散模型結合,是潘新鋼對於正在完成工作的一個願景——既有擴散模型的生成能力,又有 GAN 在圖像編輯上的優勢,同時也或許可以將這些能力運用到視頻和 3D、4D 內容中,讓未來的AIGC 更智能、也更易用。
從美國加州南灣硅谷的山景城而來,joinrealm.ai 的蔡叢興有一個做AIGC社交網絡的夢想。
2016年左右就加入 Snapchat,在公司負責短視頻的產品開發,蔡叢興經歷過短視頻行業的超高速發展期。而在 TikTok 無有爭議地在海外成為了現象級產品之後,蔡叢興又動了別的心思:
“我們覺得,在生產式短視頻內容的賽道上,大家已經朝着某一個方向發展;而未來,在生成式視頻上,產業一定會有一個新的突破。”
於是,蔡叢興和朋友一起,創辦了 joinrealm.ai。
蔡叢興認為,AIGC是一個特別寬泛且抽象的概念,而 joinrealm.ai 的方向,主要是介於“直接提供API”和“完成人機交互革新”的中間地帶——對於內容創作商業模式的探索上。
“為什麼內容創作這個模式很重要?基於我們對於短視頻的這個過去十年的觀察,很大的一個變革,實際上是因為智能相機的出現。智能相機的普及,很大的程度上它不僅僅是給了每個人一個手機,而是給世界提供了幾十億個移動的基礎設備。”
從“word”到“story”,是 joinrealm.ai 創業的一個核心關鍵——藉由AI,用戶能把自己腦海中的內容呈現成圖像,就如同一個“思維的相機”。
而要想達到這個效果,蔡叢興在 joinrealm.ai 的探索中發現,還有許多問題亟待解決:
首先,是 Prompt 和自然語言的差異仍然存在——Prompt 歸根結底還是一種大眾難以直覺理解的程序語言,用戶仍然要經歷大量的“嘗試-失敗-嘗試”的步驟,才能生成出他們想要的內容;
其次,就是基礎模型在今天仍然並不能完全滿足 AIGC 用戶的需求,以 Stable Diffusion 為例,新用戶願意分享生成內容的比例,在今天大概還低於20%;
缺少可以由用戶精調的概念,也是 AIGC 當下面臨第一個重大的問題,用戶很難藉由一套被定義了的概念,去控制 AI 的生成,也就很難控制自己“故事的講述”;
最後,就是圖像生成結果和成本之間的效率平衡,如何在更低的價格區間里,生成更高質量的內容,也是 AIGC 在當下一個難以忽略的問題。
為了迎接這些挑戰,蔡叢興和團隊見了將近一百位有影響力的AI創作者,發現他們的製作方法大多獨特,很少雷同,並且都會使用大量的工具,不斷地調試、調節。
最終,joinrealm.ai 在研判后,決定在三個關鍵點完成升級:
首先是工具鏈,通過完成用戶交互界面的優化,讓使用體驗更優;
其次是讓用戶可以自建自己的 fine-tune,比如使用“我”的描述,產品就可以以用戶自己的圖像為基礎,來更精準地生成自己想要的圖像。
第三就是自建社區,讓用戶能夠在社區里獲得更多的使用教學和靈感啟發。
新加坡 Help&Grow 社群發起人王桐作為主持人,與 joinrealm.ai 創始人蔡叢興、荔枝集團的 CTO 丁寧、南洋理工大學高級研究科學家&Deepir Inc. 創始人 吳鵬程、騰訊海外遊戲發行算法中心主任郎君共同探討了當下 AIGC 與生成式內容的熱點話題。
AIGC 的商業化模式更容易在 To B 領域落地還是在 To C 領域落地 ?各位嘉賓從各自經驗出發設想了未來的落腳點。
郎君認為,To B 並不好做,因為需要根據多個不同的實際案例抽象提煉出一種解決方案去應對,To C 方面,在做遊戲的運營的時候可以幫助很多遊戲玩家快速地融入進遊戲。內部在做算法的時候,郎君和團隊也會不停地判斷什麼樣的模式能更好地去深化 AIGC 落地的場景。
吳鵬程表示,To B 和 To C 都很有機會,但偉大的公司一定是 To C 。他結合妙鴨相機、蘋果 VR 眼鏡、数字人直播帶貨等今年在 ToC 層面做出成績的公司,強調 AIGC To C 會誕生很多有趣的應用。
丁寧認為,AIGC 的商業化仍然處於偏早期的階段,雖然有一些率先做出成績的公司,但大部分還在路上。他特彆強調,對於技術創業者來說,不能僅僅沉浸於對技術的感動之中,還應更多的考慮用戶的需求和痛點。關於To B 和 To C 的落地,他表示To B 的市場很大,需要能力和資源,而To C 的競爭大,需要有對市場的敏銳察覺力、社區的運營能力等,兩者未來都很廣闊。
關於 AIGC 的出海和全球化,幾位嘉賓分享了他們總結的經驗。
郎君觀察到,國內的團隊有非常密集的人才優勢,高效的知識分享途徑以及對互聯網行業的強大興趣,這種配置的資源在海外其實並不多。他強調,當下 AIGC 還沒有一個特別成熟的商業模式,所以誰有更好的資源組合的能力,誰就更容易“跑出來”。
丁寧認為,AIGC 出海首先要走出去,把身段放低,不一定非要把產品做到什麼程度,意識到兩年到三年的時間內是很難一下子在市場中獲得成功。他補充到,尊重海外市場是很重要的,文化、語言、法律法規的差異都是這個非常大,需對當地市場有清晰的認知。
吳鵬程認為,AIGC 出海是很有機會的,一方面,可以把中國的技術用到國外;另一方面,國外也有本地需求,兩者可以做深度融合,會產生巨大價值。同時也需要考慮到,出海只是第一步,也需要考慮如何才能在海外更好地遨遊。