所有語言
分享
文章來源:AI科技大本營
作者 | 王啟隆
前幾天,OpenAI CEO Sam Altman 突然在 X 來了一句:
“電影將變成电子遊戲,而电子遊戲將變成難以想象的、更加美好的事物。”
這話引發了幾天的熱議,隨後在周六早上,人工智能社區 AGI House 邀請到了 OpenAI Sora 的核心作者 Tim Brooks 和 Bill Peebles 做演講,深度解讀了這幾個月鬧得沸沸揚揚的文生視頻模型 Sora。這場演講的主題和 Sam Altman 前幾天的話一樣耐人尋味:
“視頻生成技術可以通過模擬一切事物來引領我們走向通用人工智能(AGI)。”
對於 Sora 是「AGI 的必經之路」還是「一條支線上的階段性產品」,業界內已經形成了不同的觀點,有很多人堅信主打「語言」才是對的,而 Sora 核心作者的這番話則表示 Sora 不僅能模擬一切,還是前往 AGI 的一輛直通車。
這次的東道主 AGI House 是家主打外部社區建設和對話的初創公司,每月多次組織僅限受邀人士參加的晚宴和爐邊談話,涵蓋人工智能對消費者或垂直軟件的影響等主題。演講長達 30 分鐘,還有十分鐘的觀眾問答環節,可謂是含金量十足:在經過了這兩個月各大網友、專家的點評和 OpenAI CTO 的“忽悠”之後,我們總算是能見到 Sora 真正的核心作者出來公布技術細節了。
完整視頻鏈接:https://twitter.com/agihouse_org/status/1776827897892024734
Sora 作者親自透露細節!
開場的是 Tim Brooks,文生圖模型 DALL·E 3 的作者,去年 1 月剛從加州大學伯克利分校博士畢業,但在本科至博士期間已經在 Facebook、Google 和英偉達都實習了一遍。
Brooks 上來就把 Sora 最經典的視頻——Tokyo walk,給觀眾播放了一遍,Brooks 表示,這個視頻對 Sora 團隊來說非常特別,因為它是一分鐘的高清視頻。這也是團隊一直以來的目標:當他們試圖尋找能推動視頻生成技術前進的因素時,確定了生成長度為一分鐘的 1080p 視頻會是一大里程碑。這個視頻達到了這一目標。
這段視頻包含了許多複雜的元素,比如反射和陰影。一個非常有趣的地方是是視頻中出現的那個藍色標誌:在畫面中,當一位女性角色正穿越這個標誌,而即使在她走過之後,該藍色標誌仍保持原位不動。
這對於視頻生成技術來說是一個巨大的挑戰,即保持物體的持久性和長時間的一致性。
Sora 不僅能做到這一點,還能夠生成多種不同風格的視頻,無比神奇。此外,Brooks 表示 Sora 也能理解整個三維空間,攝像機能像人一樣在三維空間中移動。但它深刻理解了世界的幾何和物理複雜性。除了能夠生成內容外,它實際上還從所訓練的視頻中學習到了很多關於物理世界的知識。
在展示了一系列早已火爆全網的 Sora 演示視頻后,Brooks 開始講起之前那篇題為“Sora 初體驗”的博客文章,文中分享了多個獲得 Sora 使用權的藝術家們的創作成果,Tim 提到了 Shy Kids 利用 Sora 製作的“氣球人”短片,這些作品充分展示了藝術家們如何利用 Sora 技術表達獨特的世界觀和生活哲思。Tim 希望 Sora 能夠進一步促進內容創作的普及化,幫助更多富有創新精神的個人輕鬆地將自己的創意轉化為實際作品,並與全世界共享。
Brooks:“Sora 並非像 ChatGPT 那樣的通用型 AI 產品,而是一個專註於探索技術邊界、價值及安全性的研究項目。通過與包括紅隊在內的多方合作夥伴共同測試,團隊旨在深入理解並確保該技術的安全可靠。”
Brooks 在演講中引用了強化學習之父 Rich Sutton 在《苦澀的教訓》(The Bitter Lesson)中的觀點:“在 AI 發展的道路上,依賴於計算能力的通用方法最終表現優越,並且這種優勢隨着計算資源的指數級增長而越發顯著。”
在《苦澀的教訓》原文中,Sutton 援引了計算機國際象棋、計算機圍棋、語音識別領域和計算機視覺等領域的多個案例證明這一觀點,指出人工智能研究者常常試圖模仿人類思維模式構建系統,這種做法在短期內可能奏效,但從長遠看會限制技術的進步。真正的突破性成果來自於那些能夠利用大規模計算進行搜索和學習的方法。
因此,苦澀的教訓在於,過分追求將人類知識內化進 AI 系統可能導致錯過真正推動領域發展的路徑。Brooks 認識到了算力的重要性,他認為隨着時間的推移,我們擁有的算力也在不斷增加。如果一種方法能夠充分利用這一點,那麼它就會變得越來越好。
Brooks 指出,語言模型的成功原因在於它能夠擴展的能力。通過將所有形式的文本數據轉化為統一的 Token 表示,並使用 Transformer 模型進行訓練,形成了能夠處理多種任務的深度語言模型。ChatGPT 等模型因其能夠吸收並理解大量多樣化的文本數據,從而展現出強大的泛化能力和廣泛應用前景。
為了對視覺數據實施類似的語言模型處理方式,Sora 將不同格式、分辨率、縱橫比的視頻和圖像切割成空間時間中的小塊(類似於積木),然後在這些小塊上訓練 Transformer 模型。這種做法使得模型能夠適應不同維度和格式的視覺內容,並能夠隨着計算能力和數據量的增加不斷優化性能,進而生成不同縱橫比的高質量視頻內容。
Sora 模型支持零樣本學習,可以將一段視頻轉換為另一種樣式或內容的視頻,利用擴散模型(從噪聲中逐步恢復真實信號)和 SD 編輯技術,能夠在保持原始視頻結構的基礎上進行創造性編輯,如風格遷移、場景變換等。模型還能實現視頻間的平滑過渡,創造出生動自然的效果。Brooks 通過一系列示例,展示了模型如何創造性地將迥異的視覺素材(如無人機視角與水下蝴蝶、羅馬斗獸場與水下環境、地中海景觀與薑餅屋等)無縫融合在一起,體現了模型對視覺內容深度理解和創造性重組的能力。
Brooks 還展示了一個很酷的應用。首先,用 DALL-E 3 生成了如下這張圖像:
然後,用 Sora 讓這個圖像動起來。
目前,OpenAI 對這類視覺模型的應用探索尚處於初級階段,所以 Brooks 也鼓勵大家查閱相關的博客文章和技術報告,深入了解更多的技術和應用案例。此外,模型還可進行諸如延長或動態化靜態圖像等有趣的操作,展示了模型在未來視覺內容生成與編輯方面的巨大潛力。
Sora 是怎麼通向 AGI 的?
講解 AGI 的部分接棒給另一位核心作者:Bill Peebles。Peebles 大名 William,本科就讀於 MIT,主修計算機科學,參加過 GAN 和 text2video 的研究。他還在英偉達深度學習與自動駕駛等團隊實習,研究計算機視覺。
Bill Peebles 強調了以 Sora 為例視頻模型在通向通用人工智能(AGI)路徑上的重要性。他認為視頻模型的發展對於模擬人類互動、理解物理世界以及捕捉複雜情境至關重要。通過 Sora 的表現,團隊已經觀察到模型在處理和生成複雜視覺場景方面的進步,包括對人類活動、動物行為以及其他智能體在三維空間中的互動的模擬。
Peebles :“就像 Tim 之前提到的那樣,這裏面的關鍵和大語言模型相同——是擴展性。”
隨着計算資源的增加,模型展現出了更強的理解和生成能力,例如從無法識別狗到能夠生成包含狗在內的精細場景,再到模擬動物的行為細節和 3D 環境的一致性。Peebles 指出,Sora 在未經直接編程的情況下,通過自我學習逐漸理解了 3D 幾何結構,這是模型湧現能力的一個體現。
此外,Sora 在處理物體持久性問題上取得了顯著進展,意味着在連續生成的視頻中,同一物體在不同時間點的狀態能夠得到恰當的延續。儘管目前在模擬某些物理交互上仍有不足,如處理較複雜的力學現象,但 Sora 已經在模擬現實世界和虛擬環境(如电子遊戲 Minecraft)的物理規則方面邁出了重要的一步。
Peebles :“我們將 Sora 視為視頻版的「GPT-1」。”
當前 Sora 還存在局限性,在面對某些複雜物理交互時存在挑戰。儘管如此,團隊對未來發展的展望充滿信心,認為隨着研究的深入和模型的迭代,視頻模型將極大地推動通用人工智能領域的發展。
觀眾問答——這可能才是正片
觀眾:關於 AI 智能體在場景中的理解和互動,這部分信息在 Sora 中是否已經有明確的定義?還是說它僅僅是基於像素層面的處理,需要額外的步驟來解讀?
Tim Brooks:非常好的問題。實際上,在 Sora 內部,這些信息是隱含處理的。當我們觀察到 Minecraft 樣本時,並沒有顯式地定義智能體在哪裡模擬玩家行為或與環境互動。的確,若要精確解析或獲取這些信息,可能需要在現有 Sora 架構之上構建附加系統以提取這些信息。目前,大部分機制是隱性的,例如 3D 信息、場景元素等,均非顯式編碼,而是通過模型自我學習獲得。
觀眾:也就是說,我們所見到的所有酷炫功能,其實都是從模型中推斷出來的,而非直接指定。
那關於微調的可能性,假如針對某一特定角色或知識產權,初期可以通過輸入圖像來引導,你們如何看待將這類定製化組件或功能整合進生成流程中?
Tim Brooks:確實是值得探討的好問題。我們團隊對此非常感興趣,並已收到不少藝術家希望在創作過程中享有更多控制權的反饋,正如你所提及的,如果他們有特別鍾愛且自行設計的角色,會期望在創作新故事時能夠繼續使用這些角色。因此,針對特定內容進行模型微調是一個我們正在积極探索的方向。儘管目前尚未正式推出此類功能,也並未制定確切的時間表。但如果有針對性的數據集——即用戶希望模型適應的內容,理論上是可以進行微調的。我們正在积極收集用戶需求,這對未來的開發路線圖極具價值。
觀眾:對於語言 Transformer,通常是按照序列方式進行預測,而在視覺 Transformer 中,是否受限於掃描線順序或者類似蛇形的空間構建順序進行預測?預測順序是否會影響對空間結構的理解?
Tim Brooks:這個問題問得很好。實際上,我們在 Sora 中採用的是擴散模型而非自回歸 Transformer。這意味着我們不是通過語言模型那種方式進行逐幀預測,而是從一個全噪聲視頻開始,通過迭代模型逐步消除噪聲,直至得到清晰的樣本。在這個過程中,我們並沒有嚴格遵循“掃描線順序”或其他固定的空間順序,而是能夠同時對視頻中的多個時空區域進行去噪處理。大部分情況下,我們會一次性對整個視頻進行全局去噪;當然,我們技術報告中也提及了一種可選方案,即先生成較短的視頻片段,隨後根據需要進行延展。
觀眾:鑒於互聯網上的諸多創新往往源於特殊形式的應用,你們是否考慮將成果回饋至成人類行業?
Bill Peebles:我不認為這是必要的,而且我們還有其他更重要的考量。
觀眾:視頻生成的幀率是每秒 30 幀嗎?還是更傾向於在場景中調整幀的持續時間並進行插值處理?
Tim Brooks:我們的視頻生成速率確實是每秒 30 幀。
觀眾:你們是否嘗試過生成諸如汽車碰撞或旋轉等動態場景,以測試圖像生成是否符合物理模型或基本動作原理?
Bill Peebles:我們確實進行了類似汽車碰撞和旋轉動作的測試,儘管效果基本合理,但還未完全遵循物理定律。例如,Sora 生成的汽車照明樣本表明,它尚未完全掌握牛頓運動定律的細節。
觀眾:當前 Sora 面臨的主要挑戰和用戶反饋有哪些?
Bill Peebles:現階段,我們着重於與外部藝術家合作,了解他們的使用體驗和反饋意見,並且也非常關注來自“紅隊”的安全問題反饋。一方面,我們了解到藝術家們渴望獲得更多的創作控制權,例如對相機視角和運動軌跡的掌控;另一方面,我們確保在讓更多人接觸到這款工具的同時,保證其安全性和責任性,防範潛在的濫用風險和假信息生成等問題。
觀眾:是否有潛力開發出用戶可以實時互動的視頻,比如通過 VR 設備等方式?例如,在視頻播放過程中暫停並修改某些內容,然後視頻能否根據這些改動重新生成後續畫面?
Bill Peebles:這是一個富有創意的想法。目前,由於 Sora 的運行速度較慢,特別是在延遲方面,要實現這樣的體驗尚有一定距離。生成一個視頻片段通常需要數分鐘的時間,即便如此,我們認為朝着這個方向發展是很酷的。
觀眾:在構建 Sora 的第一版時,你們設定了哪些明確目標?在實施過程中遇到了哪些問題,又從中學到了哪些經驗?
Tim Brooks:首要目標一直是能在至少 30 秒內生成 1080p 的視頻,從而打破視頻生成僅限於 4 秒 GIF 的傳統局限。在整個項目周期中,這都是團隊的主要聚焦點。過程中,我們深刻體會到處理視頻數據的艱巨性,並意識到完成整個系統的高效運作需要大量細緻且耗時的工程工作。簡化方法並使其易於擴展也是貫穿項目始終的一個重要理念。
觀眾:發布視頻時,你們是否會對提示詞進行優化並檢查輸出效果?如果初始輸出不盡人意,是否會更換新的提示詞生成新的視頻版本?
Tim Brooks:視頻的評估確實頗具挑戰性。我們採取了多種評估手段,包括但不限於模型的損失值,低損失值通常與良好的模型性能關聯;利用圖像質量指標對單幀進行評估;同時也投入大量時間手動審查生成的樣本,尤其需要注意的是,這不是針對單一提示詞的孤立過程,而是涉及大量提示詞和對應輸出的綜合比較,因為輸出結果可能存在隨機噪聲。
觀眾:關於訓練數據,您估計要達到通用人工智能的程度,需要多少訓練數據?您認為目前互聯網上的數據是否足夠支撐這一目標?
Bill Peebles:我認為我們目前擁有的數據量足以實現通用人工智能,並且隨着技術的進步,每當遭遇數據限制時,我們總能找到新的方式來提升模型性能。因此,無論目前手上擁有何種數據,只要我們持續創新和改進,都將足夠支撐起通用人工智能的研發之路。