所有語言
分享
文章來源: 夕小瑤科技說
作者 | Zicy
Sora一經發布,世界再次被AI的力量所震撼。要知道Runway、Pika等明星模型都還在突破幾秒內的連貫性的時候,Sora已經可以直接生成長達60s的一鏡到底視頻。
大家對Sora的更進一步信息和細節都非常好奇,但遺憾的是,OpenAI並未公布它的技術細節,而只有一份簡單的技術報告。
今天我們就來扒一扒網上對Sora訓練和推理的估算,看看Sora驚艷效果背後的算力究竟是如何的驚人。
▲Sora生成的視頻效果
在Sora的技術報告中,作者提到Sora的設計很大程度上受到了《Scalable Diffusion Models with Transformers》論文的影響,這篇論文中提到的模型DiT是用於圖像生成的,Sora將這項工作擴展到了視頻生成。
我們先來看看DiT模型,最大的DiT模型DiT-XL具有675M參數,需要次浮點運算進行訓練。為了使這個数字更容易理解,這相當於大約一台H100運行12天。
下面是對Sora所需的計算量做一個估算:
1、DiT只對圖像進行建模,但Sora是視頻模型,我們假設Sora在把圖片變成視頻的過程中沒有額外計算。
Sora可以生成1分鐘的視頻,如果我們假設視頻以24fps編碼,則一個視頻有1440幀(24fps * 60s)。Sora的像素到潛在映射似乎在空間和時間上都進行了壓縮。如果我們假設與DiT論文(8x)的壓縮率相同,我們最終在潛在空間中得到180幀(1440/8)。
2、Sora明顯大於675M參數,之前有傳言GPT3.5的模型大小是20B
所以我們估計Sora為20B是可行的,這需要DiT的30倍計算量。
3、Sora應該是接受了圖像和視頻的混合訓練,OpenAI沒有過多談論他們的數據集,但他們暗示它非常大:“我們從大型語言模型中汲取靈感,這些模型通過對互聯網規模數據進行訓練來獲得通才能力。
假設Sora數據集比DiT使用的數據集大10倍到100倍,但DiT在相同數據上重複訓練,若有更大數據集,則此方法並非最佳。因此將計算量增加4-10倍是合理的,取中值7倍作為估算。
所以,把上面的估算結果相乘,訓練Sora的總浮點數計算量約為:
這相當於14739張H100運行一個月!
以當前H100市場價約3萬美元算,14739張H100約需要4.4億美元,老黃直接狂喜。
在能耗方面,H100 GPU的最大功耗約為700W,這需要大概kWh的電力,這相當於一架波音757飛機飛行七百萬公里的碳排放,可以繞地球赤道轉173圈,環保人士已經要坐不住了。
Sora的訓練已經消耗這麼多了,我們再來估計一下推理所需的資源。
我們再次使用DiT來推斷Sora,DiT-XL每步使用FLOPS,250個擴散步驟總共FLOPS,同樣的方法,乘上30再乘180,我們可以估計:
一個Nvidia H100 GPU大約每小時能生成5分鐘的視頻。
如果視頻作者要依靠Sora來創作,那麼他至少需要十張以上的H100,才能十分鐘內生成合理時長的視頻。這個成本將非常高,肯定不適合普通人來使用。
盈虧平衡,即模型達到一個推理的使用量,使得推理和訓練期間的花費相同。
我們傾向於關注的另一個重要考慮因素是訓練成本與推理成本的比較。眾所周知,訓練成本非常大,但也是一次性成本。相比之下,推理成本要小得多,但推理是頻繁調用的,推理計算會隨着用戶數量的增加而增加,因此,查看“盈虧平衡點”是有用的。
按照前面的計算,我們得出下面DiT和Sora的訓練與推理計算的比較。
我們可以看到,DiT在生成7.6M圖像后達到盈虧平衡點,而Sora在生成53.4M分鐘的視頻后達到盈虧平衡點(約101.53年)
為了進一步見識Sora所需計算量之巨大,我們可以對比一下不同模型的每單位輸出,推理計算所需的計算量。
我們先劃定一個標準,對於Sora,每單位輸出是一個1分鐘長的視頻,對於DiT來說,它是一個512x512像素的圖像,對於Llama 2和GPT-4,我們將單位輸出定義為包含1000個token的單個文檔。
下面是這些模型的對比圖,橫坐標是單位輸出的個數,縱坐標是所需計算量,因為相差巨大,我們採用對數形式作圖。
對於Sora和DiT,我們使用上面的推理估計。對於Llama 2和 GPT-4,我們使用 FLOPS = 2 的經驗法則公式估計,即FLOPS=2×參數數量×生成的令牌數量。對於 GPT-4,我們假設該模型是一個混合專家 (MoE) 模型,具有2個專家,每個專家220B參數,且每次前向傳遞都處於活動狀態。
我們可以進一步看到,Sora在推理工作負載方面甚至比GPT-4貴幾個數量級。
儘管目前Sora消耗巨大,但它不僅僅是一項技術,還是一個起點,我們相信,未來的視頻生成將會形成一套完整的生態,從上游的模型到下游的應用,整個產業將會逐漸被建立。
Sora生成的視頻,無論是在細節水平方面,還是在時間一致性方面(例如,當物體被暫時遮擋時,該模型可以正確處理物體的持久性),對於某些類型的場景來說,已經足夠使用。目前OpenAI選擇和一些藝術和電影工作室合作。
Shy Kids是一家多媒體製作公司,他們利用Sora製作了關於氣球人的短片《Air Head》,導演Walter Woodman評論說:
“儘管Sora在創造看似真實的東西方面很出色,但讓我們興奮的是它能夠創造出完全超現實的東西”,“來自世界各地的人們已經準備好從他們的胸膛里迸發出故事,終於有機會向世界展示裏面的東西”
Don Allen III是一位跨學科的創作者,他說:
“很長一段時間以來,我一直在製作增強現實混合生物,我認為這些生物在我的腦海中會是有趣的組合。現在,我有了一種更簡單的方法”,“不受傳統物理定律或思維慣例的束縛”,與Sora合作將他的注意力從“技術障礙轉移到純粹的創造力......開啟一個即時可視化和快速原型製作的世界”
當我們站在視頻內容創作新時代的門檻上時,像Sora這樣的模型的影響遠遠超出了技術領域。我們相信未來隨着技術的優化,一個每個人都能擁抱AI,以前所未有的方式講述自己的故事。