所有語言
分享
文章來源:騰訊科技
作者:翟尤 《AIGC未來已來》作者
在中國農曆新年假期,OpenAI又展開了一次超乎所有人想象的發布,其首款文生視頻模型Sora正式對外亮相。
Sora的效果已經在科技圈內不斷刷屏,不僅能夠根據文字創造出以假亂真的場景,而且生成的視頻時長達到60秒。以至於很多人對於OpenAI新技術的發布,如同期待蘋果喬布斯時代的發布一樣,總有超乎預期的技術讓人眼前一亮。
從ChatGPT、DALL-E3,再到Sora,如果用一句話來總結OpenAI的與眾不同之處,那就是:技術想象力和工程能力,要遠比技術路線或者黑科技重要。同時,曾經大火的一眾AI視頻創業公司直接被降維碾壓,先拋開底層技術,從用戶端的直接感知來談,他們的產品大部分最多支持4s的視頻生成長度,與Sora的60s完全沒有可比性。類似於OpenAI、Google之類的科技大廠“人間才一日,AI已千年的迭代速度”,真的感覺分分鐘碾壓AI創業。也不禁讓人感嘆,AI創業好難,所謂的“技術護城河”、“產品護城河”是否還存在?是否一夜之間就被突飛猛進的大廠技術所顛覆?
在Sora之前,我們看到的大量文生視頻技術尚未實現技術收斂,主要技術路徑是通過各種辦法讓單幀的圖片“動”起來,類似定格動畫。而從用戶實際需求來看:視頻每一幀之間的連貫性與自然度是體現視頻價值的關鍵,也就是視頻每幀語義信息的無縫銜接才是核心。
從Sora在業內關注和討論的熱度上也能看出,圍繞需求提供對應的技術解決方案或者產品,要遠遠好於通過技術可實現的角度來創造產品。
讓OpenAI公布Sora的全部技術細節已經不現實,開源只能寄希望於其他團隊。但是OpenAI官網上介紹指出,Sora與之前的文生視頻思路並不一樣,是讓模型一次預測多幀畫面,並且確保視頻主體保持不變。
單從技術創新度來看,Sora的技術和方法並非石破驚天,也談不上從0到1的創新,其他機構也有相關研究,但是整體工程呈現的效果非常好。而這也是Sora在技術上的巧妙之處:在視頻幀上做突破,巧妙地提升了生成視頻的使用上限。
這其中與文生視頻技術難收斂,工程難落地有着密切關係。而把Transformer引入到文生視頻的擴散模型中,實現視頻幀之間的語義信息預測,就可以讓語言模型在其中發揮出巨大的價值。也就是說:Transformer+Diffusion Model,終於在2024年初實現了融合,不再是獨立兩條發展路徑。這也就是為何Sora一出現,就引發用戶的點贊和肯定的原因:文本模型的連貫性和可擴展性,可以在視頻模型的基礎上把用戶的感知效果提升多個層次,讓文生視頻可以進一步接近商用奇點。
在這方面,OpenAI已經在ChatGPT、DALLE-3的工程化上實現突破,這次更是把以上模型成果有機融合起來,把工程化能力發揮到極致。
2023年及以前,文生視頻的模型雖然出現了Runway、Pika等現象級產品,但從整個行業來看,把擴散模型和語言模型相結合的工作並沒有被業內放在“最高優先級”。
可以預見的未來,隨着文生視頻技術的收斂,生成視頻技術的使用門檻降進一步降低,將幫助人們完成大量工程化的工作,可以媲美好萊塢水準的視頻解決方案將會出現。
具體來看,從過去視頻製作前期設計、中期拍攝、後期製作的傳統流程中,逐步向後期製作進行傾斜,尤其是不斷生成新的視頻元素會導致前期設計和中期拍攝的工作流產生極大的變化,出現新的工具和工作流。
最終將在多個C端消費場景中得到應用,比如商品廣告、劇情片等等。尤其是對於視覺藝術、設計師、電影製作等工作,可以幫助這些專業人士快速原型化和可視化,節省一定時間和成本。
這其中,尤其是對短視頻行業帶來巨大想象,普通用戶可能無法通過Sora製作好萊塢大片,但是製作一個60秒的高質量短視頻,似乎近在咫尺。尤其是對於內容邏輯性要求不高,在探索科幻等方面,可以協助個性化內容的製作。
對於OpenAI來講,更像是前鋒,開山辟路是它的強項,開枝散恭弘=叶 恭弘搞應用的事情並不關注。
從單點的突破來看,Sora具有里程碑意義。但是從商業化需求和混剪工作流效率提升來看,Sora本身的價值還有待商榷。
想靠60秒生成的視頻成為下一個董宇輝、李佳琪並不現實,更別說製作長視頻或者電影、電視劇了,距離真正落地還有漫長的路要走。
還是以短視頻為例,是通過一遍遍修改提示詞(Prompt)更加有效率,還是在視頻剪輯軟件里調整素材更快?
很顯然,我們期待Sora,不如期待視頻剪輯軟件中儘早更新增加AI工具,從而在商業上追求效率真正的提升。同時,通過提示詞來進行視頻生成一直存在理解偏差的問題,這一問題不僅困擾文生視頻,在ChatGPT使用過程中依舊沒有解決。
即使Sora全面放開使用,普通用戶也難以做出如當前演示案例般的Demo。最終決定Sora是否能夠普及的關鍵,是工具本身是否能夠提升人們的工作效率。
是買家秀,還是賣家秀,仍需要時間的檢驗。
顯然並不是。
生成式人工智能領域,科技企業都在不斷髮力:
Meta在幾乎同一時間發布了V-JEPA,可以不進行微調就能夠應用各種需要世界知識的任務中。而且V-JEPA是在特徵空間進行自監督學習,效率更高。至於哪條路會通往最終的通用人工智能,目前尚未可知。
谷歌也在相近的時間上線了Gemini 1.5,可以支持10000K token的上下文,使得大模型的輸出更加連貫、實用。多模態變得更加流暢,工程化不輸OpenAI。
Runway和Pika等之前的文生視頻產品,依舊可以在人工智能時代獲得一席之地。Sora應用的是Transformer+Diffusion,從模型架構來看:如果以Transformer為基準,那麼文生視頻依舊是龍頭科技企業更有優先權,但是如果生成式視頻架構依舊圍繞Diffusion展開的話,創業企業機會更大一些。
沒有一騎絕塵的技術,只有螺旋式上升的產業繁榮。
Sora雖然可以一次性生成幾十秒的視頻,但是真正在應用階段,如果產品沒有提供足夠多的微操空間,確保用戶能夠通過微操將其整合到自己的工作流中,那麼大概率Sora仍是效果越來越炸裂,距離用戶越來越遠。
即使是ChatGPT已經問世一年多的今天,還有大量用戶沒有使用過聊天機器人。這也為開源社區迎頭趕上創造了窗口期,同時,文生文、文生視頻這些模型的模塊化組合,是否會有類似IPhone一樣的專有智能設備問世?讓更多用戶可以在端側使用模型,構建起開源+小參數模型+移動端的思路,把智能手機的形態也做一次革新。
永遠有新產品出現,技術的擴散才剛剛開始,不會有任何一家公司“猝死”在新技術的出現上。
對於普通人來講,不被“遙遙領先”和“王炸”之類的詞洗腦已經實屬不易,如果還能再清醒一些就顯得更加彌足珍貴。Sora爆發的當下,普通人要做的事情可以歸結為三件事:
1. 應用到你熟悉的場景中
焦慮的反面是具體。只有把Sora等人工智能新應用用起來,融入到具體的場景和工作中去,我們才能夠切身體會人工智能到底會取代自己的哪些工作內容,以及取代的程度有多深。同時還能真切的發現人工智能在哪些方面可以真正落地並解決我們的問題。對於新技術和新應用,早期使用者的最大優勢在於,可以更早的發揮出先進科技的價值,來提高生產力和生產效率。如果你只是嘗鮮,用人工智能問問腦筋急轉彎、看看人工智能是真聰明還是智障,找找優越感的話,那麼只能沉浸在短暫的舒適區而已。
2. 探索屬於你的新模式
蒸汽機是瓦特改良的,但是真正發揮價值的是使用蒸汽機進行生產的企業家;汽車讓運輸行業效率大增,但是電商行業把運輸行業升級到物流體系,以至於次日達成為諸多電商平台的標配。
Sora在當下展示出了各種超能力,但還需要一個真正的伯樂。伯樂不但理解人工智能工具的各種優勢和不足,還要對自身業務體系有着深刻的理解和洞察,通過使用人工智能技術來整合重塑業務流程。未來將出現更多整合了人工智能的全新方案,來“侵入”到各行各業之中。
3. 成為規則的“領航員”
適應變化才是王道。
回顧工業革命,機器的出現導致失業的並非普通紡織工人,而是有經驗的高端紡織工人。這其中的原因就是工業革命把專家經驗固化到系統之中,使得沒有經驗的人通過機器或者系統,就能夠做出比有經驗的人更好的產品。同樣的,最近波士頓諮詢公司將諮詢顧問分為高底兩個組,同時使用GPT-4,最終結果是低水平顧問的結果質量提高43%,高水平顧問僅提高17%。高底兩個對比組的績效結果之差從22%縮小到了4%。
與其在不久的將來去適應別人制定的新規則、新體系,倒不如利用先發優勢適應變化、擁抱變化,成為規則“領航員”。梳理了Sora出現之後,大家討論如何做“創新”的一些思路,供大家參考: