所有語言
分享
文章作者:Yoky
生成式AI狂奔的2023年,美國在各個細分領域湧現出了一批獨角獸公司。
其中,Inflection AI 憑藉不到50人的規模,在兩年內融資超15億美元,估值近40億美元,被稱為“OpenAI最大的競爭對手”,不僅推出了基礎語言模型Inflection-1和Inflection-2.5,旗下對話產品「Pi」在眾多聊天機器人產品中脫穎而出,一度被認為是比ChatGPT更人性化的對話產品。
如今,中國版的Infection AI出現了。
在蟄伏一年後,2024年初,由前微軟全球副總裁姜大昕所創辦的階躍星辰正式對外公開亮相,一口氣發布了Step系列通用大模型,包括Step-1千億參數語言大模型,Step-1V千億參數多模態大模型,以及Step-2萬億參數MoE語言大模型預覽版——這也是國內初創公司裏面的首個萬億參數大模型。
這張來自創業公司交出的成績單,無論放在去年還是今年,都稱得上亮眼。
當我們對比了兩家公司的創始人的傳奇經歷,技術思路、產品重心,還是獨角獸公司的特質,階躍星辰與Inflection AI都有着諸多的相似之處。
傳奇創始人和團隊
Inflection AI 被業界和投資人認可的一個重要原因,來自於他的創始人和創始團隊。
Inflection AI的創始人Mustafa Suleyman(現任微軟AI首席執行官),曾是DeepMind聯合創始人。2010年,26歲的Suleyman 與幾位好友共同創立了DeepMind,自己則擔任DeepMind的首席產品官。而後便開始了在DeepMind漫長工作的10年。
另外兩位Karén Simonyan、Reid Hoffman,其中Karén 是他這一代中最有成就的深度學習研究領導之一,曾在牛津大學完成博士學位和博士后畢業,曾任DeepMind首席科學家,建立並領導了大規模深度學習團隊,開發現實世界數據的大型AI模型。
而Reid 則是一位出色的企業家,2003年,他與夥伴共同創立了世界最大的專業網絡服務Linkedln,也曾任PayPal執行副總裁。
和Inflection AI 強大的團隊背景相似,階躍星辰的創始團隊在創業前,也曾在微軟“叱吒風雲”。
2007年,階躍星辰創始人姜大昕便加入微軟亞洲研究院任首席研究員,自此開啟了在微軟長達16年的職業生涯。在機器學習、數據挖掘、NLP和生物信息學等方面擁有多年的研究和工程經驗,也曾在2008年獲得SIGKDD最佳應用論文獎。
而後的2011年,姜大昕轉入STCA(微軟亞洲互聯網工程院),並於2017年成為微軟全球合伙人,擔任STCA副院長及首席科學家。
姜大昕帶領團隊在2019年將Bing智能問答功能,包括十幾種語言、擴展至全球100種語言和200個地區,為了提高Bing使用的包容性和可訪問性,引導用戶在網絡文檔中獲得最簡潔、最準確的答案,進一步節省用戶的時間和精力。
直至2023年3月,姜大昕升任微軟全球副總裁,全面負責微軟必應搜索的技術研發工作。團隊人數達到了400名,包括研究搜索、AI算法、應用程序和平台應用的科學家、工程師等,全面負責Bing的全球搜索體驗工作。
不出什麼意外的話,姜大昕幾乎能在微軟“養老”。
但他卻選擇了“激流勇退”。
“我意識到ChatGPT是一個划時代的技術變革。一定要自己下場,以最快速、最靈活、最全面的方式來投身到變革中去。”在之後的採訪中,姜大昕提到,ChatGPT的橫空出世,是一個划時代的技術性變革,但如果繼續待在微軟,他只能在OpenAI的模型上去做一些應用嘗試,但模型的「黑盒」並不會向他開放。
基於多年的算法經驗,姜大昕想試試打開「黑盒」,從底層做出更大的顛覆。
但搞AI,只有算法和想法顯然是不夠的。
很快,姜大昕找到了微軟Bing引擎核心搜索團隊負責人焦斌星任階躍星辰數據團隊負責人,這位同樣在微軟工作了11年的“數據老炮”,在跨語言數據的積累上有獨特積累,而這對於中國大模型訓練的優化和訓練效率與質量的提升,至關重要。
還在微軟時,二人就聽說過外界盛傳大模型時代的“數據荒”,Scaling Law所需要的數據不夠用了,當置身創業角色中時,發現不僅數據不夠用,算力也不夠用了。
姜大昕又瞄上了曾在微軟研究院,擁有多次單集群萬卡以上的系統建設和實戰經驗的朱亦博,任階躍星辰系統負責人。
如此,這個脫胎於微軟的創業團隊,組成了一個集算法、數據和算力三大要素為一體的最強組合。
這種強,也體現在他的大模型和產品中。
模型訓練,主打一個高效!
雖然Inflection AI和階躍星辰都是創業公司,但他們的大模型性能還是“很能打”的,甚至直逼GPT-4。
官方測試數據显示,Inflection-2.5在關鍵基準測試中與GPT-4並駕齊驅;中國大模型評估平台「司南」多模態模型評測榜單显示,階躍星辰的Step-1V千億參數多模態大模型位居第一名,性能比肩GPT-4V。
作為創業公司,為何能在極其有限的資源條件下達成這樣的成績?追本溯源,其原因都在於兩家公司都在追求高效的大模型訓練方式。
Inflection AI的整體思路是用盡可能少的訓練計算量來達到同等的效果。比如,Inflection-1隻用了GPT-4訓練計算量的4%,Inflection-2.5僅用了GPT-4訓練計算量的40%。但最後呈現的效果卻十分驚艷,Inflection-1在不同的智商導向任務中,平均性能達到GPT-4水平的大約72%,Inflection-2.5平均性能則能達到GPT-4的94%以上。
秉承着“大力出奇迹”的基本宗旨,階躍星辰把訓練千億級、萬億級的“巨無霸”工作量分解為了四個要素,分別為算力、系統、數據和算法,這也被其命名為“鐵人四項”超級工程。眾所周知,算力、算法和數據是AI的三要素,在此基礎上階躍星辰另外搭建了一個集群萬卡管理系統,能夠有效提升算力訓練效率。據階躍星辰官方稱,訓練千億模型的 MFU(有效算力輸出)達到 57%。
儘管兩者都在大模型訓練過程中踐行着相似的技術思考,但關於未來最終通往哪裡,Inflection AI和階躍星辰卻有着不同的設想。
Infection AI認為無論未來呈現的是哪種大模型形態,對話都是必備的。所以,Infection AI將多輪對話的單點技術發揮到了極致,並進行不斷地迭代更新。
姜大昕則認為,AGI是未來,通往AGI會經歷單模-多模-世界模型三個階段。現如今,階躍星辰推出的Step系列大模型被姜大昕視為“理解多模和生成統一的基礎”。
在產品側,Infection AI和階躍星辰都不約而同地瞄準了C端方向。Infection AI推出了助手類應用產品「Pi」,以語音和情感對話為特色在消費用戶市場打出了特色,一度成為了“明星AI產品”。階躍星辰大模型剛面世,也帶來了兩款應用,一個是聊天類應用躍問,定位為個人效率助手。一個是AI開放世界平台冒泡鴨,提供海量智能體,內容形式類似國外的Character.AI,主打休閑娛樂的功能。
「Pi」的特點在於“情感”和“有趣”,而姜大昕則希望產品能有有趣的靈魂:“我把模型和產品的關係比喻成靈魂和皮囊。大家一定聽過一句話,好看的皮囊千篇一律,有趣的靈魂萬里挑一。我們希望靈魂能更加有趣一點才能显示出產品的不同。”
創始團隊的過硬的背景、技術戰略的相同選擇、產品落地的共同期待,讓階躍星辰成為最像Inflection AI的中國公司。
不過,Infection AI如今已經“人去樓空”,創始團隊被微軟盡數挖走,希望階躍星辰不會效仿這樣的結局。