所有語言
分享
原創:李欣帥
谷歌正憑藉強大的算力儲備和基礎設施快速研發下一代AI大模型。AI“一哥”的位置被OpenAI暫時取代之後,該位置或許即將重回谷歌手中。據SemiAnalysis報道,谷歌下一代大模型Gemini的訓練算力已達GPT-4的5倍。
眾所周知,算力是AI大模型研發的“超級引擎”,它能讓模型更快地學習、分析數據。算力不僅影響着模型的研發進度,還直接關係到模型的性能和可靠性。
因此,在AI熱潮席捲全球的當下,引發了一場前所未有的“算力爭奪戰”。從大型企業到創業公司,都在爭搶提供算力資源的GPU,最終導致GPU供不應求。
就連OpenAI這樣早早就手握大量GPU資源的公司如今都面臨GPU短缺問題。在今年6月,OpenAI的CEO Sam Altman曾提到,OpenAI 現在最大問題來源於GPU。由於GPU短缺,客戶對OpenAI提供的API的可靠性和速度有所抱怨。而更長上下文等功能的開放也受限於GPU。而為解決GPU短缺等問題,OpenAI目前正积極謀求融資。
與此同時,在OpenAI等公司為GPU犯愁時,谷歌有着自家設計的TPU(張量處理單元)。TPU是谷歌開發的人工智能加速器專用集成電路,於2015年開始在谷歌內部使用。自發布以來,谷歌已經構建了6種不同的AI芯片(TPU、TPUv2、TPUv3、TPUv4i、TPUv4和TPUv5)。
TPU是專門為機器學習設計的芯片,在AI研發的某些方面可能比GPU更高效。並可以高度優化以適應谷歌的軟硬件生態和人工智能計算工作負載。儘管TPUv5單個芯片的性能與H100 GPU芯片還有差距,但在谷歌自家的生態系統(如TensorFlow框架)中,TPU通常會有更好的性能和成本效益。
TPU可以很快地處理神經網絡中使用的大量矩陣運算。圖源:谷歌
據了解,谷歌全新架構的多模態大模型Gemini,正在以令人難以置信的速度迭代。最近的一次迭代算力高達1e26 FLOPS,是GPT-4訓練算力的5倍。據SemiAnalysis預測,這一数字有可能在明年年底變為20倍。
谷歌的算力資源仍在快速增長。據報道,OpenAI即使在兩年內將GPU總數增加4倍,谷歌的算力資源仍然處於大幅領先地位。目前OpenAI、Meta、CoreWeave、甲骨文和亞馬遜的GPU總和仍要小於谷歌擁有的TPUv5數量。
由於算力的重要性,算力資源的差距很可能會成為谷歌拉近並拉開和OpenAI距離的關鍵因素。畢竟,擁有更多的算力資源意味着能進行更多的實驗,更快地迭代模型。
除了在算力方面的優勢,谷歌還擁有全球範圍內的大規模數據中心,為大模型的訓練和部署提供了強大的基礎設施。這使得它與其他公司(如OpenAI)競爭時具有明顯的優勢。這種優勢不僅體現在現有的資源上,還體現在其持續增長和未來發展的潛力上。
總體來說,谷歌在資源、技術、生態系統、商業模式和全球戰略等多個方面可能具有優勢,這使其在大模型的研發和發展方面具有相當的競爭力。至少在訓練前的計算規模擴展和研發速度方面,谷歌應該會最終勝出。
相比之下,OpenAI雖然在模型設計和算法研究方面有着前沿的成果,但在硬件資源方面相對較弱。這種差距可能會限制OpenAI在模型規模和應用場景上的拓展能力。
充足的算力資源和高效的基礎設施,會成為谷歌在AI研究和商業應用方面的利器,也可能會成為谷歌和OpenAI競爭的重要分水嶺。當然,最後還是要看成品如何,也就是谷歌的下一代模型Gemini是否會比GPT-4 更有優勢,這一結果可能在未來幾個月會見分曉,Gemini據稱會在今年秋季發布。它是否會取代ChatGPT的地位值得期待。