所有語言
分享
文章來源:硅星GenAI
文章作者:周一笑
相信你或多或少對GPT有一定的了解,但我賭你沒聽說過bGPT。bGPT的意思是byte GPT,即字節GPT。
Meta 近日披露了兩個新的 GPU 集群,將用於訓練下一代生成式人工智能模型,包括即將推出的 Llama 3,以及 GenAI 和其他領域的人工智能研究與開發。新的集群在硬件、網絡、存儲、設計、性能和軟件等方面進行了定製優化。
Meta 公布的兩個 GPU 集群 GPU 總共擁有 49152 個GPU,每個集群都裝配了H100 GPU,而 Meta 此前 AI 研究超級集群 (RSC) GPU 集群約有 16000 個 A100 GPU 。RSC 在 Llama 和 Llama 2 的開發以及計算機視覺、NLP、語音識別、圖像生成、編程等人工智能模型的開發中發揮了重要作用。
PyTorch 創始人,Meta 工程師 Soumith Chintala 在 X 上分享了關於 Llama 3 的一些細節:使用了 RoCEv2 網絡,基於T ectonic/Hammerspace 的 NFS/FUSE 網絡存儲,標準版本的 PyTorch,帶有一些補丁的 NCCL:補丁和交換機優化使集群具有相當高的網絡帶寬實現,各種調試和隊列監控工具,例如 NCCL 異步調試、內存行重新映射檢測等。
Meta 表示將使用新的 GPU 集群來微調現有的人工智能系統,並訓練更強大的新系統,包括 Llama 3。此外,Meta 還透露正在對 PyTorch 人工智能框架進行升級,為支持更大規模的 GPU 訓練需求做準備。
新的 GPU 集群是 Meta AGI 路線圖的一部分,目標是到 2024 年底,基礎設施建設將包括350,000 個 NVIDIA H100 GPU,計算能力相當於將近 600,000個 H100 GPU。作為對比,OpenAI 訓練 GPT-4,用了大約 25000 個 A100 GPU。而訓練 GPT-5 預估需要 30000 到 50000 A100。
要保持在 AI 領域的領先地位,意味着對基礎設施的大量投資,對於 Meta 來說,軍備還遠未結束。根據市調機構 Omdia 發布的報告,Meta 在 2023 年買了超過 15 萬塊 NVIDIA GPU,與之相當的只有微軟,而亞馬遜、甲骨文、谷歌、騰訊等都只拿到了 5 萬塊左右。2024 年 Meta 預計將購買超過 35 萬塊英偉達 H100 GPU,H100 售價為 2.5 萬至 3 萬美元(不考慮溢價),如果 Meta 支付的是較低的價格區間,那麼將支付給英偉達接近 90 億美元。
在 Dot-com 泡沫時代,任何人都可以以相對較低的基礎設施成本啟動一個網站,個人開發者和初創企業能夠藉助普及的智能設備和移動網絡,在不同成本的範圍內推出產品和業務。而現在,似乎只有那些互聯網巨頭和明星創業公司才能構建 AI 模型。所有這些公司都從投資者那裡拿錢,然後再把錢交給雲計算公司和英偉達,這或許就是為什麼英偉達的股價在如此短時間內超過 2 萬億美元的原因之一。
關於這兩個 GPU 集群的具體架構細節,雖然這兩個集群的 GPU 數量相同,通過 400Gbps 端點相互連接,但採用了不同的架構設計。網絡方面,其中一個集群採用了一個集群採用了具有融合以太網遠程直接內存訪問 (RDMA) (RoCE) 網絡結構解決方案,另一個則使用了 Nvidia 的網絡架構技術 Quantum2 InfiniBand。
採用 RoCE 的 GPU 集群是迄今為止使用商用以太網基礎設施建立的最大的 H100 GPU 集群
這兩個集群均採用 Meta 的開源 GPU 硬件平台 Grand Teton 構建,該平台專為支持大規模AI工作負載而設計。據稱,Grand Teton 的主機到 GPU 帶寬是前代 Zion-EX 平台的四倍,計算和數據網絡帶寬是兩倍,功率需求也是兩倍。
Meta 表示,這些集群整合了其最新的 Open Rack 電源和機架基礎架構架構,旨在為數據中心設計提供更大的靈活性。根據工程師們的說法,Open Rack v3 允許電源架可安裝在機架的任何位置,而不是固定在母線上,從而實現更靈活的配置。
存儲在 AI 訓練中起着重要作用,尤其是處理大量的圖像、視頻和文本數據的多模態訓練任務。存儲方面,Meta 新集群使用自主開發的"Tectonic"分佈式閃存存儲解決方案滿足數據和檢查點需求,並與 Hammerspace 合作部署并行網絡文件系統,解決了數千個 GPU 數據和檢查點的需求。提高開發體驗。
優化整個系統(軟件、網絡等)后,大型集群性能恢復到理想的 90%+ 範圍
性能方面,Meta 建立大規模AI集群的原則是同時最大化性能和易用性,通過優化內部作業調度器和網絡路由策略,以及與 NVIDIA 集體通信庫(NCCL)的改進,提高了大型集群的性能,實現了與小型集群相同的優秀性能。在實際測試過程中,Meta 比較了小型集群和大型集群的性能,以發現瓶頸所在。在上圖表中,展示了大量 GPU 在預期的屋頂線性能消息大小下相互通信時的 AllGather 集體性能(以0-100的標準化帶寬表示)。
大型集群的開箱即用性能最初很差且不一致。為了解決這個問題,Meta 對內部作業調度器如何根據網絡拓撲感知調度作業進行了多項改進,這在減少網絡上層流量方面帶來了延遲上的好處。
Meta 官方博文中的一個小標題,網友:我懂你意思
Meta 還提到,公司將繼續全力支持在人工智能硬件技術棧方面的開放創新,Meta 強調了對開放式計算和開源技術,新的集群均基於 Grand Teton、OpenRack 和 PyTorch 等平台構建而成。
在 AI 領域,Meta 去年推出了大型語言模型 Llama 2、定製芯片 MTIA、文生圖廣告工具以及聊天機器人Meta AI 。
其中,Llama 2 的發布以及開源可商用是開源模型社區的里程碑,扎克伯格曾表示,雖然 Llama 2 不是行業領先的模型,但它是最好的開源模型,而 Llama 3 及以後的版本的目標是構建處於行業領先地位的模型。
根據 The Information 的報道,Meta 計劃於 7 月發布 Llama 3,可能達到超 1400 億參數,比Llama 2 模型的最高參數翻了一倍。據內部人士透露,Llama 3 相對於 GPT-4、Gemini 和 Llama 2,放寬對安全限制的設定,即所謂的“安全圍欄”。這意味着在處理具有爭議性的問題時,Llama 3 旨在提供更好的回答。Meta 的這一舉措顯然是希望至少能夠提供有關用戶查詢的相關上下文,而不是簡單地忽略或拒絕回答用戶提出的問題。簡而言之,目的是提升用戶體驗,通過提供更多信息,而不是簡單地限制對話。
新的基礎設施,更多的 GPU 儲備,扎克伯格 All in AGI 似乎比投入元宇宙更靠譜,股價也迎來上漲,招聘 AI 人才時也可以底氣更足地說自己是“GPU RICH”,看上去一切都走上了正軌。
只不過還是沒躲過美國網友的無情(無腦)吐槽:“堆了這麼多算力,為啥在 IG Reels 上刷短視頻還是比不上 TikTok ?”
參考鏈接:https://engineering.fb.com/2024/03/12/data-center-engineering/building-metas-genai-infrastructure/