所有語言
分享
文章來源: 騰訊科技
作者:郝博陽、郭曉靜
蘋果電動汽車項目,通常被稱為“泰坦計劃”(Project Titan),於2014年啟動,投入數十億美金,"泰坦"(Titan)來源於希臘神話,與創造力和巨大神力相聯繫。這個被蘋果內部給予厚望的“神之項目”,即將被叫停,而團隊將部分轉崗至生成式人工智能項目。
“神力”被轉移至生成式AI,這已經成為蘋果日益重要的戰略重心。轉崗的團隊即向John Giannandrea彙報,他在2018年加入蘋果公司,擔任機器學習和人工智能戰略高級副總裁。他在蘋果的職責包括領導公司的AI團隊,推動Siri和其他AI項目的改進和發展。
而在2023年的9月8日,外媒The Information首次曝光了蘋果公司AI大模型開發團隊的核心成員,其中就包括John Giannandrea,還有參与創造Java的Arthur Van Hoff、神經網絡領域專家Ruoming Pang,強強聯手助力蘋果AI大模型發展。
以上這些人員的調整及變動,外界都是通過媒體的爆料而得知。蘋果這家引入注目的公司,在眾多美國科技大廠爭相高調宣布AI戰略的時候,顯得過分沉默,沒有在任何官方發布會、甚至官方途徑透露過他們的AI戰略。
常年跟蹤蘋果的科技記者馬克·古爾曼(Mark Gurman)在《Power On》中透露,蘋果計劃在即將到來的全球開發者大會(WWDC)上推出一系列基於生成式人工智能的工具,這可能包括對Siri的改進。這些新工具預計將作為iOS 18的一部分,提供更自然的對話能力和更加個性化的用戶體驗。還有媒體猜測,蘋果的基礎大模型,也將於2024年的WWDC上正式推出。
這波生成式AI浪潮中,蘋果真的慢了嗎?我們將在本篇文章中,嘗試梳理從2011年蘋果推出語音助手Siri開始,對AI領域的持續投入。
蘋果在AI浪潮中曾經也是當之無愧的弄潮兒。
13年前,當Siri第一次亮相在iPhone 5發布會時,這個能流利對話的AI語音助手在當時的人眼中就等同於未來科技:它是當時人工智能最高的結晶。那時,連研究AI多年的蘋果軟件主管福斯托爾都不太相信這個產品能實現,他表示“我在人工智能領域工作了很長時間,但這仍然讓我感到震驚。”。
與GPT所依賴的深度學習完全不同,造就這一當時技術奇迹是NLP(自然語言理解),依靠一種硬編碼的“命令和控制”系統來實現其對答的能力。它只能理解被編程進去的問題框架和請求,以及一堆分離的詞語。如“查查北京今天的濕度”,“給老媽打個電話”。一旦要求超出編程體系,Siri馬上無能為力。所以蘋果有一個20人的團隊,專門去想用戶可能提什麼問題,並把它們更新到系統里去。它的改進也極其繁複,在紐約時報採訪其前項目負責人時,他表示,Siri的數據庫非常龐大複雜,在這一體系進行任何簡單更新,都需要重建整個數據庫。並花上超過六周的時間。添加新的複雜的功能可能需要近一年的時間。這也是13年來,你的Siri雖然變聰明了點,但並不多的主要原因。
因為市場上確實缺乏能打的競品,亞馬遜的Alexa和谷歌的語音助手使用體驗上並未拉開差距,蘋果在這一能力的更新上也顯得漫不經心,大公司病逐漸累積。缺乏迭代讓Siri甚至在蘋果內部都遭自家員工厭惡。據Infornation報道,VisionPro的製造團隊因為Siri表現太差曾一度想更換控制XR系統的語音助手。
在同一篇Information關於Siri亂局的報道中提到,在2018年蘋果的新AI負責人John Giannandrea從谷歌空降之前,Siri團隊的內部狀況是老員工爭山頭、技術路線搖擺不定、開發幾乎停滯。Giannandrea成功整合了團隊,也推動了Siri的演化速度。2019年,Siri收購的搜索團隊Laserlike發布了第一項應用了Transformer架構的新Siri功能,可以讓Siri整合網絡信息來回答用戶的問題。而谷歌已經至少提前五年開始應用這一技術了。
雖然Siri開始動起來了,但它面前還面對着三座大山:官僚主義、頂層微操和設計團隊的保守意見。
官僚主義佔據了大量的人力成本,比如腹死胎中的Siri 黑鳥計劃,通過重寫和簡化Siri的架構,讓它能更快反應,允許app開發人員創造功能,並能在iPhone端側運行。結果為了滿足高層老員工的10年Siri獻禮工程的需求,人員都被抽調過去,最後只實現了iPhone端側運行這一個功能。
另外一個大問題就是頂層對聲譽的執着及無限向下的微操,它幾乎阻止了所有大的技術創新。由於Siri的語音提示可能帶來一定的公關風險,在2019年初,印第安納州一名13歲男孩試圖利用Siri查找校園槍擊的方法之後,包括蒂姆·庫克在內的蘋果老闆們經常給Siri挑錯,這讓他們很難有勇氣嘗試準確性不高的回答技術,比如深度學習技術。
而設計團隊在蘋果體系中的超然地位和嚴苛要求也讓很多功能改變推行舉步維艱,比如在發布新的搜索功能之前,工程師和設計團隊就在回答的準確性問題上發生了衝突。例如,Siri設計團隊希望該功能的答案接近完美,而工程團隊則希望準確率接近80%。工程師們花了數月時間說服Siri設計師,並不是每一個答案都需要人工驗證,這一限制將使Siri無法擴大規模來回答用戶提出的大量問題。但直到一年以後,設計團隊放棄了這一規定。加一個用戶反饋疑惑,用於收集Siri缺陷的按鈕都被設計團隊否決了,原因是“他們希望Siri看起來全知全能”。
這一系列問題最終導致的結果之一是2022年底,在蘋果AI體系中最有創新能力的Laserlike團隊的三名核心成員心灰意冷,轉投谷歌。另一個結果,就是蘋果,這家在13年前站在AI前沿的公司,在2022年末OpenAI帶來的這場技術浪潮開始被遠遠甩在後面。
終於,ChatGPT的一記天雷震醒了蘋果的迷夢。在2023年的每次業績電話會裡,股東們關於蘋果AI發展的提問都成了媒體關注的中心,庫克缺從沒有透露過AI計劃的細節。
但在這一年裡,蘋果其實在暗中開足了馬力:明確業務路徑、巨量資金投入,團隊調整,跨部門通力協作。低調一年,它準備在2024年翻盤再來過。
雖然成效現在還不顯著,但通過觀察團隊變化和技術論文,我們還是可以拼湊出2023年蘋果都做了什麼,2024年它打算拿出什麼。
根據多位曾在蘋果公司從事機器學習的工程師稱,蘋果公司的領導層似乎更重視“邊緣AI”,即在設備上而不是在雲服務器上運行AI模型軟件。Apple的AI戰略,從來不在科技大廠爭相發布的“越來越大、越來越強”的基礎大模型。與依賴雲計算的大型語言模型不同,邊緣AI在本地設備上運行,無需雲服務器或互聯網連接,從而提供更快、更安全、更可靠的AI計算性能。
根據IDC的數據,2023年,iPhone以20.1%的佔有率居市場第一。據不完全統計,蘋果可能在全球覆蓋大概十億台左右的終端設備,這就意味着,一旦在iOS中集成了新AI功能,它將迅速覆蓋數十億台設備,影響數億用戶。這種市場准入優勢是其他公司所不具備的。
1、團隊發力,追上版本更新
蘋果並不缺少人才,現在需要的只是讓他們成為有權改變現狀的人。
雖然Giannandre在2023年之前都對大語言模型的能力有所懷疑,在今年初才被各路Chatbot的演示徹底說服。
但他還是對大語言模型有所準備,在四年前就組建了Foundational Models團隊來開發這一新技術。它的原始團隊正是之前提到的那個試圖重塑Siri的黑鳥項目團隊,其領導者是Java的締造者之一Van Hoff。在黑鳥項目失敗之後,他轉向了大語言模型的探索。2021年,在谷歌工作了15年的神經網絡學習大神Rouming Pang加入蘋果,成為Foundational Models團隊的新負責人,在2023年,他開發的Axlearn訓練架構幫助蘋果有了開發大模型的基礎。這三個人就是蘋果AI項目中最核心的三劍客。
這一過去在蘋果中並不核心的團隊終於有了足夠的資源去實現他們的野心。在Information9月6日報道這一團隊時,它僅有16個人,但已經足調動每天數百萬美元的訓練經費。這一年裡他們在從Ajax GPT開始,一步步提升能力,直到年末推出能裝進手機里的多模態大模型,追上了AI發展的最新版本。
Information披露的蘋果大語言模型核心架構,三劍客都在這張圖裡
2、三劍客John Giannandrea、Craig Federighi、John Terners再造蘋果AI路線圖
目標是iPhone上能運作的AI,那技術路線也就相對明晰了:訓練一個新的端側模型,用它再造一個新Siri,來充當AI時代里蘋果產品里的新大腦。如下圖所示,基本三劍客的最終目標,都指向於此。
三劍客從基礎大模型、軟件工程、硬件三個部分共建蘋果AI
John Giannandrea的基礎模型團隊,承擔了基礎大模型研發、多模態、端側模型、空間計算等多個關鍵技術的研發,目前可以看到的成果是:這個團隊訓練的Ajax GPT訓練參數量可能超過2000億,或許功能上強過當時被當做業內能力基準的GPT-3.5。在2023年末,又低調發布了Ferret多模態大語言模型,這個模型支持文字、聲音、影像的多模態輸入;並通過其獨特的混合區域表示技術,有效地識別和描述圖像中的複雜空間關係。此外,Ferret模型在執行語言模型推理任務時表現出比較高的效率。與以往蘋果對外的封閉態度不同,這次也可能和John Giannandrea的理念相關,蘋果開源了Ferret的代碼和豐富的GRIT數據集,也進一步證明了其在多模態理解和生成任務中的潛力。
LLM移動設備可用化技術開發方面,2024年1月14日我們看到蘋果更新了一篇論文(https://arxiv.org/pdf/2312.11514.pdf),主要關於如何在內存受限的設備上高效地進行大型語言模型(LLM)的推理。蘋果研究團隊提出了一種新的方法,通過將模型參數存儲在閃存(flash memory)中,並根據需要將其動態加載到動態隨機存取內存(DRAM)中,從而解決了LLM在資源受限設備上運行時的挑戰。
用通俗但不太精確的語言解釋就是:
這些語言模型通常需要很多內存來運行,但如果設備內存有限,就會遇到問題。蘋果想出了一個新點子:他們把語言模型的參數(就像是模型的大腦記憶)存儲在閃存里,這是一種存儲空間比較大但速度慢一些的存儲方式。然後在需要的時候,再把這些參數臨時搬到動態隨機存取內存(DRAM)里,這是速度更快但空間有限的內存。這樣做的好處是,可以根據需要只搬運必要的參數,而不是全部搬來搬去,這樣可以節省時間和內存。
他們用了兩種技術來實現這個想法:
窗口化:這個技術就像是在看一本書時,你不需要每次都從第一頁開始看,而是只看你當前需要的那一部分。在語言模型中,這意味着我們只加載那些之前已經激活(就像是被用過)的神經元,這樣可以減少重複加載相同的信息。
行列打包:這個技術是利用閃存讀取大段連續數據時速度更快的特點。想象一下,如果你要搬一堆磚頭,一次搬一整堆比一次搬一塊要快得多。在處理數據時,我們把相關的數據打包在一起,一次性讀取,這樣可以提高效率。
通過這些方法,即使設備的內存不是很大,也能運行那些比內存還大的模型,而且運行速度比原來快了很多。這就像是在一個小房間里,通過巧妙地安排,也能舉辦一場大型派對。這樣的研究成果讓那些內存有限的設備,比如手機或者平板電腦,也能用上先進的語言模型了。
除了基礎模型團隊的努力之外,由Craig Federighi領導的軟件工程部門要能讓Siri這個核心基礎發展出更多的符合用戶使用習慣的功能,比如提供Siri和Messages應用程序自動完成句子的功能。同時他們還會將大語言模型集成到Xcode等開發工具中,這樣新版本iOS的應用程序開發人員就能像有Windows Copilot一樣更高效的編寫新的應用程序。而由Eddy Cue領導的服務部門則需要去探索如何在其他蘋果生態的軟件中應用最新的AI技術,比如在生產力工具Keynote中去自動生成PPT。
第三路是John Terners帶領的硬件團隊。與依賴雲計算的大型語言模型不同,邊緣AI在本地設備上運行,無需雲服務器或互聯網連接,從而提供更快、更安全、更可靠的AI計算性能。“邊緣側AI”如何能跑得快、跑的准,是保證用戶體驗的兩個先決條件。滿足這兩個條件一個是足夠強大的硬件支撐(芯片等)、另外就是軟件硬件結合的強大能力。以蘋果最新發布的A17芯片為例,它被行業用來與競品高通發布的驍龍8Gen3芯片對比,兩款芯片在各項能力上不相上下。驍龍8Gen3被官宣可以支持百億參數大模型在手機邊緣側運行,而蘋果的A17芯片,並沒有宣布端側支持AI模型的具體能力。但從芯片的具體參數對比來看,這對於蘋果來說,似乎並不是難事。除了手機端,PC端的AI能力,也是市場關注的焦點,而M系列芯片,專門為Mac產品線而設計。我們也可以期待,是否今年蘋果硬件的升級中,會明確提出如何去支持AI功能的升級。
當基礎模型能力、軟件能力、硬件算力能力三路會師、齊頭並進,我們可以期待,是否會有一個新的蘋果的誕生。
從被詬病的Siri開始,蘋果其實完全沒有停止在機器學習領域的持續投入,通過下圖我們可以看出,蘋果在計算機視覺、自然語言處理、多模態等領域都有成果發布。
與外界對其“佛系”的印象不同,其實蘋果是在AI領域收購最為积極的公司,根據Stocklytics.com的數據,到2023年,蘋果購買了多達32家AI初創公司,這是科技巨頭中數量最多的(谷歌21家,Meta18家,微軟17家)。
Stocklytics的金融分析師Edith Reads對這些數據發表了評論:
在持續的AI軍備競賽中,蘋果正在與許多AI初創公司進行大規模交易,主要為了在未來發展中佔據有利位置。通過收購有前景的AI初創公司,蘋果獲得了頂級人才和核心創新技術,並在關鍵的AI領域鞏固了其地位,確保在迅速變化的技術環境中保持競爭優勢。
蘋果的投資策略側面反應了蘋果在AI領域的關注重點,包括AI人才、關鍵技術和知識產權。
早在2020年,蘋果公司就收購了Voysis,這是一家參與制作数字語音助手的AI初創公司,這些助手自然地幫助理解自然語言。蘋果收購該公司的目的是改進其設備中的虛擬助手Siri。
蘋果還在2023年3月收購了WaveOne,其技術有助於大量視頻壓縮。蘋果獲得的其他技術包括Emotient、Laserlike、Drive.AI和AI.Music,其中一些已經嵌入到iPhone、Apple Watch和Mac中。
蘋果收購狂潮的一個顯著特點是其強調收購早期階段的初創公司,這表明了一種积極的戰略,即在AI趨勢和技術達到主流採用之前,識別並投資於它們。
去年除了大模型及其應用以外,在AI行業被討論最多的是一個話題,未來的智能終端設備還是手機嗎?如果不是手機,AI原生的智能設備將是什麼形態?
Ai Pin, Rabbit R1的答案是不需要。他們縮小了設備,簡單化了交互,甚至幹掉了屏幕。
但人是視覺動物,在屏幕技術沒有被另外一種視覺技術取代時,不管交互如何變化,應用怎樣發展,我們都需要一個屏幕。那這個AI智能設備的形式就會和在便攜性和體驗間探索平衡的智能手機相差不遠,除了芯片外的硬件底層也不會差太多。
而最有潛力替代傳統屏幕的显示技術XR,蘋果也已經用Vision Pro站住了生態位。
如果還是手機,什麼才是真正的AI手機,我們和主要終端廠商的AI團隊聊過,大家的共識是,打破應用壁壘,垂直整合端側應用,通過用戶一個指令,就能夠調動千軍萬馬(各個APP)自動幫助用戶解決需求。這需要終端廠商有強大的生態整合能力,且對每個APP有足夠的話語權。而蘋果在這方面,確實有足夠碾壓的優勢。路線上,蘋果還可以是王。
時間上,2024年發布第一代結合GenAI的系統其實並不算慢。生成式AI在設備上的應用離成熟還相差甚遠。比如蘋果的主要對手谷歌在Pixiel上搭載了很多AI功能,但大多都是如AI一鍵摳圖,信息自動回復之類零碎添頭,並非能夠徹底改變體驗的產品。它的拳頭產品Gemini甚至到了2023年底才有了App本體。AI在智能手機上的應用還很不充分,這一方面是因為應用模式還在探索期,另一方面也是因為當下端側算力能夠承載的生成式AI能力還很有限,而這兩個問題都很有希望在2024年得到初步解決。
蘋果入局的現在,才是遊戲開始之時。