所有語言
分享
文章來源:騰訊科技
作者:郝博陽
2023年是大模型狂飆的一年,各種研究日新月異,但它和大多數普通人的關聯還遠未建立。一方面是由於缺乏有效和多樣的用例,大模型在一般人的手中能發揮出的作用很難超越搜索引擎。另一方面是體驗上的限制。
當下主流的大模型應用,如ChatGPT, Charater.AI等,都是以App形式承載的雲端應用,用戶量一度達到數億。但高通高級副總裁Ziad Asghar認為,只有當智能設備有更好的AI體驗的時候,AI應用才能真正做到普及。因為設備端的能力能給用戶帶來更快的響應,更好的個性化配置和更便宜的價格。這三個因素對於消費者最終接受新興產品來講至關重要。
這種認知也來自於科技產業的歷史經驗。Ziad 認為新科技的擴散路徑就是從雲到端,過往的互聯網等技術變革都是在服務器中,通過PC或移動端覆蓋到更大的用戶技術的。因此AI也會溯源這一路徑,以設備為節點鏈接終端用戶。
除了AI硬件能力的提升之外,高通對AI時代的應用和設備發展方向也有自己的預判。Ziad Asghar表示,AI在未來可能會成為一切應用的入口。這意味着過往要開啟數個App才能完成的流程,在未來只需向AI助手提起單個需求即可完成。在這一應用程序範式轉變的過程中,除了智能手機,AR、VR產品也有可能會成為AI應用的優質載體。
以下為騰訊科技對高通高級副總裁Ziad Asghar訪談全文:
騰訊科技:高通在2023驍龍峰會上着重強調了AI能力,在高通的定位中AI是一個怎樣的game changer?
Ziad Asghar:高通實際上已經在人工智能上投入了超過15年。2022年底ChatGPT出現之後,人們開始每天利用它工作,並尋找在日常中如何更好使用它們的方法。風潮過後,我們思考的是從產品方面,如何讓AI能夠為消費者做更多的事情。
在過去,電腦只是一台電腦,但現在它可以利用AI為你做很多事情。它能讓你以更高效的方式工作,包括內容創作,為你寫郵件,完成比以前更多的任務。
而且在過去,人工智能是在背後默默工作的。它在幕後幫助你改進照片、音頻、語音或視頻質量。但隨着生成式人工智能的出現,出現了基礎模型和用例,它創造出了新的機會。我們每天都可以看到行業中出現新的模型,這些模型具有更多的功能,能夠為我們帶來新用途。
因此,從智能手機到PC、從AR/VR到汽車和IoT,我們的產品都在充分利用我們對人工智能的長期投入。這就是我們認為AI是行業真正轉折點的原因。它或許會開啟一個新的周期,人們要買新手機,會想要一部AI智能手機;他們想買的下一台PC,會是一台AIPC。我認為這就是我們能夠為消費者帶來更多價值的地方。
騰訊科技:你提到了高通已經投入人工智能領域超過15年,所以它能算一家AI公司了嗎?
Ziad Asghar:我們絕對是一家人工智能公司,如今大家更能明顯的感知到我們的這一身份。
騰訊科技:高通作為一家硬件公司是如何認知自己的AI價值的呢?
Ziad Asghar:所有的技術創新都會從雲端開始,然後隨着時間的推移,逐漸過渡到邊緣設備上。這正是我們在人工智能領域所看到的:生成式AI模型非常龐大,如果你考慮模型和推理所需的工作量,就會發現端側計算的重要性。現在,我們可以在智能手機、PC和XR產品上以非常快的速度運行70億、100億和130億參數的像百川或Llama這樣的大語言模型。在智能手機上,我們可以以每秒生成20個token的速度運行70億參數的大語言模型,在電腦上這個速度達到了每秒30個token。因此,我們在終端側已經擁有了強大的AI計算能力。
人工智能的應用主要有兩個部分:訓練和推理。模型訓練主要發生在雲端,只要給模型提供大量信息,模型只需要訓練一次。但訓練好的模型需要進行推理時,計算會多次重複發生,這很可能要發生在終端側。這其實顯而易見:在2005年,大約有10億人口能夠使用互聯網;但如今,全球有50億人能夠使用互聯網。這一增長中的很大部分要歸功於智能手機對網絡的接入。
你完全可以想象人工智能的應用發展也會是同樣的情況。如今,生成式人工智能基本上是在雲端進行的,但隨着技術進一步發展,它會更多地出現在終端側。當然,終端側可以與雲端協同工作。這將大大推動AI體驗的普及。
騰訊科技:在今年,我們看到所有的芯片公司都在強調人工智能。他們都在打造AI芯片以增強人工智能體驗。那麼,高通對AI芯片的定位和相對優勢是什麼?
Ziad Asghar:誰能更好地在終端側運行生成式AI,誰就將成為人工智能的領導者。這就是為什麼我們大力投入於進行模型優化,以及打造硬件解決方案,讓終端側能夠在既定功耗下實現更多的AI能力,我們的硬件AI引擎在既定功耗下有着領先的AI推理性能,這使得我們能夠以盡可能低的功耗,在終端上支持更高參數規模的模型,進行更多的推理操作。這一點至關重要。
從硬件角度,我們已經開發了模型量化、壓縮和提煉技術。很多公司在雲端訓練模型時,是以浮點運算方式進行訓練的。而高通能夠支持整數運算,使得模型規模更小,功耗也更低。大語言模型的終端側運行帶來了許多挑戰。要運行一個非常大的模型,需要將其存儲在終端,在處理時需要佔用DRAM內存,通過芯片進行推理。如果使用16位浮點運算推理像百川這樣參數達到70億的大模型,模型會佔用終端大量的DRAM內存,許多手機甚至沒有那麼大的內存容量。但是如果使用4位整數運算,內存的問題就解決了。我們在這方面有着豐富的經驗。同時,我們一直在打造軟件工具,結合我們領先的硬件平台,我們能夠非常高效地進行模型處理。因此,我覺得我們非常有優勢,可以在AI邊緣側真正取得領導地位。
得益於我們長期的AI投入,我們打造了業界領先的硬件AI能力。以PC為例,我們剛剛發布了驍龍X Elite,它的高通AI引擎擁有45TOPS的AI性能,而整個芯片的AI性能達到了75TOPS。在PC領域,我們的AI引擎,包括CPU、GPU和NPU的性能非常領先。
因此我們可以支持在終端側運行Microsoft Copilot,以低成本打造豐富體驗,不需要接入雲端。這為我們帶來了巨大的優勢,我們能夠賦能PC廠商打造出領先的AIPC產品。當然,在智能手機、汽車、XR等領域也是如此。
騰訊科技:您剛才提到了軟件。目前英偉達在AI服務器中的垄斷地位,在很大程度上是由CUDA toolkit的便利性帶來的。高通在配套開發軟件這方面有什麼舉措嗎?
Ziad Asghar:2022年,我們推出了高通AI軟件棧(Qualcomm AI Stack)這一AI軟件產品組合,它支持所有的AI開發框架,包括TensorFlow Lite,PyTorch,百度飛槳等等,以及所有AI庫、編譯器等開發工具,讓開發者能夠基於任何引擎(包括CPU、GPU、NPU)進行應用開發。同時,我們還推出了高通AI引擎Direct的框架,它能允許開發者在非常接近硬件的位置進行編碼,這使得他們能夠充分發揮高通AI引擎的性能。
此外,你將看到我們將通過在世界移動通信大會等活動上推出更多新工具,在開發者支持方面做出更多努力。
(Qualcomm AI Stack 架構)
騰訊科技:為什麼高通選擇了端雲混合AI作為你們的主要發展方向?
Ziad Asghar:這是我們研究了眾多不同的生成式人工智能模態得出的結論。首先,對於不論是大語言模型、視覺模型(如Stable Diffusion)、還是多模態模型,大部分模型的運算規模都不超過150到200億參數。另一個趨勢是模型參數規模在不斷縮小,同時功能越來越強大。像Llama 2或者是百川這種規模的模型,他們相比於ChatGPT這樣規模更大、需要在雲端運行的模型來說,能力也非常強大。所以,當你把這兩個趨勢結合起來思考時,就能明白終端也能夠做更多事情。而且在未來,我們的AI能力會持續提升。
但仍然會有非常龐大的模型,比如推薦模型無法被壓縮。因此,我們認為它們可以繼續在雲端運行,在混合AI模式下,模型可以在端側處理一部分內容,這可以保證消費者的數據隱私,這對他們來說這非常重要。系統會將其他推理任務傳遞到雲端進行處理。通過混合AI,模型能夠同時利用終端和雲端優勢,給消費者提供最佳體驗。
假設,你正在利用AI對電腦上的文件進行摘要,如果這個文件有一定版權性質,你肯定希望處理工作能在本地進行,那麼系統就會在端側將這個任務完成。但假設你需要一個必須在雲端處理的推薦模型,我們也可以利用在終端和雲端進行分佈式處理的技術。AI處理可以擁有一個雲端和終端之間的協調層,實現非常出色,統一的跨終端體驗。
騰訊科技:除了隱私保護外,終端側AI還會帶來什麼雲端無法帶來的用戶體驗?
Ziad Asghar:首先,假設你在飛機上無法連接網絡,這時候你就無法使用任何雲端大語言模型或其他類似的功能。而如果你在終端側運行AI,雖然斷了網,但你仍然可以獲得完全相同的體驗。在汽車数字座艙中也是如此,當用戶駕駛到沒有網絡覆蓋的地方,也可以利用終端側AI。
第二點,端側模型可以實現非常快速的響應。消費者的耐心有限,如果不能夠迅速地回答他們的問題,他們就會去其他地方尋找答案。因此,我認為即時性是非常重要的。
第三點是成本。成本是非常重要的因素。如果你不是在終端側,而是在雲端運行生成式AI,那就會用到高算力的GPU,耗費大量的電力。這些GPU會消耗數百瓦的電力,而你的設備只需要幾毫瓦。因此,當有更多的生成式人工智能用例出現,有更多的人使用生成式AI時,雲端計算規模也會對應增長,成本就會增加。而在終端側運行則基本解決了這個問題:基本可以說是免費的。
最後的一個非常重要的優勢是,智能手機會知道現在的時間,你在美國還是在中國;智能手機知道你是在行走,還是在交談,還是在開車。如果我在雲端大語言模型上提問尋求幫助,它給我的答案和它給我11歲的女兒的答案不會有任何差別。但如果我們能夠利用終端側可用的信息,使得查詢更加精準,AI就可以給我一個更優化的答案,比如一個根據我所處位置不同的答案。所以,終端側AI對實現個性化體驗非常重要。甚至可以想象,隨着時間的推移,手機或電腦上的模型會基於用戶特徵進行持續的個性化優化,這是雲端模型難以做到的。
騰訊科技:前幾年流行的“全部上雲”風潮,包括蘋果的雲遊戲策略等,都是通過雲技術的發展,延遲的降低,在很大程度上也降低了遊戲機等設備的端側能力需求。這一發展潮流是否會在AI 模型方面出現?所以端雲混合是否只是一個階段性的解決方法?
Ziad Asghar:雲遊戲是很多公司嘗試過的東西。但如果你仔細觀察,會注意到能夠在雲上運行的遊戲類型很有限,只有那些對時延不敏感的遊戲才行,比如策略遊戲。但如果是像多人聯網動作遊戲這種對時延要求很高的遊戲類型,就不適用於在雲端進行。在AI用例方面,比如車機系統中的ADAS應用(高級輔助駕駛),它必須支持在終端側進行操作,因為它對即時性的要求會非常嚴格。所以雲系統在很多方面是非常受限的。
另外,這些服務許多都是需要付費的。我認為這也是雲端和終端的區別所在。我們在終端側所做的,你可以隨時進行,而且不會產生費用。放在雲端的所有東西,都會持續收取費用。
騰訊科技:在目前,AI大模型還主要是以App的形式出現在智能設備之中的。您覺得後續隨着AI能力的加強,應用程序生態會發生怎樣的變化?
Ziad Asghar:實際上,這正是我們目前所設想的情況。假設你要預訂一張去中國的機票,現在你要做的第一件事是打開一個應用,然後找到裏面價格最便宜的航班,把它添加到另一個日曆應用里,然後再查看你的日曆確認你什麼時候出發。這是現在你定航班的流程。
那如果你的虛擬AI助手就是你所使用的終端上的唯一交互對象,你就只需要和它交互,而它再在幕後啟動三、四個應用,為你直接返回結果,找到最優的航班,提供你可以選擇的時間。現在即使在家裡使用一些智能家居應用,我也必須打開三四個不同的應用才能弄清楚該怎麼操作。但有了AI你就不再需要這樣做。
這同樣也適用於汽車。今天它的交互非常机械化,但在未來你可以跟它說,“我還有大概三個小時就要去機場,你能給我找家好吃的日料店嗎?”汽車就能夠在不耽誤航班的情況下滿足你的需求。這是一種全新的體驗,就像《霹靂遊俠(Knight Rider)》里那樣,我就是看着《霹靂遊俠》長大的。所以我們現在有了這樣的技術,可以改變過往的用戶交互界面。
(美劇《霹靂遊俠》,1982年開播,其中的智慧汽車K.I.T.T.由AI驅動,可以對話和自動駕駛)
騰訊科技:所以在你看來,AI會成為一個萬能應用嗎?
Ziad Asghar:我認為這正是未來的發展方向:你不用再打開4-5個應用去完成一件事,而只需要和AI虛擬助手交互即可。它會搜集需要的信息並直接給你答案。這就是人工智能幫助我們節省時間的方式。我們不需要再進行這些繁瑣的工作了,生活也會更加輕鬆。
騰訊科技:那在這樣一種萬能應用的背景下,电子設備本身會發生什麼改變呢?新型的AI設備會是什麼樣的?
Ziad Asghar:智能手機當然會從中受益,因為這是人們最常用的終端。但是我們做了更多準備,我們有AR/VR產品,未來可能會有虛擬助手出現在你的AR眼鏡上,它也可以出現在AI Pin上。高通致力於賦能廣泛的邊緣側智能網聯終端,我們認為其他終端類型也將不斷髮展,AI設備的形態創新還有很大空間,我認為這就是初創公司能儘力進行創新的地方。
騰訊科技:你提到了VR、AR。這些XR設備之所以不流行很大程度上是因為沒有合適的交互方式。AI的出現會改變這種情況嗎?
Ziad Asghar:絕對會。比如AR眼鏡,你不能像智能手機那樣在上面輸入文字,所以最好通過語音進行交互,或者你要指着某樣東西,那這個設備需要有出色的手部追蹤技術。它需要不同種類的互動方式,而人工智能非常適合將這些交互形式變為現實。