所有語言
分享
文章來源:硅基GenAI
作者|張瀟雪
最近Anthropic真是風頭正盛,堪稱贏麻了。
亞馬遜剛剛宣布,再次對它追加27.5億美元投資,共同加速生成式人工智能發展。加上去年9月投入的12.5億美元,總共豪擲超過40億美元,成為亞馬遜三十年歷史上最大的對外投資,也令Anthropic從去年至今的融資額一舉超過100億美元。
而公司開發的旗艦大模型Claude 3全家桶自推出20多天以來,也一路好評無數、口碑爆棚,並在最新的Chatbot Arena排行榜上正式打敗GPT-4,首次登上王位。
我們知道,每當一款新的大模型推出時,都會拿GPT-4來作比較。拉出一張包括MMLU、數學、推理、編程等各項測試的跑分對照表,證明自己哪些參數已經趕超GPT-4。但歸根結底,模型終究是給人用的,到底是不是真的比GPT-4厲害,還得是實際用戶體驗說了算。
昨天,Chatbot Arena新鮮出爐了截至3月26日的聊天機器人對戰榜成績。
在收集了來自47.7萬多野生用戶對於市面上75款大模型的匿名投票后,Claude 3 超大杯Opus在群眾的呼聲中力壓群雄,打敗GPT-4 Turbo成功登頂第1名。大杯Sonnet排名第4,就連 Claude最輕巧的中杯Haiku都超越了初版GPT-4和歐洲新貴Mistral Large,位列第6名。
與此同時Google僅Gemini Pro一員大將殺入前十,來自阿里巴巴的通義千問排在第9。
如果說Anthropic發布Claude 3時引發的“大模型王位易主”討論還存在參數爭議,那麼經過近一個月的場下實測,Claude 3的確用實力證明了自己比GPT-4更能打,成為目前LLM爭霸賽的最大贏家。
社區用戶Peter Gostev還根據Chatbot Arena排行榜製作了從23年5月到24年3月,Top15大模型的動態演變史,清晰展現Claude 3勢如破竹的“上位”全過程。
對榜單不熟悉的朋友,我們先一起來看看它是怎麼打分的。
Chatbot Arena(聊天機器人競技場)是由UC Berkley、UCSD和CMU合作研究組織LMSYS Org開發的LLM測試平台,通過眾包方式進行匿名隨機對戰,評估和排名不同的語言模型。
具體規則是:用戶向兩個匿名模型輸入同一個問題,然後對它們各自生成的答案進行評價,選擇模型A更好、B更好、平手或都很差。它支持多輪對話,直到用戶認定贏家。並且如果在對話過程中泄露了模型身份,那麼投票將不會被計入。最終,Chatbot Arena會採用類似於國際象棋等競技遊戲中廣泛使用的Elo評分機制,來綜合評估大模型能力。
可以看出,與常見的Benchmarks跑分不同,Arena Elo 排行榜成績完全是基於人類用戶的使用體驗和真實反饋,在實用性上更具參考價值。
Chatbot Arena還放出一系列白熱化的後台對戰數據。
模型A在所有非平局Battle中戰勝模型B的比例:
每一組模型組合(不包括平局)的對戰次數:
公布這一結果的LMSYS Org認為,更讓人印象深刻的是Claude 3 Haiku。作為全家桶中最輕量級的模型,它的用戶偏好已達到與GPT-4相當的水平,綜合其速度、能力和200k上下文長度,在市場上現在無人能敵。(同時也誇了一下自家伯克利團隊開發的Starling-LM-7B-beta近期攀升迅速,是市面上最好的7B開源模型。)
許多網友也紛紛注意到了這點,為Haiku鼓掌叫好:“我們擁有了一個GPT-4水平但比它便宜10倍的模型!”
Antrohpic工程師@alexalbert_親自解釋說,Haiku模型的價格和速度被嚴重低估:“據估計,普通人一生大概會說8.6億個單詞,相當於約12億個標記。而Haiku的價格是每百萬標記輸入0.25美元。意味着你僅花費300美元就可以讓Haiku處理一個人一生中說的所有話。更瘋狂的是,Haiku可以每秒讀取高達2.4萬個標記。也就是說只需5000秒,大約83分鐘內,就能分析完一個人一生的經歷。”
人們表示給新王跪了, Claude 3 Opus確實樹立了新的AI行業標準,現實中使用率更高。
“我真的更喜歡Claude。我只是使用免費版Sonnet並與GPT-4進行比較,對於日常對話和事實核實,它似乎更加智能。GPT-4在編程方面仍佔據主導地位,但我並不是特別相信它真有那麼優秀。”
“蘋果應該考慮和Anthropic合作,讓Claude作為iPhone手機的配套AI。”
——這還真有可能。最近有新的傳言流出,iOS 18的AI供應商也許會由Google Gemini悄悄換成Claude 3。Sam Altman因為一直想做AI硬件不被考慮,而安卓集成Gemini後會削弱iOS的獨特性,此時人畜無害又口碑爆炸的 Claude 3似乎才是最佳選擇,扶持它也能讓AI競賽拖得更久更均衡。相信這些到蘋果6月的WWDC開發者大會便會見分曉。
推上也有不少人展示了自己在日常工作中使用Claude 3的一些驚艷實例。
HyperWriteAI 公司CEO Matt Shumer分享了一個用於生成高質量提示的工具「claude-prompt-engineer」 。用戶只需描述任務和輸入變量,Claude 3就會幫你生成許多候選提示,並在排名賽中針對每個用例測試,最後返回最佳提示。
他表示之前的版本接入的是GPT-4,而現在選用Claude 3編寫出的提示比GPT-4質量要高得多。這個工具能自動生成測試用例,支持多變量,進一步自動化prompt engineering的工作流程,他本人已經在實際工作中使用,極大提升了效率。
他還做了一個使用 Claude 3 的開源投資分析師代理「claude-investor」。用戶提供一個行業,就能快速查找主要公司的財務數據和新聞、分析每個公司的輿情和趨勢,並根據投資潛力和目標價格對股票進行排名。
通過 Claude 3 強大的海量數據分析能力,生成詳細的投資報告,幫助使用者查找高增長潛力的科技公司,跟蹤投資組合中的股票表現,識別投資機會。從金融從業者到炒股小白都可以直接使用,很受社區歡迎。
用戶@dr_cintas使用Claude 3生成了效果拔群的勾股定理演示動畫。解鎖了以動態視覺輕鬆解釋各種原理的可能性。
再更生活化一些的例子也有。在宜家買過傢具的同學都知道,看組裝說明書實在是一項耗費腦細胞的活兒。用戶@gabchuayz藉助Claude 3強大的圖像推理能力大大簡化了這一流程。直接把說明書餵給模型,就生成簡潔清晰的操作步驟。他在對比 GPT-4后認為Claude 3輸出的結果更具可讀性,還能辨認出細小零件的編號,非常實用。
Claude 3在代碼審查和測試方面的潛力也得到了專業人士驗證。
紐約大學Tandon工學院助理教授Brendan Dolan-Gavitt在X分享到,他將一個在GitHub上找到的小型C語言GIF解碼庫全部源代碼提供給Claude 3,並要求它編寫一個Python函數用於生成隨機的GIF圖像,以測試解碼器的解析能力。結果這個GIF生成器在解碼器中覆蓋了92%的代碼行,並發現了4個內存安全性漏洞和一個程序掛起問題。證明Claude 3完全有能力成為人類程序員的工作助手。
不過也有人覺得Claude 3厲害是厲害,但並不能代表OpenAI落於人后。畢竟GPT-4是22年夏天訓練的,按照慣例,奧特曼的工具箱里早就準備好新武器了。
“Claude現在是頂級的中央控制AI模型,GPT-4長期的統治已經結束。但這一情況將隨着一個被稱為GPT-5的新秘密模型而改變。”
“Opus可以享受這種喜悅,直到GPT-5發布那天”。
但問題是....GPT-5到底在哪兒呢?
不久前Sam Altman在Lex Friedman最新的播客採訪中提到過,OpenAI的目標絕不是給世界帶來令人震驚的更新,而是恰恰相反,漸進式達到每一個裡程碑,因此下一代LLM會考慮以一種新的形式與公眾見面。但他也堅定表示,今年會官宣一個令人驚嘆的新模型,不管是不是叫GPT-5。在那之前,還會有其它東西先發布。
或許是加上各種事件和官司纏身, OpenAI現在的行事風格確實不像以往那麼激進了。最新推特是今天剛剛發布的準備與小部分美國開發者合作,測試基於訪問量的GPT盈利模式的消息。“我們的目標是創造一個活躍的生態系統,在這裏開發者因其創造力和影響力而獲得獎勵。”
然後底下的評論可想而知,似乎少有人關心這個已經被Poe玩了好幾個月的創作者共享經濟模式,滿滿都是在問什麼時候發布GPT-5和開放Sora。
可以清晰感受到,隨着Claude 3這類優秀大模型的卓越性能被大量用戶親自驗證,人們對於OpenAI的耐心越來越低,對ChatGPT要求的門檻也越來越高。加上GPT-4最近又開始不給力,過去曾出現過的“變懶變傻”問題再次重演,引得大批網友在推特抱怨討伐,紛紛倒戈轉向了Claude 3(包括本人在內)。
“使用了4個月之後,我決定放棄ChatGPT Plus。GPT-4經常變得懶惰、緩慢、產生幻覺。與此同時我使用了免費的Claude 3 sonnet模型,它在上下文記憶、長回復以及速度方面給人留下了深刻印象——對程序員來說簡直棒極了。正在考慮升級到高級版的Claude。請OpenAI儘快修復GPT-4的問題。”
其實,諸如Sora這些技術再超前,沒有真正走向市場讓人們上手用到,也只是望梅止渴的鏡花水月。而今一個主打公平公正,由近50萬用戶驗證后投票的Chatbot Arena榜單放出,足以見Claude 3是憑實力拿下的新王之位。
而無論是OpenAI還是Google等公司都應該清楚認識到,在GenAI浪潮里陪他們一起翻滾了兩年多的用戶們也早就練出來了,大家對於新模型的適應性和流動性是很強的。換句話說,沒有誰真得離不開誰,單純靠信仰的時代已過,體驗跟不上、更新不及時,用戶就會流失,好用才是硬道理。
Anthropic在發布Claude 3時承諾過,會在接下來的幾個月內對該系列進行頻繁更新。發布一系列功能來增強模型性能,包括工具使用、交互式編碼和更高級的代理能力等。對企業用例和大規模部署也會有新動作。
作為一家自我定義為“人工智能安全公司”的AI企業,現在的Anthropic似乎在慢慢遠離起初低調謹慎、時刻強調安全的行事作風,節奏變得越發主動強勢。而以往人們在推特上見慣了OpenAI、DeepMind的AI大咖輸出意見,卻鮮少見到Anthropic工程師們的身影。最近這一人群彷彿也跟着Claude 3的大火走向台前高調起來,成為人們關注的技術KOL。
再加上亞馬遜總共40億美元巨資入池,雙方達成更深入的人工智能合作。Anthropic把AWS作為其關鍵工作負載的主要雲提供商,使用亞馬遜Trainium和Inferentia芯片來訓練和部署未來模型,並向全球AWS客戶提供未來幾代基礎模型在Amazon Bedrock上的訪問權限。
今天亞馬遜之於Anthropic的模式,怎麼看怎麼像曾經的微軟之於OpenAI。按照這個路線,Anthropic很有可能在商業化版圖中鋪開更大的攤子,野心勃勃地跟亞馬遜合力打造另一個AI帝國。等到蘋果選擇哪家AI供應商的靴子落地,全球科技巨頭+AI公司的競爭格局又將被重新洗牌。
Anthropic已經找到了打敗OpenAI的方法,那就是成為OpenAI。
也許,留給OpenAI的時間真得不多了。