Anthropic找到了打敗OpenAI的方法：自己也成為OpenAI

巴比特_硅星人288天前

文章來源：硅基GenAI

作者｜張瀟雪

郵箱｜[email protected]

圖片來源：由無界AI生成

最近Anthropic真是風頭正盛，堪稱贏麻了。

亞馬遜剛剛宣布，再次對它追加27.5億美元投資，共同加速生成式人工智能發展。加上去年9月投入的12.5億美元，總共豪擲超過40億美元，成為亞馬遜三十年歷史上最大的對外投資，也令Anthropic從去年至今的融資額一舉超過100億美元。

而公司開發的旗艦大模型Claude 3全家桶自推出20多天以來，也一路好評無數、口碑爆棚，並在最新的Chatbot Arena排行榜上正式打敗GPT-4，首次登上王位。

Claude 3打趴GPT-4，躍居用戶體驗榜首

我們知道，每當一款新的大模型推出時，都會拿GPT-4來作比較。拉出一張包括MMLU、數學、推理、編程等各項測試的跑分對照表，證明自己哪些參數已經趕超GPT-4。但歸根結底，模型終究是給人用的，到底是不是真的比GPT-4厲害，還得是實際用戶體驗說了算。

昨天，Chatbot Arena新鮮出爐了截至3月26日的聊天機器人對戰榜成績。

在收集了來自47.7萬多野生用戶對於市面上75款大模型的匿名投票后，Claude 3 超大杯Opus在群眾的呼聲中力壓群雄，打敗GPT-4 Turbo成功登頂第1名。大杯Sonnet排名第4，就連 Claude最輕巧的中杯Haiku都超越了初版GPT-4和歐洲新貴Mistral Large，位列第6名。

與此同時Google僅Gemini Pro一員大將殺入前十，來自阿里巴巴的通義千問排在第9。

如果說Anthropic發布Claude 3時引發的“大模型王位易主”討論還存在參數爭議，那麼經過近一個月的場下實測，Claude 3的確用實力證明了自己比GPT-4更能打，成為目前LLM爭霸賽的最大贏家。

社區用戶Peter Gostev還根據Chatbot Arena排行榜製作了從23年5月到24年3月，Top15大模型的動態演變史，清晰展現Claude 3勢如破竹的“上位”全過程。

對榜單不熟悉的朋友，我們先一起來看看它是怎麼打分的。

Chatbot Arena（聊天機器人競技場）是由UC Berkley、UCSD和CMU合作研究組織LMSYS Org開發的LLM測試平台，通過眾包方式進行匿名隨機對戰，評估和排名不同的語言模型。

具體規則是：用戶向兩個匿名模型輸入同一個問題，然後對它們各自生成的答案進行評價，選擇模型A更好、B更好、平手或都很差。它支持多輪對話，直到用戶認定贏家。並且如果在對話過程中泄露了模型身份，那麼投票將不會被計入。最終，Chatbot Arena會採用類似於國際象棋等競技遊戲中廣泛使用的Elo評分機制，來綜合評估大模型能力。

可以看出，與常見的Benchmarks跑分不同，Arena Elo 排行榜成績完全是基於人類用戶的使用體驗和真實反饋，在實用性上更具參考價值。

Chatbot Arena還放出一系列白熱化的後台對戰數據。

模型A在所有非平局Battle中戰勝模型B的比例：

每一組模型組合（不包括平局）的對戰次數：

公布這一結果的LMSYS Org認為，更讓人印象深刻的是Claude 3 Haiku。作為全家桶中最輕量級的模型，它的用戶偏好已達到與GPT-4相當的水平，綜合其速度、能力和200k上下文長度，在市場上現在無人能敵。（同時也誇了一下自家伯克利團隊開發的Starling-LM-7B-beta近期攀升迅速，是市面上最好的7B開源模型。）

許多網友也紛紛注意到了這點，為Haiku鼓掌叫好：“我們擁有了一個GPT-4水平但比它便宜10倍的模型！”

Antrohpic工程師@alexalbert_親自解釋說，Haiku模型的價格和速度被嚴重低估：“據估計，普通人一生大概會說8.6億個單詞，相當於約12億個標記。而Haiku的價格是每百萬標記輸入0.25美元。意味着你僅花費300美元就可以讓Haiku處理一個人一生中說的所有話。更瘋狂的是，Haiku可以每秒讀取高達2.4萬個標記。也就是說只需5000秒，大約83分鐘內，就能分析完一個人一生的經歷。”

人們表示給新王跪了， Claude 3 Opus確實樹立了新的AI行業標準，現實中使用率更高。

“我真的更喜歡Claude。我只是使用免費版Sonnet並與GPT-4進行比較，對於日常對話和事實核實，它似乎更加智能。GPT-4在編程方面仍佔據主導地位，但我並不是特別相信它真有那麼優秀。”

“蘋果應該考慮和Anthropic合作，讓Claude作為iPhone手機的配套AI。”

——這還真有可能。最近有新的傳言流出，iOS 18的AI供應商也許會由Google Gemini悄悄換成Claude 3。Sam Altman因為一直想做AI硬件不被考慮，而安卓集成Gemini後會削弱iOS的獨特性，此時人畜無害又口碑爆炸的 Claude 3似乎才是最佳選擇，扶持它也能讓AI競賽拖得更久更均衡。相信這些到蘋果6月的WWDC開發者大會便會見分曉。

豐富民間用例驗證，六邊形戰士Claude 3

推上也有不少人展示了自己在日常工作中使用Claude 3的一些驚艷實例。

HyperWriteAI 公司CEO Matt Shumer分享了一個用於生成高質量提示的工具「claude-prompt-engineer」。用戶只需描述任務和輸入變量，Claude 3就會幫你生成許多候選提示，並在排名賽中針對每個用例測試，最後返回最佳提示。

他表示之前的版本接入的是GPT-4，而現在選用Claude 3編寫出的提示比GPT-4質量要高得多。這個工具能自動生成測試用例，支持多變量，進一步自動化prompt engineering的工作流程，他本人已經在實際工作中使用，極大提升了效率。

他還做了一個使用 Claude 3 的開源投資分析師代理「claude-investor」。用戶提供一個行業，就能快速查找主要公司的財務數據和新聞、分析每個公司的輿情和趨勢，並根據投資潛力和目標價格對股票進行排名。

通過 Claude 3 強大的海量數據分析能力，生成詳細的投資報告，幫助使用者查找高增長潛力的科技公司，跟蹤投資組合中的股票表現，識別投資機會。從金融從業者到炒股小白都可以直接使用，很受社區歡迎。

用戶@dr_cintas使用Claude 3生成了效果拔群的勾股定理演示動畫。解鎖了以動態視覺輕鬆解釋各種原理的可能性。

再更生活化一些的例子也有。在宜家買過傢具的同學都知道，看組裝說明書實在是一項耗費腦細胞的活兒。用戶@gabchuayz藉助Claude 3強大的圖像推理能力大大簡化了這一流程。直接把說明書餵給模型，就生成簡潔清晰的操作步驟。他在對比 GPT-4后認為Claude 3輸出的結果更具可讀性，還能辨認出細小零件的編號，非常實用。

Claude 3在代碼審查和測試方面的潛力也得到了專業人士驗證。

紐約大學Tandon工學院助理教授Brendan Dolan-Gavitt在X分享到，他將一個在GitHub上找到的小型C語言GIF解碼庫全部源代碼提供給Claude 3，並要求它編寫一個Python函數用於生成隨機的GIF圖像，以測試解碼器的解析能力。結果這個GIF生成器在解碼器中覆蓋了92%的代碼行，並發現了4個內存安全性漏洞和一個程序掛起問題。證明Claude 3完全有能力成為人類程序員的工作助手。

ChatGPT又變懶了？用戶：棄

不過也有人覺得Claude 3厲害是厲害，但並不能代表OpenAI落於人后。畢竟GPT-4是22年夏天訓練的，按照慣例，奧特曼的工具箱里早就準備好新武器了。

“Claude現在是頂級的中央控制AI模型，GPT-4長期的統治已經結束。但這一情況將隨着一個被稱為GPT-5的新秘密模型而改變。”

“Opus可以享受這種喜悅，直到GPT-5發布那天”。

但問題是....GPT-5到底在哪兒呢？

不久前Sam Altman在Lex Friedman最新的播客採訪中提到過，OpenAI的目標絕不是給世界帶來令人震驚的更新，而是恰恰相反，漸進式達到每一個裡程碑，因此下一代LLM會考慮以一種新的形式與公眾見面。但他也堅定表示，今年會官宣一個令人驚嘆的新模型，不管是不是叫GPT-5。在那之前，還會有其它東西先發布。

或許是加上各種事件和官司纏身， OpenAI現在的行事風格確實不像以往那麼激進了。最新推特是今天剛剛發布的準備與小部分美國開發者合作，測試基於訪問量的GPT盈利模式的消息。“我們的目標是創造一個活躍的生態系統，在這裏開發者因其創造力和影響力而獲得獎勵。”

然後底下的評論可想而知，似乎少有人關心這個已經被Poe玩了好幾個月的創作者共享經濟模式，滿滿都是在問什麼時候發布GPT-5和開放Sora。

可以清晰感受到，隨着Claude 3這類優秀大模型的卓越性能被大量用戶親自驗證，人們對於OpenAI的耐心越來越低，對ChatGPT要求的門檻也越來越高。加上GPT-4最近又開始不給力，過去曾出現過的“變懶變傻”問題再次重演，引得大批網友在推特抱怨討伐，紛紛倒戈轉向了Claude 3（包括本人在內）。

“使用了4個月之後，我決定放棄ChatGPT Plus。GPT-4經常變得懶惰、緩慢、產生幻覺。與此同時我使用了免費的Claude 3 sonnet模型，它在上下文記憶、長回復以及速度方面給人留下了深刻印象——對程序員來說簡直棒極了。正在考慮升級到高級版的Claude。請OpenAI儘快修復GPT-4的問題。”

其實，諸如Sora這些技術再超前，沒有真正走向市場讓人們上手用到，也只是望梅止渴的鏡花水月。而今一個主打公平公正，由近50萬用戶驗證后投票的Chatbot Arena榜單放出，足以見Claude 3是憑實力拿下的新王之位。

而無論是OpenAI還是Google等公司都應該清楚認識到，在GenAI浪潮里陪他們一起翻滾了兩年多的用戶們也早就練出來了，大家對於新模型的適應性和流動性是很強的。換句話說，沒有誰真得離不開誰，單純靠信仰的時代已過，體驗跟不上、更新不及時，用戶就會流失，好用才是硬道理。

打敗OpenAI的方法是成為OpenAI

Anthropic在發布Claude 3時承諾過，會在接下來的幾個月內對該系列進行頻繁更新。發布一系列功能來增強模型性能，包括工具使用、交互式編碼和更高級的代理能力等。對企業用例和大規模部署也會有新動作。

作為一家自我定義為“人工智能安全公司”的AI企業，現在的Anthropic似乎在慢慢遠離起初低調謹慎、時刻強調安全的行事作風，節奏變得越發主動強勢。而以往人們在推特上見慣了OpenAI、DeepMind的AI大咖輸出意見，卻鮮少見到Anthropic工程師們的身影。最近這一人群彷彿也跟着Claude 3的大火走向台前高調起來，成為人們關注的技術KOL。

再加上亞馬遜總共40億美元巨資入池，雙方達成更深入的人工智能合作。Anthropic把AWS作為其關鍵工作負載的主要雲提供商，使用亞馬遜Trainium和Inferentia芯片來訓練和部署未來模型，並向全球AWS客戶提供未來幾代基礎模型在Amazon Bedrock上的訪問權限。

今天亞馬遜之於Anthropic的模式，怎麼看怎麼像曾經的微軟之於OpenAI。按照這個路線，Anthropic很有可能在商業化版圖中鋪開更大的攤子，野心勃勃地跟亞馬遜合力打造另一個AI帝國。等到蘋果選擇哪家AI供應商的靴子落地，全球科技巨頭+AI公司的競爭格局又將被重新洗牌。

Anthropic已經找到了打敗OpenAI的方法，那就是成為OpenAI。

也許，留給OpenAI的時間真得不多了。

免責聲明：本文版權歸屬原作所有，僅代表作者本人觀點，不代表YouToCoin的觀點或立場，文章內容僅供參考，不構成投資建議。投資者據此操作，風險自擔；如有關於內容、版權等問題，請與我們聯繫。