所有語言
分享
文章來源:新智元
狂飆三個月,智譜AI的大模型全家桶震撼發布了!GLM-4性能超進化,堪稱「國產GPT-4」;GLMs和GLM Store,直接對標OpenAI的GPTs。
圖片來源:由無界 AI生成
今天,國內唯一一家全系對標OpenAI的公司,又搞了一個大新聞!
就在剛剛,智譜AI發布了「新一代基座大模型」GLM-4——性能全面比肩GPT-4。
其中,GLM-4不僅在中文能力上超過了所有競爭對手。
而且,長文本能力也一騎絕塵,實現了128K「大海撈針」全綠。
除此之外,智譜AI這次還發布了「定製化的個人GLM大模型」GLMs和GLM Store,再次對標OpenAI的GPTs!
那麼,這次新一代基座大模型GLM-4,究竟強在了哪?
與上一代ChatGLM3相比,GLM-4在綜合能力上實現了全面躍升,性能提升了60%,已經逼近GPT-4。
它能夠支持更長的上下文,具備更強的多模態功能,支持更快的推理,更多併發,推理成本大大降低。
同時,GLM-4也增強了智能體能力。
從眾多評測集中可以看到,GLM-4的性能提升非常明顯。
相比於GPT-4,GLM-4在MMLU、GSM8K、BBH、HellaSwag數據集上分佈達到了94%、95%、99%和90%的水平。
而在HumanEval數據集上,GLM-4則拿到了72分,明顯超過了GPT-3.5和GPT-4的水平。
在IFEval評測集上,在Prompt提示詞跟隨(中文)方面,GLM-4達到了GPT-4 88%的水平。
在指令跟隨(中文)方面,則達到了GPT-4 90%水平,大大超過GPT-3.5。
在模型實際應用過程中,大家更關注的,是中文的對齊能力。
在對齊能力上,基於AlignBench數據集,GLM-4超過了GPT-4在6月13日發布的版本,逼近GPT-4最新(11月6日Turbo版本)效果。
在專業能力、中文理解、角色扮演方面,GLM-4甚至超過了GPT-4的精度。
不過,在中文推理方面,GLM-4的能力還有待進一步提升。
此前的128K大海撈針測試,難倒了眾多大模型,但GLM-4卻順利通過。
在大海撈針測試中,128K文本長度內,GLM-4模型均可做到幾乎百分百的精度召回。
GLM-4帶來128K的上下文窗口長度,也就意味着,在單次提示詞中,可處理文本達到了300頁。
開發者再也不用擔心文檔太長,一次性處理不完了。
同時,模型的效果和精度也並沒有下降。智譜AI團隊完美解決了長上下文全局信息因失焦而導致的精度下降的問題。
這一次,GLM-4的文生圖和多模態理解都得到增強。
全新推出的CogView3,效果明顯超過開源最佳的Stable Diffusion XL,逼近最新OpenAI發布的DALL·E 3。
在對齊、保真、安全、組合布局等各個評測維度上,CogView3的效果都達到DALL·E3 90%以上水平。
相對之前,CogView3的語義理解能力都得到大大增強。
「魚眼鏡頭中,有一隻烏龜坐在森林里。」
模型準確地理解了什麼是魚眼鏡頭,以及烏龜在森林里的環境應該是怎麼搭配的。
「西蘭花下面的斑馬」,模型理解得很準確。
「一隻打扮的像20世紀80年代的職業摔跤手的博美犬,臉上塗著霓虹綠、霓虹橙,還有亮綠色的顏料」,這麼複雜的prompt,模型也沒出錯,對於顏色、場景,都做到了高質量還原。
「一個放大鏡在一頁20世紀50年代的《蝙蝠俠》漫畫的上空」,模型非常準確地理解了空間位置,以及放大鏡蘊含的邏輯作用。
上面,都還只是常規的單項模型基礎能力提升,大會上最讓人眼前一亮的,還是GLM-4-All-Tools全家桶。
在以往,我們都需要魔法咒語一樣的提示詞或者代碼,才能調用大模型的能力。無論是回答問題、畫一幅畫還是使用外部知識源,總覺得LLM還不夠聰明。
而現在,得益於GLM模型的強大Agent能力,GLM-4實現了自主根據用戶意圖,自動理解、規劃複雜指令,自由調用WebGLM搜索增強、Code Interpreter代碼解釋器和多模態生成能力,從而完成更加複雜的任務。
也就是說,GLM全家桶的能力,終於實現了ALL IN ONE!
在AI畫圖方面,GLM-4 All Tools可以很好地結合上下文語境進行創作。
比如,我們可以先畫一隻卡通柯基。
隨後只要說「它開始跑步了」,GLM-4 All Tools就能理解,我們要的還是這隻柯基在往前跑。
告訴GLM-4 All Tools「一隻小兔子加入它一起」,它就明白柯基是主角,兔子需要跟在柯基後面,同時保持奔跑。
告訴它「跑得越來越快了」,背景就會虛化。
總之,GLM-4 All Tools對上下文語境的理解非常準確。
同樣,GLM-4也內嵌了代碼解釋器,能夠自動調用代碼解釋器,進行複雜的方程或者微積分求解。
在以下數據集上,GLM-4 All Tools取得了和GPT-4 All Tools相當的性能。
下面這道數學多項式,該怎麼求解?
或許可以直接訓練一個數學模型,但問題更複雜的時候,LLM就容易出現幻覺。
而GLM-4,則可以通過調用Python解釋器,進行複雜計算,自動寫出求解代碼。
不僅是數學問題,代碼解釋器還能完成文件處理、數據分析、圖表繪製等複雜任務,支持處理Excel、PDF、PPT等格式的文件。
可以讓模型自動生成PPT大綱,還能調用代碼,生成PPT文件。
靠着All Tools全家桶,GLM-4可以實現更高級的網頁瀏覽。
期間,模型會根據任務自行規劃檢索任務,自行選擇信息源,自行與信息源交互。
比如可以問它:我要參加2023年的CCF開源大會,當地天氣是怎樣的?
這個問題的難點在於,我們並沒有告訴它會議地點,模型自動進行了兩次搜索,第一搜到了大會是10月21日在長沙舉行,第二次搜到了長沙在10月21日的天氣。
可以看到,GLM-4 All Tools的網頁瀏覽準確率,已經超過了GPT-4,令人印象深刻。
All Tool還有一個通用能力:根據用戶提供的function描述,自動選擇所需function並生成參數,以及根據function的返回值生成回復。
這方面的能力,已經跟GPT-4基本持平,在中文理解上,GLM-4 All Tools比GPT-4略強。
在大會現場,GLM-4 All Tools進行了一番懟臉實測。
比如,讓GLM-4 All Tools聯網搜索「智譜2024 DevDay的宣傳語」,然後就此主題畫一幅畫。
可以看到,大模型自動搜索找到了相關發布頁面。
同時,生成的圖片也很好地還原了GLM-4的意境。
這幅圖描繪了智譜2024 DevDay宣傳語中的場景。圖中展現了勇敢的⼈站在洶湧的潮頭,⾯對遠處的⻛暴毫不畏懼。
GLM-4可以識別語義並聯網,搜索多個數據源。
它還可以生成一段代碼,把生成的數據可視化出來,生成簡單的圖表。
一句簡單的輸入,聯網搜索、提取、代碼解釋器、繪圖等多項原生能力就隨之啟動,根本無需手動控制。模型強大的理解、解釋能力,也就隨之而來。
我們可以讓GLM-4搭建一個多項式回歸預測模型,預測未來5年的全球GDP發展態勢。
這樣,就能更直觀地看到過去十年和未來五年的發展趨勢。
根據從MacroTrends獲取的數據,我繪製了2007年⾄2022年全球GDP的折線圖。在圖表中,我已經將下降的數據點標記為紅⾊,以便於識別。您可以查看這張圖表,以直觀地看到全球GDP的變化情況。
值得一提的是,GLM-4升級后,API調用價格維持0.1元/千tokens不變,繼續保持較低水平。
可以看到,智譜AI針對OpenAI的這種對標,不僅僅是「我有」產品,而是在諸多方面都達到了可比程度。
最令開發者期待的是,國產「GPTs」也來了!
DevDay上,智譜AI上線了定製化個人GLM大模型——GLMs。
現在,無需代碼基礎,任何用戶均可用簡單的prompt指令,創建屬於自己的GLM模型智能體,從而實現對大模型的便捷開發。
比如,智譜AI這次就給自己的DevDay做了一個GLMs。
只要打開智譜清言,進入智譜DevDay的智能體,就可以提問今天大會的事宜。甚至能直接要到現場PPT的下載地址。
並且,GLMs模型應用商店,也有開發者分成計劃。
看得出,智譜AI可定製Agent——GLMs的發布,以及上線的GLM Store,在走和OpenAI一樣的路線。
繼首屆開發者大會上發布定製GPTs之後,OpenAI上周正式推出人們期待已久的GPT Store。
短短2個月的時間,全世界已經誕生了300萬個自定義的ChatGPT。網友紛紛表示,這就是AI時代的「APP Store」時刻。
簡單來說,GLMs降低了大模型的使用門檻,可以讓更多的人參與進來,為AI廣泛落地鋪平了道路。
相較於調用單純的大模型,GLMs就像一個Agent,可以通過上傳文件,比如私有數據等,讓其獲得額外的知識。這樣,定製化的GLMs就能提升對特定問題回答的準確性,以極高的精度執行任務。
蘋果在2008年推出APP Store的最大價值在於,創造了一個新的生態,為第三方開發者帶去數百萬億美元的收入。
在AI新時代下,不論是GPT Store,還是GLM Store,都將帶領世界開發者走向一條新的LLM商業化道路。
好消息是,GLMs和GLM Store今天就已正式上線!
眾所周知,大模型是一個複雜的產業鏈。而行業對此的共識是:共同創造,才能產生真正的社會價值。
那麼,要做到這一點,首先要讓大模型本身的能力足夠強。
在這一方面,智譜AI從未停下過自己的腳步。
自2019年成立以來,這家AI初創公司便致力於打造新一代認知智能大模型,專註於做大模型的中國創新。
一年後,智譜AI從0開始研發全新的GLM預訓練架構,並在2022年推出了中英雙語千億級超大規模預訓練模型GLM-130B。
到了2023年,GLM系列大模型保持每3-4月更新一次的頻率,逐漸形成了全面的AIGC產品矩陣。
而這一次,性能足以媲美GPT-4的基座大模型GLM-4,是智譜AI進一步研發能力的體現。
智譜AI CEO張鵬在技術開放日上表示,「GLM-4的推出,標志著國產大模型有能力對標世界人工智能最先進水平」。
除了模型自身的能力之外,開源社區和學術界的支持也至關重要。
開源的意義在於,聯合全球的開發者、研究機構、企業,共同讓模型的數據更豐富、模型更優化、應用更全面。
而對於個人開發者和中小企業來說,也能以最低的成本調用模型,不需要花費高昂成本。
在國外,Meta以Llama 1的發布為起點,開闢了開源大模型競相爆發的新路線。
隨着越來越多研究人員的加入,羊駝家族也迎來了大爆發:Alpaca,Vicuna,Llama-Adapter,Lit-Llama等變體相繼出現。
幾個月後,Llama 2在很大程度上取代了Llama 1,成為功能更強的基礎模型,甚至官方還推出了其他的微調版本。
同樣,國內的開源引領者智譜AI也早有布局。
2022年,智譜AI率先開源高精度雙語千億模型GLM-130B和ChatGLM-6B。
目前,GLM系列模型在Hugging Face上的下載量已經超過了1100萬,在GitHub上累計星標超過5萬。而智譜AI也成功躋身全球最受歡迎開源機構第5。
基座大模型GLM-4和GLMs等,會進一步推動GLM的模型生態建設,讓智譜AI已經構建起的全模型產品線更加強大。
2024年,智譜對於學術的支持還會繼續。1000萬元現金和算力資源的大模型科研基金,2023年來已經有三十餘所高校參与。
現在,每一個研究者,均有機會參与大模型的研究,還會擁有自己研發的知識產權。
此外,智譜AI還針對開源社區發起了大模型開源基金,為優秀的開發者提供了高達三個「一千」的支持——1000張卡、1000萬人民幣和1000億tokens。
同時,智譜AI還重磅升級了面向全球大模型創業者的「Z計劃」。
創業基金的總額,達到10億元!
這項基金,用於支持大模型原始創新,覆蓋大模型算法、底層算子、芯片優化、行業大模型和超級應用等各個方面。
而在商業領域,智譜AI在2023年裡已經積累了1000多家合作夥伴,並與200多家實現了深度共創。
怎麼看一個大模型好不好用?最終結果,還是要看有沒有真正的落地。
目前,GLM系列模型的能力,已經覆蓋了包括金融、諮詢、互聯網、傳統消費產品、智能製造、傳媒等諸多領域。
與此同時,智譜AI還將包括國產芯片、不同垂直領域服務集成商等上下遊行業合作夥伴團結到一起,共同推動整個產業進步與升級。
可以看到,圍繞着GLM系列模型的生態圈,正在加速形成。
智譜AI CEO張鵬表示,「一枝獨秀不是春,中國的人工智能事業要繁榮、要發展,需要所有的參与者、產業鏈上下游合作夥伴、開發者社區、學術界一同努力。智譜不僅有意願,而且有能力為打造繁榮的國產大模型生態貢獻自己的力量」。
參考資料:
https://chatglm.cn/main/toolsCenter