所有語言
分享
文章來源:極客公園
作者 | 宛辰
編輯 | 靖宇
是因為「勞動節」嗎?全世界所有的公司,都選擇在 5 月第三周,將最新的 AI 產品和技術,集中釋放。
喪心病狂的一周!
鋪墊了許久的「周一見」,OpenAI 用 GPT-4o 奪走了注意力。24 小時后的發布會上,谷歌也沒有「掉鏈子」,Veo 視頻模型、Project Astra、新版 AI 搜索都留下了驚艷的記憶點。
地表最強但風格迥異的兩場發布會,只在一點上達成共識——電影《Her》一般的超強語音助手(GPT-4o 和 Project Astra),這也變相公布了 2024 年大模型賽道的競賽點——GPT-4o 和 Astra 背後的多模態融合技術。
大洋彼岸的另一端,姍姍來遲的字節跳動發布了豆包大模型家族,騰訊終於交出了「GPTs」和大模型助手 App 的答卷。
今天看來,無論是「拖家帶口」的大廠,還是「沒有包袱」的創業公司,產品形態都一再擴展:從聊天機器人,到 AI 搜索、「GPTs」、多模態語音助手.... 玩得越來越花。
不知道你麻沒麻,反正我們是幸福地麻了。
5 月 13 日(周一)
AI 化身/人形智能體正在快速演進:宇樹發布 Unitree G1 人形機器人
¥9.9 萬元起,遠低於行業售價
大語言模型出圈,讓可以實現具身智能的人形機器人火了。
2023 年 8 月,宇樹科技發布了人形機器人 H1,預售價為 9 萬美元(約合 65 萬元人民幣)。本周,宇樹推出的新版人形機器人 Unitree G1 將價格降到 9.9 萬元人民幣起,便宜了超 80%。
與第一代產品相比,Unitree G1 能力顯著提升:開瓶蓋、砸核桃、顛鍋、跑步、舞棍、自我蜷縮……在宇樹科技發布的產品演示視頻里,身體和雙腿能旋轉近 360°,Unitree G1 像人類一樣用机械雙臂靈活地完成一系列工作。
開源閉源並進:零一萬物發布千億參數 Yi-Large 模型
開源構建生態,閉源探索AI上限
零一萬物成立一周年之際,其千億參數 Yi-Large 閉源模型正式亮相,在斯坦福最新的 AlpacaEval 2.0 達到全球大模型 Win Rate 第一。
同時,零一萬物將早先發布的 Yi-34B、Yi-9B/6B 中小尺寸開源模型版本升級為 Yi-1.5 系列,每個版本達到同尺寸中 SOTA 性能最佳。
5 月 14 日(周二)
「Her」真的來了:「GPT-4o」將語音助手帶到了新高度
多模態融合模型,只是工程的進步嗎?
OpenAI 發布了新一代旗艦模型 GPT-4o,它可以讓人們在手機上與 ChatGPT 對話,就像他們與 Siri 和其他語音助手對話一樣。不同的是,ChatGPT 語音助手的理解能力有了質的飛躍,還可以分析和討論它所看到的圖像或視頻,並能識別用戶說話時的不同情緒。
有了 GPT-4o 的加持,ChatGPT 可以根據你的想法引導你做數學題目、按照你的實時要求講一個睡前故事。OpenAI 稱 GPT-4o 是為了創建一個對音頻、圖像和文本有更深入、更自然理解的模型,這依舊是為了向 AGI 目標行進。
OpenAI 的發布,也在 AI 圈引起了廣泛討論。業界普遍認為,GPT-4o 的驚艷之處在於兩點:1)將語音交互延遲縮短到 300ms;2)端到端多模態原生大模型
P.S.: 留一個觀察作業:GPT-4o 會顯著提升 ChatGPT 的日活和用戶粘性嗎?有了更高 AI 能力的智能助手,2016 年的百箱大戰會席捲重來?Siri 一樣的語音助手會成為入口級的必爭之地?
5 月 15 日(周三)
沒有一款產品沒有被 AI 改造:谷歌全面進入 Gemini 時代
Sora 尚且是科技巨頭的選做題,但多模態融合就是大模型公司的必做題。
提了 121 次 AI,谷歌 I/O 2024 開發者大會發布了一籮筐,從搜索到 Gmail、TPU,再到語音助手 Astra 和多模態視頻模型 Veo 等。
三個產品值得關注:
大模型之字節打法:沒準備好就不發,否則一次發布 9 個模型
模型發得晚,應用沒少做,怎麼想的?
字節跳動自研大模型豆包大模型(原雲雀大模型)家族帶着 9 個模型,首次對外亮相。字節跳動方面稱,之所以是這 9 個模型,是根據後台模型調用量和需求而來,做了最強通用模型、性價比之選、和場景優化模型。
豆包大模型的推理價格成為一大亮點,其主力模型在企業市場的定價只有 0.0008 元/千 Tokens,0.8 厘就能處理 1500 多個漢字。
值得注意的是,字節發布會沒有介紹模型參數、數據和語料,甚至沒有給出豆包模型的評測數據,而是直接把模型能力在場景里做了垂直細分。字節可能是在建立用戶反饋、數據反饋,從而做更精準地場景和服務。根據不同的數據鏈反饋,決定產品或者模型的下一步動作。
過去大半年,字節跳動推出的 AI 應用幾乎涵蓋了所有熱門賽道,「豆包」、AI 應用開發平台「扣子」、互動娛樂應用「貓箱」,以及星繪、即夢等。
大模型隊伍的隱秘玩家:DeepSeek Chat 通過大模型備案
降成本!我帶頭!
國內擁有超過 1 萬枚 GPU 的企業不超過 5 家,幻方這家千億規模的量化基金就是其中之一。意外地提前壓中大模型的入場券——囤卡,但幻方做大模型是認真的。
今年 1 月以來,幻方旗下公司的 DeepSeek 模型被頻繁作為開源社區里討論的對標對象。本月,幻方開源了第二代 MoE 模型:DeepSeek-V2,主打參數更多、能力更強、成本更低。其在能力逼近第一梯隊閉源模型的前提下,推理成本降到了 1 塊錢 per million token,也就是說,成本是 Llama3 70B 的七分之一,GPT-4 Turbo 的七十分之一。而且,DeepSeek v2 還有利潤。
DeepSeek v2 發布后,引來了大模型價格戰,智譜、面壁、字節相繼宣布了模型推理價格降低。這背後是模型架構、系統、工程的一系列進步。你有沒有發現,OpenAI 的價格也降低了 10 倍不止。
Anyway,現在,DeepSeek-V2 已經通過備案,你可以聯網體驗,隱秘玩家的隱秘實力究竟如何?
5 月 16 日(周四)
文生圖、文生視頻:DiT 架構正在被廣泛擁抱
開源力量大
騰訊旗下的混元文生圖大模型宣布對外開源,目前已在 Hugging Face 平台及 Github 上發布,包含模型權重、推理代碼、模型算法等完整模型,可供企業與個人開發者免費商用。
混元文生圖大模型是中文原生的 DiT(Diffusion Models with transformer)架構文生圖開源模型,這也是 Sora 和 Stable Diffusion 3 的同款架構和關鍵技術,是一種基於 Transformer 架構的擴散模型。過去,視覺生成擴散模型主要基於 U-Net 架構,但隨着參數量的提升,基於 Transformer 架構的擴散模型展現出了更好的擴展性,有助於進一步提升模型的生成質量及效率。
5 月 17 日(周五)
「GPTs」和大模型助手 App:大廠必備,騰訊版來了
已接入 600 多個騰訊內部業務和場景
本周,騰訊公布了大模型研發、應用產品的系列進展。
騰訊混元大模型升級,推出在質量和成本上有不同特點的三個模型版本,其內部已經有 600 多個業務接入大模型。
在工具層,發布了騰訊雲大模型知識引擎、圖像創作引擎、視頻創作引擎三大 PaaS 工具鏈,簡化數據接入、模型精調、應用開發流程。
值得注意的是,騰訊終於推出了自家「GPTs」——元器,用戶可以使用騰訊官方的插件和知識庫直接創建智能體。開發完成后,將智能體一鍵分發到 QQ、微信客服、騰訊雲等渠道上。騰訊還將於月底推出基於混元大模型的全新助手 App「騰訊元寶」。
寫在最後:
本周,與上述 AI 產品、技術發布一同進展的,還有各大 AI 公司的「水下操作」。
什麼都無法阻擋 Scaling Law 的腳步:
AI 應用正在拓展既有想象力:
下周,北京時間 5 月 22 日凌晨,AI 的另一大玩家微軟,即將在西雅圖舉辦 Hybrid:Microsoft Build 大會。官方網頁上大大的「How will AI shape your future?」,強調了本次大會的主題。
金錢永不眠,AI 也是。