所有語言
分享
文章來源:飛哥說AI
作者 | 高佳 王藝
Agent 誕生短短一年,已成為科技巨頭與創業公司多方角逐的兵家必爭之地。
而市場上的大多數 Agent,似乎並不嚴格符合商業界對於 Agent 的期待。包括 OpenAI 的 GPTs,其實只是用於特定知識庫或數據的 Chatbot。這些基於場景信息、用於數據分析、代碼糾錯的智能體,不過是一種輕量化的個人助手而已。
除了大家一直關注的軟色情、假官方、刷單橫行等安全問題之外,更因缺乏必要的用戶群需求和場景的匯聚深入,使得To C領域並未出現顛覆式的殺手級應用,很多 GPTs 淪為了大眾淺嘗輒止的“玩具”。同時,在程序聯動和自動化工作流方面,GPTs 也有很多提升的空間。
在當下大模型的早期,究竟什麼樣的 Agent 才是商業化真正需要的。什麼樣的場景下,Agent 才能發揮其最大的價值?
當我們把目光從To C轉向To B,似乎有了一個更有前景的答案。
2024年紅杉資本的人工智能峰會上,吳恩達發表了一場關於 Agent 的演講,他提出了 Agent 的四種主要能力——反思(Reflection)、使用工具(Tool use)、規劃(Panning)以及多智能體協同(Multi-agent collaboration),並強調了AI Agent 工作流的重要性,預測它將成為未來的重要趨勢。
企業家兼平台經濟研究者Sangeet Paul Choudary也在今年3月發文提到,Agent 創造了一個重新整合場景的可能性,使得垂直領域的人工智能玩家能夠通過跨多個工作流程進行協調來實現水平發展,這將重塑B2B價值鏈。
相較於零散個人用戶,企業用戶通常面臨更加複雜的業務需求,有更明確的業務場景、業務邏輯以及更多行業數據及其行業知識的積累,非常適配 Agent 自主性、感知與理解環境、決策與執行、交互、工具使用等特點,這讓To B領域成為 Agent 更可施展的絕佳舞台。
我們曾在《誰將成為ToB AI應用的“APP Store” ?》中提出,移動互聯網時代,App Store 堪稱史上最強大的生態平台;而大模型時代,同樣需要這樣生命力強大的生態平台,讓商業閉環、讓產業加速。也就是說,我們需要一個“To B領域的 Agent Store”,為企業賦能,降本增效。
那麼什麼樣的公司才能做好這個「Agent Store」呢?
吳恩達和 Sangeet 給一個近乎標準的答案——能介入企業客戶「工作流」的公司,以及有「垂直行業」數據積累的公司,最好還要有自己的大模型方便適配和賦能,LLM 是 Agent 的靠山。
這一切,似乎都指向了協同辦公平台。
以釘釘、飛書、企業微信等為代表的協同辦公平台,不僅本身就是「PaaS+SaaS」的結合體,具備良好的API接口和插件體系,可通過即時通訊、視頻會議、日程安排、任務管理、協作文檔等不同形態的產品牢牢內嵌入企業的工作流中;更是通過長年的耕耘,積累了多個行業和賽道的企業數據資產。既有應用場景、又有行業數據,還有自家大模型,簡直就是「Agent Store」的天然生長平台。
那麼,在走入 Agent 的 To B 戰場之前,我們先來看看 Agent 誕生至今這一年,進化到哪裡了?
Agent 發展到今天,經歷了一個「從 Copilot 到 Agent」的過程。
過去一年,背靠大模型的 Agent 領域發展迅速,雖然離真正的自主智能還有不小距離,但 Agent 在工業界的爆發趨勢已經相當明顯,圍繞 Agent 生態建設的平台也已初具規模,吸引了各行各業的開發者。我們看到 Agent 從早期的 Copilot (副駕駛)模式,逐步演進為具備更多自主智能的 Agent(智能體、主駕駛)形態。
Copilot 副駕駛是低級的助理, Agent 則是高級代理,其“高級”在 Agent 已是自主的AI智能體。即 Copilot 是以人為主,AI輔助,而 Agent 是AI為主,人為監督。
如果以自動駕駛的等級做比擬,L2級別的輔助駕駛屬於 Copilot,L4級別的主駕駛則屬於 Agent,而 L3處於從 Copilot 副駕駛向 Agent 主駕駛的過渡階段。
從 Copilot 向 Agent 的進化過程中,背後的大模型有幾個關鍵進展在賦能 Agent:
1. RAG (Retrieval-Augmented Generation)的應用,讓 Agent 能夠利用外部知識和時效信息來補充自身的不足;
2. 隨着大模型長上下文的飛速進展, Agent 處理複雜場景和多輪對話的能力有較大的提升。這項進步突破了此前Agent 的記憶能力不足的瓶頸,現在的 Agent 已經可以在長上下文中做推理,複雜的流程邏輯及其條件分叉可以直接在窗口裡描述;
3. 通過與越來越多的外部工具對接,如插件、APIs 等。有了各種工具加持,智能助手開始加速從副駕駛向真正的智能體進化;
4. 自主規劃、環境交互、錯誤反思等 Agent 獨有的高階能力,雖然還處於探索階段,最近也取得了不俗的進步,尤其表現在「Agent 平台」的建立和推進上。Agent 平台為開發者提供了一個自然語言 Prompt Engineering 的開發環境,通過上下文窗口的人機對話來迭代優化 Agent。開發者可以由此“調教”出針對特定任務的 Agent,定型后通過平台發布,從而幫助形成 Agent 生態,GPTs和 GPT Store 的發布就是一個典型的例子。
從 Copilot 到 Agent,最大的區別在於「自主規劃」和「環境交互」的能力。Copilot 在幫助用戶的同時,處處離不開人的提示;而大模型賦能的Agent對其目標任務具有自主記憶、推理、規劃和執行的全自動能力,原則上只需要用戶的起始指令和結果的反饋,過程中並不需要人的介入。
如下圖所示,Agent 是模型的自主行為,“無人”操作;人與外掛工具的介入是作為環境與 Agent 交互的。
具體來說,從當前的 Agent 主要實現方式來看,「自主規劃」體現在開發者打造 Agent 的過程與傳統軟件工程不同:傳統軟件工程需要通過機器可執行的具體算法用編程語言實現,然而在打造 Agent 的過程中,開發者不再需要給出具體算法,不需要用計算機語言,甚至偽代碼(pseudo code)都不用,只需要用自然語言定義任務(輸入和輸出),就可以開啟 Agent 的自主規劃來執行任務,打造agent的初版。
而「環境交互」能力則體現在,從 Agent 初版到能上架平台的“產品”之間,Agent 在樣本數據輸入的驅動下,會有兩種輸出結果:
一是錯誤信息,這表明Agent自主規劃的路徑有問題,類似傳統編程的句法錯誤;
二是輸出結果不如人意,這就如同傳統編程中的邏輯錯,這時候開發者可以添加具體反饋,說明樣本輸入所對應的期望輸出是什麼。
這兩類信息都可以在開發平台上直接回饋給Agent;作為Agent與環境的交互,Agent 會對環境反饋的錯誤進行“反思”,在下一輪迭代中試圖修正;如此循環,一個能用的Agent就製作完成,可以作為產品上架平台。這是 Agent 與環境交互的“內迭代”。
而Agent發布后,在用戶實際使用過程中的環境反饋,則構成了Agent與環境交互的“外迭代”。“外迭代”與“內迭代”一樣,原則上可以直接饋送給 Agent,讓 Agent 自我提升,與用戶偏好對齊,迭代新的上線版本。外迭代的流程化標志著環境數據飛輪的建立。
從技術的進化路徑來看,我們見證了 OpenAI 從 Plugins 插件功能的開放到 GPTs 平台的生態建設,以及微軟從 GitHub Copilot 到 Microsoft 365 Copilot 的跨越。業界傳統 Pipeline 的過程性應用開發,開始藉助大模型賦能的新平台向 Agent 這種端到端的開發範式演進。
從產品形態的進化路徑來看,從單一功能的 coding 助手(如 GitHub Co-pilot),發展到 AutoGPT 這樣的 Agent 平台,再到 MetaGPT、AutoGen 等多Agent框架的發布,還有OpenAI的Agent開發框架Assistant API的發布,Agent的開發工具和平台越來越簡便,Agent的能力也隨之增強。
而在國內的眾多平台,尤其是協同辦公平台中,我們發現在技術路徑與產品形態的進化上,釘釘與大模型及其Agent 這一年的發展趨勢幾乎步步吻合,且將 Agent 技術與企業實際場景相結合,以最快的速度建立了AI助理的開發平台和生態。
這一年中,釘釘在業內率先用大模型將自身產品改造了一番,20條產品線都已經被AI化,智能問答、問數在企業獲得了較好的應用;再者,釘釘背靠的自家大模型通義千問也在快速演進,比如長文本、多模態能力,為 Agent 的進化夯實了模型基礎;同時,依託釘釘本身作為協同平台的優勢,以及工作流、AI PaaS等大量平台工程化的能力,其 Agent 逐步實現了與業務流程和數據的打通。
釘釘對 Agent 技術的探索一直圍繞企業實際需求展開,其差異化優勢在於它通過千行百業的辦公需求(企業的“最大公約數”)吸引了大量的 ToB 用戶,並在其平台的統一框架下積累了巨量的應用和數據。前幾天,釘釘上線了自己的「Agent Store」(名為「AI助理市場」),已經擁有超過200個AI助理。
這種客戶粘性以及巨量用戶數據的積澱,讓釘釘在 Agent 的落地應用上處於天然優勢。
為什麼海量的用戶是做 Agent 的底氣?
檢驗Agent運轉是否有效,一個很重要的指標就在於其「信息檢索」的能力,這也是RAG技術備受重視的原因,它讓Agent能夠利用外部知識和時效信息,來為用戶提供更加精準、更有相關性的回答和服務。
而這需要Agent生長在一個有海量數據的平台里,最好還要有足夠多的插件和API工具方便Agent調用,最大化Agent的檢索和理解能力,以提升行動能力。
也就是說,用戶數據量幾乎決定了「產品上限」。
而這正是釘釘們擁有巨大優勢的基石——基於強大的生態和用戶數據,從而讓產品有更多優化的空間。
在釘釘入局AI一年以來,已經有220萬家企業啟用了釘釘AI,覆蓋K12、製造、零售、地產、服務業、互聯網等眾多行業。這些都為釘釘AI平台積累了豐富的數據,釘釘的「AI助理市場」中有從不同場景歸納出來的“模版”,用戶可以複製過來做新的場景的起點,這讓生長於釘釘平台的Agent「通用性」更強。
做 Agent 的第二個要素是大模型,作為產品的 Agent 離不開大模型的賦能,因此「產模結合」具有先天優勢。
前文講到,Agent是一種端到端的大模型產品開發範式。傳統AI產品一般採用過程性的管式(pipeline)系統架構,模塊層層依賴、串聯,Input 與 Output 兩端之間有很多中間結果,模塊化的鏈路很長;而理想的大模型產品是端到端的,產品的迭代提升可以隨着流程化的迴流數據自動通過端到端訓練來增強。
端到端的開發要求對很多「產模分離」的公司構成了巨大的挑戰,而少數「產模結合」的公司則為端到端訓練提供了可能性:
一方面,產品源源不斷地收集經同意的用戶反饋“埋點”數據,反哺一體化大模型的用戶對齊訓練,模型的數據質量會隨之提升;
另一方面,不斷迭代的模型反哺產品體驗的優化,對齊用戶期望的產品能吸引更大的用戶群,帶來更多的數據迴流。以此構築的數據壁壘和用戶粘性,才不至於被其他通用大模型的升級換代而碾壓。
而釘釘,本身就是一個真正的「產模結合」公司。有自家大模型,做的是自己的 Agent 產品
「產模結合」對AI公司非常重要。我們在《為什麼「產模結合」是更好的AI公司模式》中提到,擁有產品和模型的公司更容易形成「數據飛輪」,增強核心競爭力。
產品對模型起到關鍵的「定向」或「燈塔」作用:一是產品需求可指導產品優化方向;二是產品有助於檢驗模型的實際表現。
對釘釘來說,基於海量數據的「AI助理市場」,就是那柱指示燈塔,使其模型的訓練目標更加聚焦。
做好Agent的第三個因素是需要平台的工程化能力。
釘釘上線「AI助理市場」時,其 Agent的能力已有了大跨步的升級。比如在行動系統方面,AI助理「擬人操作」能力大幅增強,AI助理在觀看主人的操作路徑后,即可自動化進行頁面操作,提升高頻業務行為的操作效率,比如一句話讓釘釘AI助理在應用中自動錄入客戶信息、提交維修工單,也支持跳轉聯動飛豬等外部的網頁應用,自主完成訂機票、訂酒店。
再比如工作流,為讓AI助理可以處理更複雜的任務,釘釘在助理的創建過程中加入了工作流。用戶可對任務進行拆解,通過編排執行動作后讓AI助理替自己來完成,使得任務的完成結果更準確,更可控。擬人操作、工作流、連接外部API和系統,都屬於Agent的進階玩法,進一步擴展其行動能力。
作為協同辦公平台的「通用性」、超強大模型的「易用性」和大量工程化的「確定性」,這些都是釘釘做AI助理更有優勢的底氣。
基於AI大模型,可以衍生出的產品形態有開放MaaS平台、以AI Infra為代表的中間層產品等。且在領域藍海中,也有垂直縱深發展的一支。那麼,為什麼釘釘選擇主推Agent生態,要做一個橫向覆蓋各行各業的Agent市場呢?
一個洞察或許可以回答這個問題:從長遠來看,垂直解決方案獲勝的方法之一是橫向發展。
深潛於垂直領域仍是一片藍海市場,最終可能被兩大江山來瓜分。一種是橫向的切入,另一種是縱向的深入——基於通用大模型,做行業大模型,然後做行業場景的Agent。
很難說後者就一定會被前者碾壓,而選擇橫向切入的前者是很難專門去為每一個垂直領域去做行業大模型的,它通常只能用場景數據臨時加持,表現在 Finetune 和 In-context-learning 上,而不大能做基礎模型的改變。
最近,企業家和平台經濟學家Sangeet Paul Choudary在博客中提出了一個觀點,他認為,Agent 創造了一個重新整合場景的可能性,它們使垂直領域的AI玩家能夠通過跨多個工作流程進行協調來實現「水平」發展,這將重塑B2B價值鏈。
同樣是拿SaaS作類比,之前垂類SaaS的崛起遵循的是兩個邏輯:
一是抓住核心場景實現快速發展;二是圍繞核心場景做場景延伸。
比如,Square以支付SaaS為起點,後來逐漸擴展到To B和To C的雙生態系統,擴展出了開發者、虛擬終端、銷售、电子商務、客戶管理、發票、股票投資、分期付款、虛擬貨幣等不同的產品線,覆蓋餐飲、零售、金融、電商等各個行業,成為了一個綜合性的SaaS解決方案提供商。
再比如,Toast從為餐廳提供POS機的單點解決方案,擴展到了一個包含軟件(餐廳管理、渠道、訂購、配送交付、薪酬管理、營銷、掃碼訂購)、硬件(固定式終端、手持式終端、非接觸式終端)和配套服務(售後、小額貸款)等的綜合性餐飲SaaS平台。
可以看出,Square和Toast這類SaaS巨頭都遵循了從垂直到水平擴張的發展策略。
Sangeet認為,大多數對現狀的“破壞”(可以理解為創新)都是通過深挖細分場景發生的,但大多數風險投資回報都是通過“整合”實現的。
分拆並不能獲取可持續的價值,比如很多VC確實會在一開始關注細分場景的創新者,但是最後大部分利益都被做生態的“整合者”拿走了。
為了大規模獲取價值,軟件企業需要持續做場景延伸——最終,所有垂直遊戲都尋求橫向發展。
這一道理或許同樣適用於Agent。儘管Agent具備很好的感知、推理和行動的能力,將其應用於垂直領域可以快速、有效地解決痛點,但這並不能構成護城河,反而真正的護城河在於底層數據的打通之後,Agent之間的互動和配合,也就是Agent跨API重新整合工作流,最終帶動整個系統的提質增效。
而AI Agent Store,也就是AI助理市場,正是這種「整合」和「大一統」的體現,這也是釘釘推出AI助理背後的戰略布局——釘釘要用建立在自己“Hub”上的AI助理市場變革整個To B生態,基於原有的行業和數據積累,實現To B領域最大程度的提質增效。
這一年來,從各個產品線的智能化改造到將AI PaaS開放給生態夥伴和客戶,從AI Copilot到AI Agent、再到AI Agent Store,釘釘一步一步趟出了AI規模化落地的一種形態。在目前各行各業都急於尋找大模型落地場景的當下,釘釘提供了一個AI應用落地的樣板。
我們認為,Agent在To B領域的應用,其實是將AI應用於加速企業数字化進程的體現。Agent的能力加持,解決的最核心問題是「降本增效」,這種特性也決定了以釘釘為代表的AI助理能在To B領域的藍海中具有更大的規模化應用推廣的空間。
隨着AI Agent自主性的進一步加強,Agents 會發展成為更加專業化的代理,平替多數專業工作和技能。從趨勢上看,大模型 Agents 取代人類的 90% 的專業工作並非遙不可及,而剩下的10%,也會有CoPilot來加持人類專業人士。
在更遠的未來,Agents 有可能進化成為「全能智能體」,完全取代人類工作,並與更多的硬件產品結合(不僅限於具身智能和人形機器人)。彼時的人類文明與AI Agents 會是怎樣的關係呢?
一切正在從當下這場To B的Agent必爭之地中起步。
而誰,將最先成為這場科技浪潮下的最大受益者?