全部语种
分享
文章来源:飞哥说AI
作者 | 高佳 王艺
Agent 诞生短短一年,已成为科技巨头与创业公司多方角逐的兵家必争之地。
而市场上的大多数 Agent,似乎并不严格符合商业界对于 Agent 的期待。包括 OpenAI 的 GPTs,其实只是用于特定知识库或数据的 Chatbot。这些基于场景信息、用于数据分析、代码纠错的智能体,不过是一种轻量化的个人助手而已。
除了大家一直关注的软色情、假官方、刷单横行等安全问题之外,更因缺乏必要的用户群需求和场景的汇聚深入,使得To C领域并未出现颠覆式的杀手级应用,很多 GPTs 沦为了大众浅尝辄止的“玩具”。同时,在程序联动和自动化工作流方面,GPTs 也有很多提升的空间。
在当下大模型的早期,究竟什么样的 Agent 才是商业化真正需要的。什么样的场景下,Agent 才能发挥其最大的价值?
当我们把目光从To C转向To B,似乎有了一个更有前景的答案。
2024年红杉资本的人工智能峰会上,吴恩达发表了一场关于 Agent 的演讲,他提出了 Agent 的四种主要能力——反思(Reflection)、使用工具(Tool use)、规划(Panning)以及多智能体协同(Multi-agent collaboration),并强调了AI Agent 工作流的重要性,预测它将成为未来的重要趋势。
企业家兼平台经济研究者Sangeet Paul Choudary也在今年3月发文提到,Agent 创造了一个重新整合场景的可能性,使得垂直领域的人工智能玩家能够通过跨多个工作流程进行协调来实现水平发展,这将重塑B2B价值链。
相较于零散个人用户,企业用户通常面临更加复杂的业务需求,有更明确的业务场景、业务逻辑以及更多行业数据及其行业知识的积累,非常适配 Agent 自主性、感知与理解环境、决策与执行、交互、工具使用等特点,这让To B领域成为 Agent 更可施展的绝佳舞台。
我们曾在《谁将成为ToB AI应用的“APP Store” ?》中提出,移动互联网时代,App Store 堪称史上最强大的生态平台;而大模型时代,同样需要这样生命力强大的生态平台,让商业闭环、让产业加速。也就是说,我们需要一个“To B领域的 Agent Store”,为企业赋能,降本增效。
那么什么样的公司才能做好这个「Agent Store」呢?
吴恩达和 Sangeet 给一个近乎标准的答案——能介入企业客户「工作流」的公司,以及有「垂直行业」数据积累的公司,最好还要有自己的大模型方便适配和赋能,LLM 是 Agent 的靠山。
这一切,似乎都指向了协同办公平台。
以钉钉、飞书、企业微信等为代表的协同办公平台,不仅本身就是「PaaS+SaaS」的结合体,具备良好的API接口和插件体系,可通过即时通讯、视频会议、日程安排、任务管理、协作文档等不同形态的产品牢牢内嵌入企业的工作流中;更是通过长年的耕耘,积累了多个行业和赛道的企业数据资产。既有应用场景、又有行业数据,还有自家大模型,简直就是「Agent Store」的天然生长平台。
那么,在走入 Agent 的 To B 战场之前,我们先来看看 Agent 诞生至今这一年,进化到哪里了?
Agent 发展到今天,经历了一个「从 Copilot 到 Agent」的过程。
过去一年,背靠大模型的 Agent 领域发展迅速,虽然离真正的自主智能还有不小距离,但 Agent 在工业界的爆发趋势已经相当明显,围绕 Agent 生态建设的平台也已初具规模,吸引了各行各业的开发者。我们看到 Agent 从早期的 Copilot (副驾驶)模式,逐步演进为具备更多自主智能的 Agent(智能体、主驾驶)形态。
Copilot 副驾驶是低级的助理, Agent 则是高级代理,其“高级”在 Agent 已是自主的AI智能体。即 Copilot 是以人为主,AI辅助,而 Agent 是AI为主,人为监督。
如果以自动驾驶的等级做比拟,L2级别的辅助驾驶属于 Copilot,L4级别的主驾驶则属于 Agent,而 L3处于从 Copilot 副驾驶向 Agent 主驾驶的过渡阶段。
从 Copilot 向 Agent 的进化过程中,背后的大模型有几个关键进展在赋能 Agent:
1. RAG (Retrieval-Augmented Generation)的应用,让 Agent 能够利用外部知识和时效信息来补充自身的不足;
2. 随着大模型长上下文的飞速进展, Agent 处理复杂场景和多轮对话的能力有较大的提升。这项进步突破了此前Agent 的记忆能力不足的瓶颈,现在的 Agent 已经可以在长上下文中做推理,复杂的流程逻辑及其条件分叉可以直接在窗口里描述;
3. 通过与越来越多的外部工具对接,如插件、APIs 等。有了各种工具加持,智能助手开始加速从副驾驶向真正的智能体进化;
4. 自主规划、环境交互、错误反思等 Agent 独有的高阶能力,虽然还处于探索阶段,最近也取得了不俗的进步,尤其表现在「Agent 平台」的建立和推进上。Agent 平台为开发者提供了一个自然语言 Prompt Engineering 的开发环境,通过上下文窗口的人机对话来迭代优化 Agent。开发者可以由此“调教”出针对特定任务的 Agent,定型后通过平台发布,从而帮助形成 Agent 生态,GPTs和 GPT Store 的发布就是一个典型的例子。
从 Copilot 到 Agent,最大的区别在于「自主规划」和「环境交互」的能力。Copilot 在帮助用户的同时,处处离不开人的提示;而大模型赋能的Agent对其目标任务具有自主记忆、推理、规划和执行的全自动能力,原则上只需要用户的起始指令和结果的反馈,过程中并不需要人的介入。
如下图所示,Agent 是模型的自主行为,“无人”操作;人与外挂工具的介入是作为环境与 Agent 交互的。
具体来说,从当前的 Agent 主要实现方式来看,「自主规划」体现在开发者打造 Agent 的过程与传统软件工程不同:传统软件工程需要通过机器可执行的具体算法用编程语言实现,然而在打造 Agent 的过程中,开发者不再需要给出具体算法,不需要用计算机语言,甚至伪代码(pseudo code)都不用,只需要用自然语言定义任务(输入和输出),就可以开启 Agent 的自主规划来执行任务,打造agent的初版。
而「环境交互」能力则体现在,从 Agent 初版到能上架平台的“产品”之间,Agent 在样本数据输入的驱动下,会有两种输出结果:
一是错误信息,这表明Agent自主规划的路径有问题,类似传统编程的句法错误;
二是输出结果不如人意,这就如同传统编程中的逻辑错,这时候开发者可以添加具体反馈,说明样本输入所对应的期望输出是什么。
这两类信息都可以在开发平台上直接回馈给Agent;作为Agent与环境的交互,Agent 会对环境反馈的错误进行“反思”,在下一轮迭代中试图修正;如此循环,一个能用的Agent就制作完成,可以作为产品上架平台。这是 Agent 与环境交互的“内迭代”。
而Agent发布后,在用户实际使用过程中的环境反馈,则构成了Agent与环境交互的“外迭代”。“外迭代”与“内迭代”一样,原则上可以直接馈送给 Agent,让 Agent 自我提升,与用户偏好对齐,迭代新的上线版本。外迭代的流程化标志着环境数据飞轮的建立。
从技术的进化路径来看,我们见证了 OpenAI 从 Plugins 插件功能的开放到 GPTs 平台的生态建设,以及微软从 GitHub Copilot 到 Microsoft 365 Copilot 的跨越。业界传统 Pipeline 的过程性应用开发,开始借助大模型赋能的新平台向 Agent 这种端到端的开发范式演进。
从产品形态的进化路径来看,从单一功能的 coding 助手(如 GitHub Co-pilot),发展到 AutoGPT 这样的 Agent 平台,再到 MetaGPT、AutoGen 等多Agent框架的发布,还有OpenAI的Agent开发框架Assistant API的发布,Agent的开发工具和平台越来越简便,Agent的能力也随之增强。
而在国内的众多平台,尤其是协同办公平台中,我们发现在技术路径与产品形态的进化上,钉钉与大模型及其Agent 这一年的发展趋势几乎步步吻合,且将 Agent 技术与企业实际场景相结合,以最快的速度建立了AI助理的开发平台和生态。
这一年中,钉钉在业内率先用大模型将自身产品改造了一番,20条产品线都已经被AI化,智能问答、问数在企业获得了较好的应用;再者,钉钉背靠的自家大模型通义千问也在快速演进,比如长文本、多模态能力,为 Agent 的进化夯实了模型基础;同时,依托钉钉本身作为协同平台的优势,以及工作流、AI PaaS等大量平台工程化的能力,其 Agent 逐步实现了与业务流程和数据的打通。
钉钉对 Agent 技术的探索一直围绕企业实际需求展开,其差异化优势在于它通过千行百业的办公需求(企业的“最大公约数”)吸引了大量的 ToB 用户,并在其平台的统一框架下积累了巨量的应用和数据。前几天,钉钉上线了自己的「Agent Store」(名为「AI助理市场」),已经拥有超过200个AI助理。
这种客户粘性以及巨量用户数据的积淀,让钉钉在 Agent 的落地应用上处于天然优势。
为什么海量的用户是做 Agent 的底气?
检验Agent运转是否有效,一个很重要的指标就在于其「信息检索」的能力,这也是RAG技术备受重视的原因,它让Agent能够利用外部知识和时效信息,来为用户提供更加精准、更有相关性的回答和服务。
而这需要Agent生长在一个有海量数据的平台里,最好还要有足够多的插件和API工具方便Agent调用,最大化Agent的检索和理解能力,以提升行动能力。
也就是说,用户数据量几乎决定了「产品上限」。
而这正是钉钉们拥有巨大优势的基石——基于强大的生态和用户数据,从而让产品有更多优化的空间。
在钉钉入局AI一年以来,已经有220万家企业启用了钉钉AI,覆盖K12、制造、零售、地产、服务业、互联网等众多行业。这些都为钉钉AI平台积累了丰富的数据,钉钉的「AI助理市场」中有从不同场景归纳出来的“模版”,用户可以复制过来做新的场景的起点,这让生长于钉钉平台的Agent「通用性」更强。
做 Agent 的第二个要素是大模型,作为产品的 Agent 离不开大模型的赋能,因此「产模结合」具有先天优势。
前文讲到,Agent是一种端到端的大模型产品开发范式。传统AI产品一般采用过程性的管式(pipeline)系统架构,模块层层依赖、串联,Input 与 Output 两端之间有很多中间结果,模块化的链路很长;而理想的大模型产品是端到端的,产品的迭代提升可以随着流程化的回流数据自动通过端到端训练来增强。
端到端的开发要求对很多「产模分离」的公司构成了巨大的挑战,而少数「产模结合」的公司则为端到端训练提供了可能性:
一方面,产品源源不断地收集经同意的用户反馈“埋点”数据,反哺一体化大模型的用户对齐训练,模型的数据质量会随之提升;
另一方面,不断迭代的模型反哺产品体验的优化,对齐用户期望的产品能吸引更大的用户群,带来更多的数据回流。以此构筑的数据壁垒和用户粘性,才不至于被其他通用大模型的升级换代而碾压。
而钉钉,本身就是一个真正的「产模结合」公司。有自家大模型,做的是自己的 Agent 产品
「产模结合」对AI公司非常重要。我们在《为什么「产模结合」是更好的AI公司模式》中提到,拥有产品和模型的公司更容易形成「数据飞轮」,增强核心竞争力。
产品对模型起到关键的「定向」或「灯塔」作用:一是产品需求可指导产品优化方向;二是产品有助于检验模型的实际表现。
对钉钉来说,基于海量数据的「AI助理市场」,就是那柱指示灯塔,使其模型的训练目标更加聚焦。
做好Agent的第三个因素是需要平台的工程化能力。
钉钉上线「AI助理市场」时,其 Agent的能力已有了大跨步的升级。比如在行动系统方面,AI助理「拟人操作」能力大幅增强,AI助理在观看主人的操作路径后,即可自动化进行页面操作,提升高频业务行为的操作效率,比如一句话让钉钉AI助理在应用中自动录入客户信息、提交维修工单,也支持跳转联动飞猪等外部的网页应用,自主完成订机票、订酒店。
再比如工作流,为让AI助理可以处理更复杂的任务,钉钉在助理的创建过程中加入了工作流。用户可对任务进行拆解,通过编排执行动作后让AI助理替自己来完成,使得任务的完成结果更准确,更可控。拟人操作、工作流、连接外部API和系统,都属于Agent的进阶玩法,进一步扩展其行动能力。
作为协同办公平台的「通用性」、超强大模型的「易用性」和大量工程化的「确定性」,这些都是钉钉做AI助理更有优势的底气。
基于AI大模型,可以衍生出的产品形态有开放MaaS平台、以AI Infra为代表的中间层产品等。且在领域蓝海中,也有垂直纵深发展的一支。那么,为什么钉钉选择主推Agent生态,要做一个横向覆盖各行各业的Agent市场呢?
一个洞察或许可以回答这个问题:从长远来看,垂直解决方案获胜的方法之一是横向发展。
深潜于垂直领域仍是一片蓝海市场,最终可能被两大江山来瓜分。一种是横向的切入,另一种是纵向的深入——基于通用大模型,做行业大模型,然后做行业场景的Agent。
很难说后者就一定会被前者碾压,而选择横向切入的前者是很难专门去为每一个垂直领域去做行业大模型的,它通常只能用场景数据临时加持,表现在 Finetune 和 In-context-learning 上,而不大能做基础模型的改变。
最近,企业家和平台经济学家Sangeet Paul Choudary在博客中提出了一个观点,他认为,Agent 创造了一个重新整合场景的可能性,它们使垂直领域的AI玩家能够通过跨多个工作流程进行协调来实现「水平」发展,这将重塑B2B价值链。
同样是拿SaaS作类比,之前垂类SaaS的崛起遵循的是两个逻辑:
一是抓住核心场景实现快速发展;二是围绕核心场景做场景延伸。
比如,Square以支付SaaS为起点,后来逐渐扩展到To B和To C的双生态系统,扩展出了开发者、虚拟终端、销售、电子商务、客户管理、发票、股票投资、分期付款、虚拟货币等不同的产品线,覆盖餐饮、零售、金融、电商等各个行业,成为了一个综合性的SaaS解决方案提供商。
再比如,Toast从为餐厅提供POS机的单点解决方案,扩展到了一个包含软件(餐厅管理、渠道、订购、配送交付、薪酬管理、营销、扫码订购)、硬件(固定式终端、手持式终端、非接触式终端)和配套服务(售后、小额贷款)等的综合性餐饮SaaS平台。
可以看出,Square和Toast这类SaaS巨头都遵循了从垂直到水平扩张的发展策略。
Sangeet认为,大多数对现状的“破坏”(可以理解为创新)都是通过深挖细分场景发生的,但大多数风险投资回报都是通过“整合”实现的。
分拆并不能获取可持续的价值,比如很多VC确实会在一开始关注细分场景的创新者,但是最后大部分利益都被做生态的“整合者”拿走了。
为了大规模获取价值,软件企业需要持续做场景延伸——最终,所有垂直游戏都寻求横向发展。
这一道理或许同样适用于Agent。尽管Agent具备很好的感知、推理和行动的能力,将其应用于垂直领域可以快速、有效地解决痛点,但这并不能构成护城河,反而真正的护城河在于底层数据的打通之后,Agent之间的互动和配合,也就是Agent跨API重新整合工作流,最终带动整个系统的提质增效。
而AI Agent Store,也就是AI助理市场,正是这种「整合」和「大一统」的体现,这也是钉钉推出AI助理背后的战略布局——钉钉要用建立在自己“Hub”上的AI助理市场变革整个To B生态,基于原有的行业和数据积累,实现To B领域最大程度的提质增效。
这一年来,从各个产品线的智能化改造到将AI PaaS开放给生态伙伴和客户,从AI Copilot到AI Agent、再到AI Agent Store,钉钉一步一步趟出了AI规模化落地的一种形态。在目前各行各业都急于寻找大模型落地场景的当下,钉钉提供了一个AI应用落地的样板。
我们认为,Agent在To B领域的应用,其实是将AI应用于加速企业数字化进程的体现。Agent的能力加持,解决的最核心问题是「降本增效」,这种特性也决定了以钉钉为代表的AI助理能在To B领域的蓝海中具有更大的规模化应用推广的空间。
随着AI Agent自主性的进一步加强,Agents 会发展成为更加专业化的代理,平替多数专业工作和技能。从趋势上看,大模型 Agents 取代人类的 90% 的专业工作并非遥不可及,而剩下的10%,也会有CoPilot来加持人类专业人士。
在更远的未来,Agents 有可能进化成为「全能智能体」,完全取代人类工作,并与更多的硬件产品结合(不仅限于具身智能和人形机器人)。彼时的人类文明与AI Agents 会是怎样的关系呢?
一切正在从当下这场To B的Agent必争之地中起步。
而谁,将最先成为这场科技浪潮下的最大受益者?