麦肯锡调研了 50 个一线 AI 智能体的项目总结出来的六条经验

导读

麦肯锡调研了50个基于AI智能体(AI Agent)的真实项目,深入分析了它们最常见的失败之处,并将其提炼为以下 6 个关键因素——这对于每一位 AI 工程师都至关重要:

1. 重要的不是智能体,而是整体流程

别光想着做出让人眼前一亮的智能体(Agent),那些看起来很酷的“小玩具”未必真的实用。实际工作中,我们要做的是设计一个完整的系统,而不是炫耀技术。

2. 智能体不是万能解药

并不是所有任务都适合用智能体去解决。像那些变化少、可预测的简单任务,直接用传统规则或机器学习(ML)就行了。如果强行用上大语言模型(LLM),反而会增加复杂性。

智能体真正适合的是那些杂乱无章、变化极大的工作流程,比如从复杂的财务报表里提取信息,这才是真正体现智能体价值的地方。

3. 别制造“AI垃圾”(AI Slop)

别沉迷于表面光鲜的演示Demo,而是要像培养新员工一样认真对待你的智能体。为智能体制定清晰的岗位职责,不断进行培训、测试和改进。这种长期发展的眼光,远比秀几个酷炫的演示更重要。

4. 盯紧每个环节,而不是只看最终结果

如果你在没有充分监控的情况下盲目扩大智能体规模,很可能发生隐秘的灾难。你需要清晰地追踪工作流中的每个环节,这样团队才能及时发现错误,迅速修正逻辑,防止系统彻底崩溃。

要知道,出错是一定的。但只要跟踪到位,你就能准确找到问题在哪,下一次不再犯同样的错。

5. 能复用就别重复造轮子

很多公司经常在开发一次性的智能体,浪费大量资源。聪明的做法是把智能体的功能拆成模块,比如数据导入(ingest)、信息提取(extract)、验证(verify)、分析(analyze)等。这些模块可以在不同的场景反复使用。

麦肯锡的研究发现,这种复用策略能帮你省掉30%–50%的重复工作,效果绝不是开玩笑。

6. 人类依然不可或缺,但角色正在改变

智能体擅长解析数据、自动化和规模化执行任务,但人类的价值在于判断力、处理特殊情况和创造性地解决问题。

未来的竞争并不是“人类 VS 智能体”,而是“人类 + 智能体”的完美组合。

以上六点,都是很多公司在开发AI智能体时容易犯的错误。这些陷阱一旦踩中,可能会严重损害企业的名誉和资源投入。 但现在你已经知道如何避免了。


以下为完整内容


AI 智能体元年:来自一线实践者的六条经验

作者:Lareina Yee, Michael Chui, Roger Roberts

成功部署 AI 智能体(Agentic AI)绝非易事。我们从实践中总结了宝贵经验,告诉你如何把这件事做对。

AI 智能体革命已经开启一年,一个教训也愈发清晰:想把它做好,必须下苦功。

通过 AI 智能体实现企业转型,有望带来前所未有的生产力提升。虽然有些公司已经尝到了甜头,但更多企业却发现,他们的投入迟迟不见回报。在某些情况下,他们甚至不得不“开倒车”——在智能体搞砸的地方,重新把人招回来。

这些磕磕绊绊是任何新技术发展过程中的必经之路,我们在其他技术创新中也见过类似的模式。为了总结早期的经验教训,我们最近深入研究了麦肯锡内部主导的 50 多个 AI 智能体项目,以及市场上的几十个其他案例。我们将分析结果提炼为六条经验,希望能帮助领导者们成功地从 AI 智能体中捕获价值。

1. 重要的不是智能体,而是整体流程

要想用 AI 智能体创造商业价值,就必须改变工作流程。然而,很多公司常常过度关注智能体本身或某个工具。这必然导致一个结果:造出了看起来很酷的智能体,却无法真正改善整体工作流,最终价值寥寥。

那些致力于从根本上 重构整个工作流程 的项目,更有可能取得成功。所谓工作流程,指的是涉及人员、流程和技术的所有环节。 理解智能体如何在每个环节中提供帮助,才是通往价值的正确路径。人类员工依然是工作的核心,但人类员工将拥有新的智能体、工具和自动化系统来辅助他们。

重新设计工作流程的一个重要起点,是梳理现有流程并找出用户的核心痛点。 这一步至关重要,它能帮助我们设计出真正减少重复劳动、让智能体与人类高效协作的系统。这种协作可以通过学习循环和反馈机制实现,形成一个自我强化的闭环。智能体用得越多,就会变得越聪明、越契合业务需求。

以一家另类法律服务提供商为例,该公司正致力于合同审查流程的现代化。他们所处领域的法律推理在不断演变,新的判例法、司法管辖区的细微差异以及政策解读层出不穷,这使得将专业知识固化为代码变得极具挑战。

为了适应这种天然的变化,团队设计的智能体系统可以在工作流程中不断学习。例如,用户在文档编辑器中的每一次修改都会被记录和分类。这为工程师和数据科学家提供了丰富的反馈流,他们可以利用这些反馈来“教导”智能体,调整提示词(prompt)逻辑,并丰富知识库。久而久之,智能体便能将新的专业知识内化。

关注流程而非智能体本身,能让团队在恰当的节点部署最合适的技术。这在重构复杂的多步骤工作流时尤其重要。例如,保险公司通常有庞大的调查流程(如理赔处理和承保),每一步都涉及不同类型的活动和认知任务。公司可以通过周密部署,将基于规则的系统、分析型 AI、生成式 AI 和 AI 智能体等多种技术巧妙地组合起来,并用一个统一的编排框架(如开源的 AutoGen、CrewAI 和 LangGraph)来支撑。在这种模式下,智能体扮演着编排者和整合者的角色,调用各种工具,并将其他系统的输出整合到自己的上下文中。它们就像“胶水”,将整个工作流程粘合在一起,用更少的人工干预,交付真正的成果。

复杂的工作流程应该为每个任务选择最佳工具。

2. 智能体并非万能解药

AI 智能体(AI Agent)功能强大,但并非所有任务都适合用它来解决。很多时候,领导者们没有仔细审视需要完成的工作,也没有思考智能体是否是最佳选择。

为了避免投资浪费或不必要的复杂性,企业领导者可以像组建一支高绩效团队那样来评估智能体的角色。关键问题是:“需要完成的工作是什么?每个潜在的团队成员——或者说智能体——各自有什么天赋,如何协同工作以实现目标?” 许多业务问题完全可以用更简单的自动化方法解决,比如基于规则的自动化、预测性分析或简单的大语言模型(LLM)提示,这些方法通常比开箱即用的智能体更可靠。

在匆忙上马智能体方案之前,领导者应该先评估任务的性质。具体来说,就是要明确:这个流程的标准化程度应该有多高?需要处理多大的变数?哪些部分最适合交给智能体来做?

从某种程度上说,这些问题很直观。例如,变化少、标准化程度高的工作流程,如投资者开户或监管信息披露,通常受到严格管控,遵循可预测的逻辑。在这种情况下,使用基于非确定性的大语言模型(LLM)的智能体,可能弊大于利,只会增加复杂性和不确定性。

相比之下,变化大、标准化程度低的工作流程,则能从智能体中获益匪-浅。例如,一家金融服务公司部署了智能体来提取复杂的财务信息,大大减少了人工验证的需求,并简化了工作流程。这些任务需要信息聚合、交叉验证和合规性分析——而这些正是智能体大显身手的领域。

最重要的一点是,不要陷入“用或不用智能体”的二元思维。有些智能体擅长完成特定任务,有些能帮助人类更好地工作,而在许多情况下,其他技术可能才是更合适的选择。关键在于,要弄清楚哪种工具或智能体最适合哪项任务,人类如何与它们最有效地协作,以及如何将人、智能体和工具组合起来,以实现最大产出。

3. 别制造“AI垃圾”:重视评估,建立用户信任

在部署 AI 智能体时,团队最常遇到的陷阱之一是:系统在演示(Demo)中看起来惊艳全场,但实际负责这项工作的用户却被它搞得头疼不已。 我们经常听到用户抱怨“AI 垃圾”(AI Slop),即智能体输出的低质量内容。用户很快就会对智能体失去信任,导致采用率极低。自动化带来的任何效率提升,都很容易被信任的丧失和质量的下降所抵消。

这个反复出现的问题给我们带来了一个来之不易的教训:公司应该像培养员工一样,大力投入智能体的开发。 正如一位企业领导者所说:“引入一个智能体,更像是招聘一位新员工,而不是部署一套软件。” 智能体应该有明确的岗位职责,需要“入职培训”,并获得持续的反馈,这样它们才能不断进步,变得更有效率。

开发高效的智能体是一项极具挑战性的工作。它需要利用领域专家的知识来创建评估体系(evals),并将最佳实践以足够精细的粒度固化下来。这种固化过程既是智能体的“培训手册”,也是它的“绩效测试”,确保其表现符合预期。

这些最佳实践可能存在于标准操作流程(SOP)中,也可能只是专家们心照不宣的默会知识。在固化这些实践时,关键是要关注那些区分顶尖员工与普通员工的核心要素。对于销售代表来说,这可能包括他们如何引导对话、处理异议以及匹配客户的沟通风格。

至关重要的是,专家必须持续参与,长期测试智能体的表现。在这个领域,绝不能“上线就完事”。这种对评估的承诺,要求专家们亲手为给定的输入,标注出期望的(甚至不期望的)输出。对于复杂的智能体,这样的标注有时可能需要成千上万条。通过这种方式,团队可以评估智能体的准确率,并进行必要的修正。

一家全球性银行在改造其“了解你的客户”(Know-Your-Customer)和信贷风险分析流程时,就深刻贯彻了这一方法。每当智能体对合规性的建议与人类的判断不符时,团队就会找出逻辑上的差距,优化决策标准,然后重新进行测试。

例如,在某个案例中,智能体最初的分析过于笼统。团队提供了这一反馈,然后开发并部署了额外的智能体,以确保分析的深度能提供恰当粒度的有用见解。他们使用的一种方法是,连续多次追问智能体“为什么”。这种方法确保了智能体的优异表现,也使得人类员工更愿意接受它的输出结果。

4. 盯紧每个环节,而不只是最终结果

当只与少数几个 AI 智能体打交道时,审查它们的工作、发现错误还相对容易。但当公司推广成百上千个智能体时,这项任务就变得极具挑战性。更糟糕的是,许多公司只追踪最终结果。因此,一旦出错——而随着规模化,出错是必然的——就很难准确找出问题到底出在哪里。

智能体的表现应该在工作流的每一步都得到验证。 将监控和评估嵌入到工作流程中,可以让团队及早发现错误,优化逻辑,并持续改进性能,即使在智能体部署后也是如此。

例如,在某个文档审查流程中,一家另类法律服务提供商的产品团队观察到,当系统遇到一批新案件时,准确率突然下降。但由于他们在构建智能体工作流时,内置了可观测性工具来追踪流程的每一步,团队迅速定位了问题所在:某些用户群体提交的数据质量较低,导致了错误的解读和糟糕的下游推荐。

基于这一洞察,团队改进了数据收集实践,向上游相关方提供了文档格式化指南,并调整了系统的解析逻辑。智能体的性能很快就恢复了。

5. 能复用就别重复造轮子

在急于推进 AI 智能体的过程中,公司常常为每个识别出的任务都创建一个独立的智能体。这会导致严重的冗余和浪费,因为许多不同的任务实际上共享着大量相同的动作(例如,数据导入、信息提取、搜索和分析),同一个智能体本可以完成。

决定在构建可复用智能体上投入多少资源(而不是只做一个执行单一任务的智能体),类似于一个经典的 IT 架构问题:公司既要快速构建,又不能锁定那些会限制未来能力的选择。如何找到这种平衡,往往需要大量的判断和分析。

一个好的起点是识别那些重复出现的任务。公司可以开发能够轻松在不同工作流中复用的智能体和智能体组件,并让开发者可以方便地调用它们。这包括开发一套集中的、经过验证的服务(如 LLM 可观测性工具或预先批准的提示词)和资产(如应用模式、可复用代码和培训材料),并确保它们易于查找和使用。将这些能力整合到一个统一的平台至关重要。根据我们的经验,这几乎可以减少 30% 到 50% 的非必要重复工作。

6. 人类依然不可或缺,但角色正在改变

随着 AI 智能体的不断普及,关于人类将扮演何种角色的问题引发了广泛焦虑——一方面是对工作保障的担忧,另一方面是对生产力提升的过高期望。这导致了关于人类在当今许多工作岗位中角色的巨大分歧。

需要明确的是:智能体将能完成大量工作,但人类仍将是劳动力中不可或缺的一部分 ,尽管智能体和人类所做工作的类型都会随着时间而改变。例如,人类需要监督模型的准确性、确保合规性、运用判断力以及处理边缘案例。正如我们前面讨论的,智能体并非总是最佳答案,因此人类与机器学习(ML)等其他工具的配合仍然是必需的。然而,在某个特定工作流中所需的人员数量,很可能会在经过智能体改造后发生变化,并且通常会减少。企业领导者必须像管理任何变革项目一样,来管理这些转型,并深思熟虑地分配培训和评估智能体所需的工作。

我们经验中的另一大教训是,公司应有意识地重新设计工作,让人员和智能体能够良好协作。 如果缺乏这种关注,即使最先进的智能体项目也可能面临“静默失败”、错误累积和用户抵制。

以前面提到的那家另类法律服务提供商为例,他们希望在法律分析工作流中使用智能体。在设计流程时,团队花时间确定了在何处、何时以及如何整合人类的输入。例如,智能体能够以极高的准确率整理核心索赔项和金额,但考虑到这些信息对整个案件的核心重要性,律师必须进行复核和批准

同样,智能体能够为案件推荐工作方案,但考虑到决策的重要性,人类不仅要审查,还要调整建议。智能体还被编程来高亮显示边缘案例和异常情况,帮助律师形成更全面的看法。而在流程的最后,仍然需要有人用自己的执照和资历来签署文件,为法律决定承担责任。

这种人机协作设计的一个重要部分,是开发简洁的可视化用户界面,让人们能轻松地与智能体互动。例如,一家财险公司开发了交互式视觉元素(如边界框、高亮和自动滚动),帮助审查员快速验证 AI 生成的摘要。当人们点击某条见解时,应用程序会直接滚动到正确的页面并高亮显示相应的文本。这种对用户体验的关注节省了时间,减少了反复猜测,并建立了对系统的信心,最终带来了接近 95% 的用户接受度。


AI 智能体的世界正在飞速发展,我们可以预见未来将学到更多。但除非公司在推进智能体项目时,从思想上和实践上都抱持着学习的心态,否则他们很可能会重蹈覆辙,减慢自己的发展步伐。

这篇文章对您有多大的相关性和实用性?
关于作者

Lareina Yee 是麦肯锡全球研究院的董事,也是麦肯锡湾区办公室的资深合伙人。Michael Chui 是该办公室的资深研究员,Roger Roberts 是该办公室的合伙人;Stephen Xu 是多伦多办公室的产品管理高级总监。

作者谨向 Alex Singla, Alexander Sukharevsky, Alberto Mario Pirovano, Allen Chen, Ani Aghababyan, Antonio Castro, Carlo Giovine, Medha Bankhwal, Rickard Ström,以及麦肯锡致力于推动 AI 创新与实验的中心——QuantumBlack Labs 的全体产品团队,为本文做出的贡献表示感谢。


本文由纽约办公室的编辑总监 Barr Seitz 编辑。

如需申请演示或与 QuantumBlack Labs(我们的软件开发与研发中心)的专家进行后续交流,请联系 helloqb@mckinsey.com


来源:https://www.mckinsey.com/capabilities/quantumblack/our-insights/one-year-of-agentic-ai-six-lessons-from-the-people-doing-the-work