[AI智能体] （麦肯锡）AI智能体元年：六大实战启示 [转]

野区我贼狂 發表於 2025-10-26 09:38:00

[AI智能体] （麦肯锡）AI智能体元年：六大实战启示 [转]

<h1 id="1-序">1 序</h1>
<ul>
<li>成功部署AI智能体绝非易事。在AI智能体兴起一年后的今天，一个共识日益清晰：要想做好这件事，需要下真功夫、硬功夫。过去几个月，我们已探讨过生成式AI在价值创造和规模化方面的潜力。</li>
</ul>
<blockquote>
本文希望帮助致力于AI智能体部署的企业少走弯路、实现价值创造。
</blockquote>
<ul>
<li>
智能体驱动的企业转型，有望带来前所未有的生产力跃升。部分企业已在探索中尝到甜头，但更多企业被困于瓶颈中，投入与产出不成比例，甚至不得不走回头路：在智能体失灵之处重新雇佣人工。
</li>
<li>
这样的磕绊并不意外。回顾历史，每一代创新技术的普及都曾走过类似的弯路。为了提炼早期经验，我们深入分析了麦肯锡主导的50余个AI智能体项目，以及市场上的数十个同类案例，最终归纳出六大启示，帮助领导者真正释放AI智能体的价值。
</li>
</ul>
<h1 id="2-ai智能体的定义">2 AI智能体的定义</h1>
<ul>
<li>AI智能体(AI Agent)是一类基于生成式人工智能基础模型(生成文本/图像/音频/视频/...)构建的系统，能够在现实场景中自主行动，执行多步骤流程。</li>
</ul>
<blockquote>
它们通常依托自然语言处理技术，实现复杂任务的自动化，完成原本需要人力投入的工作。
</blockquote>
<ul>
<li>智能体：智能体是一种可以在有限监督下完成特定目标的人工智能系统。它以生成式AI技术为基础，利用大型语言模型在动态环境中运行，不仅可以生成文本、图像或代码等内容，还能通过调用外部工具自主完成复杂的任务。例如，智能体可以根据用户的需求预订机票和酒店，或者协助用户完成工作中的各种任务。</li>
</ul>
<h1 id="3-ai智能体的实战启示-最佳实践">3 AI智能体的实战启示（最佳实践）</h1>
<h2 id="核心不在智能体而在工作流">核心不在智能体，而在工作流</h2>
<ul>
<li>
要让AI智能体真正创造业务价值，关键在于重塑工作流。然而，不少组织却执着于智能体本身或具体的工具，结果往往只是打造出一些“看似酷炫，却无法改变整体效率”的产物，收效甚微。
</li>
<li>
唯有着眼于“从头到尾重构工作流”，即重新设计涉及人员、流程与技术的每一个环节，AI智能体项目才更易成功。
</li>
</ul>
<blockquote>
理解智能体如何为每个环节提供助力，才是实现价值的关键。人依旧是工作的核心，但如今会有各类智能体、工具与自动化手段为人提供支持。
</blockquote>
<ul>
<li>重构工作流的重要起点，是梳理现有流程、找出用户的核心痛点。</li>
</ul>
<blockquote>
这一步至关重要。只有精准识别“卡点”，才能让智能体与人类形成高效协作，减少不必要的环节，更快更好地实现业务目标。 
这种协作通过持续的学习与反馈循环不断优化，形成一个能自我进化的系统：用得越多，智能体越智能、越契合业务需求。
</blockquote>
<blockquote>
例如，一家另类法律服务公司在尝试现代化合同审查工作流时发现，法律逻辑瞬息万变：新判例层出不穷，司法辖区各有不同，政策解读也在不断更新，要将这些专业知识一次性固化下来几乎不可能。
</blockquote>
<ul>
<li>为应对这种天然的不确定性，团队为其智能体系统设计了在工作流中持续学习的机制。</li>
</ul>
<blockquote>
例如，用户在文档编辑器中的每一次修改都会被记录并分类，为工程师与数据科学家提供丰富的反馈数据。 
团队可藉此不断训练智能体、优化提示逻辑、扩充知识库。 
久而久之，智能体逐渐具备了“自我吸收新知识并体系化”的能力。
</blockquote>
<ul>
<li>聚焦工作流而非智能体本身，能让团队在恰当的节点部署恰当的技术，这在重构复杂、多步骤的工作流时尤为重要（见图）。</li>
</ul>
<blockquote>
以保险业为例，调查类工作流（如理赔与核保）往往涉及多个步骤，每一步所需的任务和认知能力各不相同。 
企业若能巧妙组合规则驱动系统、分析型AI、生成式AI与智能体，并以统一的协同框架（如AutoGen、CrewAI、LangGraph等开源框架）作为底层支撑，就能真正实现对流程的重构。 
在此过程中，智能体扮演着“【协调者与整合者】”的角色：它们调用工具，将不同系统的输出整合到自身工作场景中，如同“粘合剂”般串联起整个工作流，使流程真正形成闭环，减少人工干预。
</blockquote>
<img src="https://img2024.cnblogs.com/blog/3622693/202510/3622693-20251026092324819-1066052611.png" alt="image" loading="lazy">
<h2 id="智能体并非万能">智能体并非万能</h2>
<ul>
<li>AI智能体的能力毋庸置疑，但它并非万能钥匙，无法解决所有问题。</li>
</ul>
<blockquote>
许多领导者在引入智能体时，往往忽视了待处理的任务本质，缺少对“智能体是否真的是最佳选择”的冷静思考。
</blockquote>
<ul>
<li>为避免资源浪费或不必要的复杂化，企业不妨借鉴评估高绩效团队成员的思路来审视智能体。</li>
</ul>
<blockquote>
核心在于厘清三个问题：工作的本质是什么？人类成员与AI智能体各自的优势何在？如何通过协同实现最终目标？ 
事实上，很多业务挑战并不需要智能体，基于规则的自动化、预测分析，甚至大语言模型的提示工程，往往更直接、更可靠。
</blockquote>
<ul>
<li>在贸然引入智能体之前，领导者需要先评估任务需求。</li>
</ul>
<blockquote>
具体要明确三件事：流程需要多高的标准化？变量波动有多大？哪些环节最适合交由智能体承担？
</blockquote>
<blockquote>
这些问题在实践中并不复杂。
<blockquote>
例如，投资者开户、监管披露等“低变量、高标准化”的流程，本身规则清晰、逻辑明确。在这种场景下，用非确定性的大语言模型去搭建智能体，只会徒增复杂性和不确定性，而非创造价值。
</blockquote>
</blockquote>
<ul>
<li>但在“高变量、低标准化”的场景中，智能体则能真正发挥威力。</li>
</ul>
<blockquote>
某金融服务公司就曾借助智能体提取复杂财务信息，既减少了人工核验的工作量，又优化了整体流程。这类任务往往涉及信息整合、合规分析和反复验证，正是智能体的强项所在。
</blockquote>
<h3 id="选择ai工具的高级经验法则">选择AI工具的高级经验法则</h3>
<blockquote>
在为不同任务选择合适的AI工具时，可遵循以下原则：
</blockquote>
<ul>
<li>
若任务规则固定、重复性高，且输入数据为结构化形式（如数字录入），宜采用基于规则的自动化工具。
</li>
<li>
若输入数据为非结构化内容（如长篇文档），但任务本质仍属信息提取或内容生成，可选用生成式AI、自然语言处理或预测分析工具。
</li>
<li>
若任务需根据历史数据进行分类或预测，可采用预测分析或生成式AI工具。
</li>
<li>
若输出结果需要综合判断、分析或创造性解读，应选用生成式AI。
</li>
<li>
若任务涉及多步骤决策，且输入与情境高度多样化，则最适合使用AI智能体。
</li>
</ul>
<blockquote>
需要提醒的是，切勿陷入“要么用、要么不用”的【二元思维】。 
有些智能体适合单点任务，有的擅长放大人的效率，而在不少情况下，其他技术方案可能更合适。 
关键在于：找到最匹配的工具或智能体，设计好人机协作方式，并明确如何让智能体与员工形成最佳组合。 
真正的价值，往往来自人、智能体与工具之间的默契配合。
</blockquote>
<h2 id="杜绝ai低质输出投入评估赢得信任">杜绝“AI低质输出”：投入评估，赢得信任</h2>
<ul>
<li>在智能体落地过程中，最常见的陷阱是：演示时表现惊艳，一旦进入真实环境，却让用户大失所望。</li>
</ul>
<blockquote>
员工对“AI低质输出” （<code>AI slop</code>）的抱怨屡见不鲜，信任迅速流失，使用率随之下滑。 
自动化带来的效率提升，往往就这样被信任缺失和质量下降抵消殆尽。
</blockquote>
<ul>
<li>这类反复出现的问题带来一个清晰的教训：企业应像培养员工一样，重金“培养”智能体。</li>
</ul>
<blockquote>
正如一位领导者所言：“引入智能体更像招聘新人，而非安装软件。” 
智能体需要明确的“岗位职责”、系统的“入职培训”，以及持续不断的反馈，才能迭代优化、提升表现。
</blockquote>
<ul>
<li>打造高效智能体并非易事，需要汇聚专家经验，为具体任务制定细致的评估标准，并将最佳实践转化为可操作的规范。</li>
</ul>
<blockquote>
这些规范既是智能体的“培训手册”，也是绩效考核的准绳，确保其表现始终对标预期。
</blockquote>
<ul>
<li>有时，这些规范被写进标准流程，有时则沉淀在一线员工的经验中。</li>
</ul>
<blockquote>
关键在于：提炼出顶尖表现者与普通人的差别。 
比如在销售场景中，顶尖销售往往能巧妙引导对话、化解异议，并快速调整沟通风格。
</blockquote>
<ul>
<li>更重要的是，专家必须持续参与智能体的性能测试，而非“上线即放任不管”。</li>
</ul>
<blockquote>
这一过程通常要求专家针对给定输入逐条写下或标注期望与不期望的输出，复杂的智能体甚至需要数千条标注。通过这种方式，团队才能量化智能体的表现优劣，及时纠偏。
</blockquote>
<blockquote>
某全球银行在重构“客户身份验证（KYC）”与“信贷风险分析”流程时，便践行了这一思路。每当智能体基于指引的合规建议与人工判断出现偏差，团队就会排查逻辑漏洞、优化决策标准，并重新测试。
</blockquote>
<blockquote>
例如，在一次案例中，智能体的初步分析过于笼统。团队随即反馈，并开发、部署了额外的智能体，以确保输出具备足够的深度和洞察力。 
一个行之有效的方法是连续多次追问“为什么”，迫使智能体层层递进，深化思考。通过这种方式，分析质量显著提升，员工对智能体输出的信任度也随之增强。
</blockquote>
<h3 id="评估类型">评估类型</h3>
<blockquote>
以下是评估AI智能体性能的常用指标：
</blockquote>
<ul>
<li>
端到端任务成功率：衡量在无需人工干预或升级处理的情况下，AI正确完成任务流程的比例，直接反映其在现实场景中的实用性与稳定性。
</li>
<li>
F1得分/精确率与召回率：用于平衡假阳性与假阴性，常用于存在明确“是/否”结果的分类、提取或决策任务。
</li>
<li>
检索准确率：衡量AI在检索任务中，相对于基准事实集，找出正确的文档、事实或证据的比例，对检索增强型任务尤为关键。
</li>
<li>
语义相似度：通过比较生成内容与参考内容在嵌入空间中的余弦相似度，评估语义契合度。它突破了表层文字匹配的限制，更关注AI在“意义”层面是否与目标一致。
</li>
<li>
大语言模型判官：利用大语言模型作为评审，将AI输出与标准答案或人类偏好进行比对。在评估清晰度、实用性、推理严谨性等主观维度时，这一方法尤为高效且易于扩展。
</li>
<li>
基于混淆矩阵的偏差检测：通过混淆矩阵对比不同用户群体的结果差异，以识别系统性偏差，如某一群体的假阴性率显著偏高。
</li>
<li>
幻觉发生率：追踪AI输出中“事实错误或无依据主张”的出现频率，是确保智能体输出可信度的关键指标。
</li>
<li>
校准误差（置信度与准确率的偏差）：检验AI的自信程度是否与实际正确率相符，对风险敏感型任务尤为重要。
</li>
</ul>
<h2 id="确保每一步可追溯可验证">确保每一步可追溯、可验证</h2>
<ul>
<li>在小规模试点时，复核AI智能体的结果并不困难；但当规模扩展到数百甚至上千个智能体时，难度便陡然上升。</li>
</ul>
<blockquote>
更麻烦的是，许多企业只追踪最终结果，却忽视了过程环节。这样一来，错误一旦发生（在大规模部署下几乎不可避免），往往难以追溯到源头。
</blockquote>
<ul>
<li>稳妥的做法，是在工作流的每个环节都嵌入【验证机制】。</li>
</ul>
<blockquote>
通过内置监控与评估，团队能够在早期就发现问题、修正逻辑，实现智能体上线后的持续优化。 
例如，某另类法律服务公司的产品团队发现，在处理一批新案件时，系统准确性骤降。但由于他们在设计之初就内置了可观测性工具，可以逐步追踪流程，团队迅速锁定了问题根源：部分用户群体提交的数据质量过低，导致智能体解读偏差，继而生成了质量欠佳的后续建议。 
明确症结后，团队随即改进了数据收集方式，为上游相关方提供了文档格式指引，并调整了解析逻辑，系统表现也迅速恢复。
</blockquote>
<h2 id="最佳用例在于复用">最佳用例在于复用</h2>
<ul>
<li>
在推动AI智能体快速落地的过程中，许多企业习惯于“一个任务建一个智能体”。结果往往是重复建设、资源浪费。事实上，同一智能体完全可以覆盖多个具有相似操作（如摄取、提取、搜索、分析）的任务。
</li>
<li>
问题在于：企业究竟该在“通用复用型智能体”和“单一任务智能体”之间投入多少资源？这与IT架构的经典难题颇为相似，既要快速落地，又要避免因短视选择锁死未来能力。如何平衡，往往考验管理者的判断与分析能力。
</li>
<li>
一个好的起点是识别重复性任务。企业可以围绕这些共性，开发可跨工作流轻松复用的智能体和组件，并降低开发者的调用门槛。例如，集中构建一套经过验证的服务（如大模型可观测性工具、预先审批的提示词库）和资产（如应用模板、可复用代码、培训材料），让人员易于查找和使用。进一步而言，将这些能力整合进统一平台至关重要。实践表明，这类整合通常能削减30%至50%的非必要工作。
</li>
</ul>
<h2 id="人类仍不可或缺但角色与数量将发生变化">人类仍不可或缺，但角色与数量将发生变化</h2>
<ul>
<li>
随着AI智能体加速普及，人类的角色成为争论焦点：有人担心岗位被取代，有人期待生产力跃升。于是，关于人类在许多现有工作中的作用，观点两极分化。
</li>
<li>
现实是：尽管智能体能够承担大量工作，且未来的人机分工会持续演化，但人类在职场中的核心作用始终不可替代。
</li>
</ul>
<blockquote>
例如，人类需监督模型准确率、确保合规性、做出关键判断、处理特殊情况等。 
而且，如前文所述，智能体并非万能，有时仍需人类和其他工具（如机器学习模型）协同工作。 
不过，随着智能体改造深入，某些工作流中的人力规模确实会下降。 
企业领导者必须像管理其他变革项目一样，稳妥推进转型，合理分配训练与评估智能体所需的人力资源。
</blockquote>
<ul>
<li>另一条重要经验是：企业必须主动重构工作流，让人类与智能体真正高效协作。</li>
</ul>
<blockquote>
否则，即便是最先进的智能体项目，也可能陷入“问题难以察觉、错误层层累积，最终用户抵触”的困境。
</blockquote>
<blockquote>
仍以前文提到的法律服务公司为例。团队在用智能体优化法律分析工作流时，明确规划了人类介入的时间、方式与环节。 
例如，智能体能够高精度整理索赔事项与金额数据，但由于这类信息对案件至关重要，仍需律师复核确认。
</blockquote>
<blockquote>
同样，智能体能为案件提供工作计划建议，但最终决策不仅要经过律师审核，还需结合实际情况调整。
</blockquote>
<blockquote>
此外，智能体还被设定为主动突出“极端案例和异常情况”，帮助律师形成更全面的判断。但最终签署文件、以个人执业资质为法律结论背书的，依然是律师本人。
</blockquote>
<ul>
<li>在人机协作设计中，一个关键环节是开发简洁直观的用户界面，降低人与智能体交互的门槛。</li>
</ul>
<blockquote>
例如，某财产与意外险公司开发了交互式可视化元素（如标注框、高亮、自动滚动），帮助审核人员快速验证AI生成的摘要。 
当审核人员点击关键信息时，系统会自动跳转至对应页面并高亮显示。这种注重用户体验的设计，不仅节省时间、减少反复确认，还显著提升了信任度，最终用户接受度接近95%。
</blockquote>
<ul>
<li>AI智能体的世界瞬息万变，未来还会涌现更多经验。但可以肯定的是：唯有将“学习”真正内化为理念、落实到实践，企业才能避免重复犯错，加快前行步伐。</li>
</ul>
<h1 id="x-参考文献">X 参考文献</h1>
<ul>
<li>AI智能体元年：六大实战启示 - Weixin/麦肯锡</li>
</ul> 
来源：https://www.cnblogs.com/know-data/p/19166492

頁: [1]

圆梦公社's Archiver

[AI智能体] （麦肯锡）AI智能体元年：六大实战启示 [转]