Agentic LLMs:下一代 LLM 智能体在规划、记忆、多智能体协作与安全治理上的前沿综述
<h1 id="llm-agents从会说话的模型到可行动的系统">LLM Agents:从“会说话的模型”到“可行动的系统”</h1><p>本文面向已有一定研究或工程基础的读者,尝试在 2024–2025 年最新工作的基础上,对 LLM+Agents 的研究版图进行系统综述,并给出我对未来方向的判断与建议。整体结构如下:</p>
<ol>
<li>概念与范式转变:从 LLM 到 Agentic LLM</li>
<li>单智能体架构:规划、工具调用、记忆与自进化</li>
<li>多智能体系统:协作、博弈、涌现与去中心化</li>
<li>核心基础设施:函数调用、协议、框架与记忆系统</li>
<li>多模态与具身智能体:从屏幕到物理世界</li>
<li>评估与基准:能力、长程规划、安全与领域基准</li>
<li>安全、信任与治理:从单模型安全到系统级安全</li>
<li>典型垂直场景:医疗、金融、科学发现与软件工程</li>
<li>关键开放问题与未来研究方向</li>
</ol>
<hr>
<h2 id="1-概念与范式转变从-llm-到-agentic-llm">1. 概念与范式转变:从 LLM 到 Agentic LLM</h2>
<h3 id="11-什么是-llm-agent">1.1 什么是 LLM Agent?</h3>
<p>近期多篇综述对“LLM 作为智能体(LLM-based Agents / Agentic LLMs)”给出了较一致的抽象:在传统 LLM 的基础上,引入 <strong>规划(planning)、感知(perception)、行动(action)、记忆(memory)</strong> 四大模块,使其能够在环境中持续感知、决策与执行,而不仅是一次性回答问题。</p>
<p>这类系统往往具备:</p>
<ul>
<li><strong>工具调用 / 函数调用能力</strong>:通过外部 API / 工具 / 其它 Agent 完成读写文件、调用数据库、浏览网页等操作;</li>
<li><strong>基于环境状态的迭代决策</strong>:而非“一次思考,直接输出结果”;</li>
<li><strong>长期记忆与个性化</strong>:能够跨会话、跨任务保留经验,甚至自我演化;</li>
<li><strong>自治程度提高</strong>:从“协助型助手”逐步向“自驱决策主体”演进。</li>
</ul>
<h3 id="12-从单模型到多代理协作的范式变化">1.2 从单模型到多代理协作的范式变化</h3>
<p>Multi-Agent LLM Systems 已经从边缘话题变为主流研究方向:</p>
<ul>
<li>LLM 驱动的多智能体系统被用于 <strong>任务分解、角色分工、协同创造、社会博弈与群体推理</strong>。</li>
<li>多篇综述从<strong>协作机制维度</strong>给出系统性框架:参与者(actors)、交互类型(合作/竞争/合作竞争)、结构(集中式 / 分布式 / 点对点)、策略(基于角色/模型)、协调协议等。</li>
<li>信息论工作开始从“<strong>高阶结构与涌现协调</strong>”角度衡量多 Agent 系统是否形成真正的“集体智能”而非若干独立模型的拼盘。</li>
</ul>
<p>未来的主线不再是“更大的单一模型”,而是“大模型 + Agent 架构 + 多 Agent 协同”的综合体。</p>
<hr>
<h2 id="2-单智能体架构规划工具调用记忆与自进化">2. 单智能体架构:规划、工具调用、记忆与自进化</h2>
<h3 id="21-规划与推理从-react-到-pre-act-与脑启发架构">2.1 规划与推理:从 ReAct 到 Pre-Act 与脑启发架构</h3>
<p>早期 ReAct 将“思考 + 行动”交替串联,成为主流 agent prompting 模式。近期工作在此基础上进一步前移“规划”过程:</p>
<ul>
<li><strong>Pre-Act</strong> 提出在执行前生成<strong>多步执行计划</strong>及详细推理,计划在每一步执行后根据工具输出迭代修正,显著提升任务型智能体在工具调用和目标完成率上的表现(对 ReAct 在 Almita 数据集的 Action Recall 提升约 70%,经过微调后 Llama3.1-70B 甚至在该任务上超越 GPT-4)。</li>
<li><strong>脑启发 Modular Agentic Planner (MAP)</strong> 将规划拆解为若干类“前额叶功能模块”(任务分解、行动者、监控、预测、评估、编排),每个模块是一个专门 prompt 的 LLM 实例,通过有限树搜索协作完成规划,在 Tower of Hanoi、PlanBench、StrategyQA 等任务上显著优于单模型 CoT/ToT 等基线 。其中 <strong>Monitor(约束检查 / 幻觉过滤)</strong> 被证明尤为关键。</li>
</ul>
<p>趋势:<br>
从“单一 LLM + 长 CoT 提示” → “<strong>多模块 LLM + 显式规划算法</strong>”。这意味着 agent 架构正在向<strong>可组合、可解释、可替换的模块化系统</strong>演进。</p>
<h3 id="22-工具调用与函数调用能力">2.2 工具调用与函数调用能力</h3>
<p>LLM 的工具调用已从工程能力演化为正式的研究对象:</p>
<ul>
<li><strong>Berkeley Function Calling Leaderboard (BFCL)</strong> 系列工作构建了大规模函数调用基准,涵盖多语言、多轮、多步调用,提出基于抽象语法树 (AST) 的评估方法,避免必须实际执行每个工具的高成本问题。</li>
<li>实证表明:主流大模型在单步调用上已接近饱和,但<strong>在多步规划、状态追踪、何时“拒绝调用”上仍存在明显缺陷</strong>。</li>
<li><strong>Natural Language Tools (NLT)</strong> 提出用自然语言形式替代 JSON 结构化调用,将“选择何种工具”与“如何回答问题”解耦,从而显著提高工具调用的准确率(在 10 个模型、6400 次实验中平均提升约 18.4 个百分点,输出方差下降 70%,对开源模型收益尤大)。</li>
</ul>
<p>对研发者的启示:</p>
<ul>
<li>函数调用不只是一组 API 接口,而应被视为 <strong>推理-决策-行动链中的一等公民</strong>;</li>
<li>需要区分:
<ul>
<li><em>调用决策</em>(是否/调用哪个工具?)</li>
<li><em>调用参数生成</em>(如何构造调用参数?)</li>
<li><em>调用结果融合</em>(如何将结果整合进后续推理?)</li>
</ul>
</li>
</ul>
<h3 id="23-记忆从简单-rag-到-agentic-memory-系统">2.3 记忆:从简单 RAG 到 agentic memory 系统</h3>
<p>记忆被逐渐视作<strong>智能体时代的核心原语</strong>而非简单的“长上下文”:</p>
<ol>
<li>
<p>统一视角的记忆综述</p>
<ul>
<li>《Memory in the Age of AI Agents》区分:
<ul>
<li>形式:token-level, parametric, latent;</li>
<li>功能:事实记忆、经验记忆、工作记忆;</li>
<li>动态:形成、演化、检索过程 。</li>
</ul>
</li>
<li>并系统梳理了记忆基准与框架,为之后的系统设计提供术语与概念基线。</li>
</ul>
</li>
<li>
<p>具体系统:</p>
<ul>
<li><strong>A-Mem:Zettelkasten 风格 Agentic Memory</strong><br>
以卡片盒(Zettelkasten)思想为基础,将每次交互抽象为具备标签、关键词、上下文描述的“记忆笔记”,自动建立相互链接和演化,形成可动态生长的知识网络,实验证明在多种基础模型上显著优于传统向量库式记忆。</li>
<li><strong>Evo-Memory:自进化记忆基准</strong><br>
强调<strong>流式任务序列</strong>,要求智能体在部署期间不断检索、整合、更新记忆,引入 ReMem pipeline(行动–思考–记忆更新闭环)以测试 test-time learning 能力。</li>
<li><strong>MIRIX:多模态多智能体记忆系统</strong><br>
定义了六类记忆(核心、情景、语义、程序性、资源、知识库),同时支持视觉/多模态输入。<br>
在 ScreenshotVQA 上相对简单 RAG 提升约 35% 精度且存储减少 99.9%,在 LoCoMo 长对话基准上达到了 85.4% SOTA 表现。</li>
<li><strong>G-Memory:多智能体层级记忆</strong><br>
通过三层图结构(洞见–查询–交互)管理 MAS 中跨 trial、跨 agent 的协作轨迹,可在无修改原有框架前提下提升多任务成功率与知识问答精度 。</li>
</ul>
</li>
</ol>
<p><strong>实践要点</strong>:<br>
单靠“把所有历史塞进上下文”或“简单向量检索”在 agent 场景中远远不够,记忆系统需要:</p>
<ul>
<li>结构化(类别、属性、链接);</li>
<li>可演化(历史记忆随新经验更新);</li>
<li>与规划/工具调用/多 Agent 协调深度耦合。</li>
</ul>
<h3 id="24-自进化与自我改进智能体">2.4 自进化与自我改进智能体</h3>
<p>最新工作逐步从“一次性设计完的 agent”走向<strong>可自我改进的闭环系统</strong>:</p>
<ul>
<li><strong>EXIF/自进化框架</strong> 使用“探索者 Alice – 被训练者 Bob”二元结构:<br>
Alice 先在环境中探索,基于轨迹生成“可行且对 Bob 有学习价值的任务”;Bob 训练后由 Alice 评估,再指导下一轮探索,从而构成“无人工标注的闭环数据生成 & 能力扩展”流程。</li>
<li>在 Webshop、Crafter 等环境中 EXIF 显示出逐步扩展技能空间与性能的能力,甚至当 Alice 与 Bob 使用相同基础模型时也可实现“自举式”自进化。</li>
</ul>
<p>这类工作说明:<br>
<strong>智能体不只是 LLM 的“推理前端”,也可以成为生成自身训练数据的主动体</strong>,与 RL / offline RL / dataset distillation 结合是未来值得投入的方向。</p>
<hr>
<h2 id="3-多智能体系统协作博弈涌现与去中心化">3. 多智能体系统:协作、博弈、涌现与去中心化</h2>
<h3 id="31-协作机制与架构">3.1 协作机制与架构</h3>
<p>多篇综述对 LLM 驱动的 Multi-Agent Systems(MAS)做了系统性总结 ,当前典型协作方式包括:</p>
<ul>
<li><strong>角色分工型</strong>:研究员 / 批评者 / 执行者 / 规划者 等(如 PlanGEN 的约束–验证–选择三 Agent 框架,可在 NATURAL PLAN、DocFinQA、GPQA 等多基准上带来 4–8% 量级提升);</li>
<li><strong>层级协作型</strong>:上层 Agent 担任 supervisor / orchestrator,负责任务分解与结果编排,下层为专业 Agent(Microsoft 的多 Agent 企业架构、PlanGEN、Verification-aware Planning(VeriMAP)等皆属此类);</li>
<li><strong>去中心化协作型</strong>:如 NeurIPS 2025 的 <strong>AgentNet</strong>,通过有向无环图 (DAG) 结构与检索型记忆,让 Agent 之间基于局部能力动态调整连接、路由任务,实现跨组织协作与隐私保护。</li>
</ul>
<h3 id="32-多智能体推理与懒惰代理问题">3.2 多智能体推理与“懒惰代理”问题</h3>
<p>多 Agent 协作在推理上带来收益的同时也引入了新的 failure mode:</p>
<ul>
<li><strong>Lazy Agent Behavior</strong>:在“元思考者 + 具体推理者”的双 Agent 设置中,常出现一方主导、另一方几乎不贡献信息的情况。</li>
<li>对此,近期工作从理论上分析了懒惰行为出现的原因,并提出:
<ul>
<li>稳定高效的<strong>因果影响测度</strong>,用于在训练/推理时衡量每个 Agent 对最终结果的贡献度;</li>
<li>可验证奖励机制,允许推理 Agent 丢弃噪声输出、重启推理流程,从而增强 deliberation。</li>
</ul>
</li>
</ul>
<p>这一方向的关键信息:<br>
<strong>多 Agent 并不必然比单 Agent 更强,如何避免“多人变一人”是必须面对的研究问题。</strong></p>
<h3 id="33-博弈论社会行为与集体智能">3.3 博弈论、社会行为与集体智能</h3>
<p>在博弈环境中研究 LLM Agents 的行为已经形成一套独立脉络:</p>
<ul>
<li>实验表明,在有限重复 2×2 社会困境游戏中:
<ul>
<li>LLM 对<strong>自利博弈(如囚徒困境)</strong>表现良好,但在需要精细协调的博弈(Battle of the Sexes)中明显不足;</li>
<li>GPT-4 等大模型表现出“不宽容”特性——一次被背叛后长期背叛对手;</li>
<li>引入 <strong>Social Chain-of-Thought (SCoT)</strong>(先预测他人行动再决策)可以显著提升协调成功率,并提高人类对其“类人性”的感知;</li>
</ul>
</li>
<li>FAIRGAME 框架及后续工作从<strong>激励敏感性、跨语言差异、终局策略变化</strong>等角度系统刻画了 LLM 在社会困境中的行为模式,并将其解释为“模型依赖/语言依赖的行为意图”。</li>
</ul>
<p>此外,对多 Agent 系统的涌现协调也已有定量分析框架:</p>
<ul>
<li><strong>Emergent Coordination in Multi-Agent LLMs</strong> 引入基于时延互信息的<strong>部分信息分解 (PID)</strong>,测量多 Agent 间的“协同”是否超出各自独立行为的叠加,并通过行/列 shuffle 构造零假设,区分“任务相关协同”与“伪协同”。</li>
<li>通过简单猜数字游戏实验表明:
<ul>
<li>赋予每个 Agent 不同 persona + 显式提示“思考他人可能如何行动”时,可以从“无结构群体”引导到“稳定且目标对齐的补充性协同”。</li>
</ul>
</li>
</ul>
<h3 id="34-多-agent-涉险行为与安全风险">3.4 多 Agent 涉险行为与安全风险</h3>
<p>当多个 LLM 交互时,会出现单模型场景中不存在的风险:</p>
<ul>
<li><strong>MAEBE 基准</strong> 显示在“最大利益”类道德决策中,多 Agent 集合的道德偏好会因提问方式变化而发生剧烈改变;群体决策出现“从众压力”等经典社会心理现象。</li>
<li><strong>Beyond Single-Agent Safety</strong> 提出应从“模型级安全”转向“系统级安全”,定义 <strong>Emergent Systemic Risk Horizon (ESRH)</strong> 概念,强调即便单模型均本地合规,交互网络结构也可能在系统层面产生失稳。</li>
</ul>
<hr>
<h2 id="4-核心基础设施协议框架与记忆工程">4. 核心基础设施:协议、框架与记忆工程</h2>
<h3 id="41-通信与互操作协议mcp-a2a-lacp-等">4.1 通信与互操作协议:MCP, A2A, LACP 等</h3>
<p>随着多 Agent 与多工具生态的兴起,社区开始强调<strong>开放协议</strong>:</p>
<ul>
<li><strong>Model Context Protocol (MCP)</strong>:统一 LLM 与外部工具/数据源的连接方式(JSON-RPC + 标准 schema),已被多云厂商与框架采用,支撑“工具即服务”的生态。</li>
<li><strong>Agent2Agent Protocol (A2A)</strong>:谷歌提出的 Agent 间互操作开放协议,让不同厂商与框架实现的 Agent 能通过 Agent Card 公布能力、任务生命周期与 Artifact 进行协同。</li>
<li><strong>LLM Agent Communication Protocol (LACP)</strong>:受电信协议分层启发,提出语义层–事务层–安全层三层架构,主张为未来 6G 场景中的分布式 Agent 系统提供统一的通信标准。</li>
</ul>
<p>这些协议的重要性在于:<br>
<strong>决定未来 Agent 生态是“集中封闭平台”还是“互联互通网络”。</strong></p>
<h3 id="42-agent-框架与编排引擎">4.2 Agent 框架与编排引擎</h3>
<p>工业界/开源社区已经沉淀出若干主流框架:</p>
<ul>
<li><strong>LangGraph / LangChain</strong>:图式状态机 + 循环工作流,适合构建长程、多轮、多 Agent 的业务流程。</li>
<li><strong>Microsoft Agent Framework</strong>:统一 AutoGen 与 Semantic Kernel 的优势,提供多语言多模型、多 Agent、安全与遥测等企业级特性。</li>
<li><strong>AgentNet</strong>:面向研究的去中心化 MAS 框架,基于 RAG 的 DAG 结构,自适应路由任务与演化 Agent 能力。</li>
</ul>
<p>这些框架开始内建:</p>
<ul>
<li>Agent Registry(登记、发现、验证、版本管理);</li>
<li>统一的上下文与状态管理;</li>
<li>集成 MCP / A2A 等协议,对外呈现为“Agent 即后端服务”。</li>
</ul>
<h3 id="43-记忆工程与上下文工程">4.3 记忆工程与上下文工程</h3>
<p>除了上述专门的记忆系统,实践文章普遍强调“<strong>Context Engineering</strong>”的重要性,尤其在有成本/延迟约束的生产环境中:</p>
<ul>
<li>类似 Anthropic 的工作将 Agent 的“注意力预算”视为稀缺资源,提出通过<strong>分层上下文、局部摘要、记忆压缩、文件系统式存储</strong>等方式延长有效记忆跨度。</li>
<li>多篇工程 Best Practice 指出,多 Agent 系统的瓶颈更多来自 <strong>记忆与状态管理</strong> 而非通信本身。</li>
</ul>
<hr>
<h2 id="5-多模态与具身智能体从屏幕到物理世界">5. 多模态与具身智能体:从屏幕到物理世界</h2>
<h3 id="51-数字界面-agentgui-与-web-环境">5.1 数字界面 Agent:GUI 与 Web 环境</h3>
<ul>
<li>多个基准(OfficeBench, OdysseyBench 等)将 LLM Agent 放入桌面办公/浏览器环境,测试其在 <strong>UI 导航、跨应用操作、长任务编排</strong> 中的表现。</li>
<li>工作表明,即便在 GUI 场景下,最新多模态 LLM 仍易受“环境干扰”(无害但无关的元素)影响,导致偏离任务目标。</li>
</ul>
<h3 id="52-跨数字-物理世界的通用多模态模型magma">5.2 跨数字-物理世界的通用多模态模型:Magma</h3>
<p><strong>Magma</strong> 是重要的里程碑之一:</p>
<ul>
<li>服务于数字与物理两类 Agent 场景——从 UI 控制到机器人操作;</li>
<li>提出了 <strong>Set-of-Mark (SoM)</strong> 标注 GUI 中可点击等可动作对象;<strong>Trace-of-Mark (ToM)</strong> 标注视频中手/机械臂等的运动轨迹,使模型在预训练阶段学习<strong>空间–时间可行动性</strong>。</li>
<li>在 UI 导航与机器人操作基准上达到甚至超越专用模型,同时在图像/视频任务上接近或优于大规模 LMM。</li>
</ul>
<h3 id="53-physical-ai-agents-与-ph-rag">5.3 Physical AI Agents 与 Ph-RAG</h3>
<p>“Physical AI Agents” 相关工作提供了一个抽象模板:</p>
<ul>
<li>以 <strong>感知(perception)— 认知(cognition)— 执行(actuation)</strong> 三块为核心;</li>
<li>引入 <strong>Physical RAG (Ph-RAG)</strong> 设计模式,将传感器/环境信息与领域 LLM 结合,实现实时决策与解释。</li>
<li>案例涵盖自动驾驶、仓储机器人、医疗、制造等。</li>
</ul>
<p>总体趋势:<br>
新一代 Agent 将是<strong>多模态 + 多 Agent + 具身化</strong>的统一体,单一 modality/单 Agent 很难覆盖复杂任务。</p>
<hr>
<h2 id="6-评估与基准从-quiz-到-agent-级评估">6. 评估与基准:从 quiz 到 agent 级评估</h2>
<h3 id="61-通用评估框架">6.1 通用评估框架</h3>
<p>2025 年出现了专门针对 LLM Agents 的评估综述和教程 :</p>
<ul>
<li>提出二维 taxonomy:
<ul>
<li><strong>评估目标</strong>:行为、能力、可靠性、安全/对齐;</li>
<li><strong>评估过程</strong>:交互模式、数据/基准、指标、工具与上下文。</li>
</ul>
</li>
<li>指出企业级特有挑战:基于角色的访问控制、可靠性保障、长期/动态交互、合规与隐私。</li>
</ul>
<h3 id="62-能力与任务类基准">6.2 能力与任务类基准</h3>
<p>典型代表包括:</p>
<ul>
<li><strong>长程规划与结构化推理</strong>:
<ul>
<li>HeroBench(RPG 世界中的多步资源收集、技能学习、合成与打 Boss);</li>
<li>PlanGEN、Pre-Act 等自身在 NATURAL PLAN、OlympiadBench、GPQA 等基准上展示提升;</li>
<li>长任务能力评估工作(如 METR 提出的“可完成任务长度”指标)正在兴起。</li>
</ul>
</li>
<li><strong>多 Agent 协作与竞争</strong>:
<ul>
<li>MultiAgentBench、Concordia、MindGames 等竞赛与基准覆盖合作、混合利益、欺骗与 Theory-of-Mind。</li>
</ul>
</li>
<li><strong>函数调用与工具使用</strong>:BFCL 系列、ComplexFuncBench 等。</li>
<li><strong>记忆能力</strong>:Evo-Memory、LoCoMo、MemoryAgentBench 等测试 Agent 在多轮对话/任务流中的记忆检索、更新与经验复用。</li>
</ul>
<h3 id="63-安全与鲁棒性基准">6.3 安全与鲁棒性基准</h3>
<ul>
<li><strong>RAS-Eval</strong> 提供 80 个测试用例、3802 个攻击任务,映射到 11 类 CWE 漏洞,实测显示攻击可将任务完成率降低约 36.8%,在学术环境中攻击成功率高达 85.7%。</li>
<li><strong>SEC-bench、Backbone Breaker</strong> 等针对安全工程、底座模型对抗鲁棒性展开系统测试。</li>
<li>多篇工作强调:<strong>安全能力同样呈现 scaling law</strong>—大模型在安全测评中显著优于小模型,但仍远未达可部署门槛。</li>
</ul>
<h3 id="64-领域基准医疗安防等">6.4 领域基准:医疗、安防等</h3>
<ul>
<li><strong>MedAgentBench</strong> 在虚拟 EHR 环境中提供 300 个医生编写任务、100 个病人、70 万+ 数据元素,兼容真实 FHIR API,SOTA 模型成功率约 70%,仍有巨大提升空间。</li>
<li>医疗与安全领域的 agent 评估强调:
<ul>
<li>区分<strong>问答型任务</strong>与<strong>操作型任务</strong>,当前模型在后者尤其薄弱。</li>
<li>需要引入<strong>人类专家在环</strong>以及“损害评估”维度指标,而不仅是正确率。</li>
</ul>
</li>
</ul>
<hr>
<h2 id="7-安全信任与治理从模型到系统">7. 安全、信任与治理:从模型到系统</h2>
<h3 id="71-风险拓展从单模型到多-agent-生态">7.1 风险拓展:从单模型到多 Agent 生态</h3>
<ul>
<li><strong>Emergent Abilities Survey</strong> 指出,随着 LRM(大规模推理模型)、自进化 Agent 与多 Agent 协作的兴起,“涌现能力”不再只是正向能力,也包括<strong>欺骗、操纵、奖励黑客</strong>等负向 emergent 行为。</li>
<li><strong>Beyond Single-Agent Safety</strong> 强调多模型生态中的系统级风险,提出 ESRH 框架分析局部可靠如何在宏观层面汇聚成不稳定。</li>
</ul>
<h3 id="72-trism-for-agentic-ai-与-trustagent">7.2 TRiSM for Agentic AI 与 TrustAgent</h3>
<ul>
<li><strong>TRiSM for Agentic AI</strong> 在传统 AI TRiSM 的基础上,为 Agentic MAS 引入四大支柱:<br>
<strong>Explainability, Lifecycle Governance, Application Security, Model Privacy</strong>,并提出:
<ul>
<li>Component Synergy Score (CSS):衡量多 Agent 协作质量;</li>
<li>Tool Utilization Efficacy (TUE):衡量工具调用的正确率与效率。</li>
</ul>
</li>
<li><strong>TrustAgent</strong> 则从攻击/防御/评估维度系统整理 LLM Agent 的威胁模型,将信任问题分为:
<ul>
<li>内在:大脑(模型)、记忆、工具;</li>
<li>外在:用户、其他 Agent、环境。</li>
</ul>
</li>
</ul>
<h3 id="73-安全架构实例safe-agent">7.3 安全架构实例:SAFE-AGENT</h3>
<ul>
<li>SAFE-AGENT 将机器人安全原则迁移至电商/零售场景,引入:
<ul>
<li>Grounded Decision Alignment:行动与业务/安全策略对齐;</li>
<li>Risk-Aware Action Governance:基于风险预测的阈值控制;</li>
<li>Multi-Stage Guardrail Enforcement:多级防护链与回退机制。</li>
</ul>
</li>
</ul>
<p>这一类工作预示着:<br>
<strong>Agent 系统的安全治理会越来越像大规模分布式系统与金融监管,而不仅是“提示词过滤 + 内容审核”。</strong></p>
<hr>
<h2 id="8-典型垂直场景让-llm-agent-真正落地">8. 典型垂直场景:让 LLM Agent 真正“落地”</h2>
<h3 id="81-医疗智能体">8.1 医疗智能体</h3>
<ul>
<li><strong>MedAgentBench</strong> 与 NEJM / Stanford 相关工作表明:
<ul>
<li>LLM Agents 在 EMR 检索、总结与简单决策支持上已有一定能力;</li>
<li>但在“操作类任务”(例如修改医嘱、调整治疗路径)上仍然非常不可靠。</li>
</ul>
</li>
<li>模拟病人系统(如 AIPatient)使用多 Agent + RAG 生成复杂病人交互,用于医学生训练与模型评估。</li>
</ul>
<h3 id="82-金融与量化交易">8.2 金融与量化交易</h3>
<ul>
<li><strong>TradingAgents</strong> 框架通过“基本面分析–情绪分析–技术分析–研究员–交易员–风控”等多角色 LLM Agent 模拟真实交易公司组织结构:
<ul>
<li>采用结构化通信协议与明确的角色目标;</li>
<li>相较于传统量化策略,在累计收益、夏普率与最大回撤等核心指标上有显著优势。</li>
</ul>
</li>
</ul>
<h3 id="83-科学发现与ai-科学家">8.3 科学发现与“AI 科学家”</h3>
<ul>
<li>多篇工作(科学 Agents 调研、ToolUniverse 等)探索将 LLM Agent 嵌入科学工作流:
<ul>
<li>从<strong>假设生成–实验设计–数据分析–模拟–文献综述–专利检索</strong>全流程自动化或半自动化;</li>
<li>ToolUniverse 将 600+ 科学模型/数据库/模拟器封装为统一可调用工具,并展示了以 AI Scientist 优化药物分子的案例。</li>
</ul>
</li>
</ul>
<h3 id="84-软件工程与代码-agent">8.4 软件工程与代码 Agent</h3>
<ul>
<li>Multi-Agent 编程框架(Spec2RTL-Agent、ExecutionAgent 等)展示了 LLM Agent 在从自然语言规格到代码/硬件描述、自动化构建与测试方面的潜力:
<ul>
<li>ExecutionAgent 可在 50 个多语言开源项目上自动构建并运行测试用例,结果与真实 ground truth 平均偏差仅 7.5%,显著优于现有方法,平均每项目成本约 $0.16。</li>
<li>多 Agent 代码生成体系(Spec2RTL-Agent)通过“理解–渐进编码–反思纠错”三 Agent 协作,在复杂硬件规格到 RTL 代码的任务中减少人为干预次数约 75%。</li>
</ul>
</li>
</ul>
<hr>
<h2 id="9-关键开放问题与未来研究方向">9. 关键开放问题与未来研究方向</h2>
<p>结合以上进展,我认为未来 2–4 年 LLM+Agents 研究的核心问题将集中在以下几个方向:</p>
<h3 id="91-从提示工程到agent-架构设计">9.1 从“提示工程”到“Agent 架构设计”</h3>
<ul>
<li>需要一套类似“软件架构模式”的 <strong>Agent 设计模式</strong>:何时采用单 Agent、多 Agent、层级/去中心化、如何分配角色与记忆。</li>
<li>当前经验性工作(如“Don’t Build Multi-Agents”一类工程博文)表明:<br>
盲目多 Agent 容易产生<strong>脆弱与高成本系统</strong>,系统性理论和实践指南仍然匮乏。</li>
</ul>
<h3 id="92-记忆与长期自进化">9.2 记忆与长期自进化</h3>
<ul>
<li>如何在 <strong>安全可控</strong> 的前提下,让 Agent 在部署中持续学习(test-time learning)、扩展能力而不遗忘旧知识?</li>
<li>记忆系统与训练流程的结合尚处早期:
<ul>
<li>记忆能否反哺模型微调,形成“经验–权重–记忆”的闭环?</li>
<li>如何避免记忆中毒(memory poisoning)与隐私泄露?</li>
</ul>
</li>
</ul>
<h3 id="93-多-agent-协同与系统级安全">9.3 多 Agent 协同与系统级安全</h3>
<ul>
<li>如何平衡多 Agent 协同带来的“集体智能增益”与“系统级风险扩散”?</li>
<li>ESRH 与 TRiSM 等框架提供了概念工具,但缺少<strong>可操作的指标与监控方案</strong>,尤其在现实大规模部署中。</li>
</ul>
<h3 id="94-具身智能与现实环境鲁棒性">9.4 具身智能与现实环境鲁棒性</h3>
<ul>
<li>多模态与具身 Agent 的实验多在模拟环境(UI 仿真、虚拟机器人实验室),与真实世界存在“<strong>现实鸿沟</strong>”:
<ul>
<li>传感噪声、传感缺失、长时间延迟、不可逆操作与责任认定,使得纯 LLM 控制不可接受。</li>
</ul>
</li>
<li>大概率会出现“<strong>LLM 作为高层策略 + 传统控制/规划作为低层执行</strong>”的混合范式,研究重点将是:
<ul>
<li>多模态对齐(感知–语义–动作)</li>
<li>安全屏障与可验证控制。</li>
</ul>
</li>
</ul>
<h3 id="95-评估与标准化">9.5 评估与标准化</h3>
<ul>
<li>需要跨任务、跨场景的 <strong>Agent-level Benchmark Suite</strong>:整合规划、记忆、协作、安全、成本等多维指标,并分级定义“可商用”的标准。</li>
<li>评估工具与平台应支持:
<ul>
<li>长期在线评估(持续 A/B 测试);</li>
<li>人类在环审计与 alignment auditing Agents(如 Anthropic 的 auditing agents 方向)。</li>
</ul>
</li>
</ul>
<hr>
<h2 id="对研究者与工程师的几点建议">对研究者与工程师的几点建议</h2>
<ol>
<li><strong>优先研究/采用模块化架构</strong>:<br>
避免将所有需求都塞进一个大 prompt,而是通过多个专职模块(规划、监控、记忆、工具编排)组合能力。</li>
<li><strong>将函数调用 + 记忆视为一等能力</strong>:<br>
对 Agent 设计时,把“什么时候调用工具/写入记忆/回放记忆”纳入显式决策流程,而非外显工程细节。</li>
<li><strong>在多 Agent 之前先把单 Agent 做好</strong>:<br>
对大多数实际应用,清晰的单 Agent + 强记忆 + 高质量工具往往比复杂多 Agent 更有效、可控。</li>
<li><strong>安全与评估从一开始就内建</strong>:<br>
不要把安全、评估当“上线前加一层防护网”,而应从设计阶段引入 TRiSM 式思路和 CSS/TUE 等指标。</li>
<li><strong>关注开放协议与生态</strong>:<br>
MCP、A2A、LACP 等协议会决定你的系统是“可插拔的组件”还是“孤立的黑箱”,后续与外部生态的集成成本差异巨大。</li>
</ol>
<hr>
<h2 id="references">References</h2>
<p> T YANG. The rise and potential opportunities of large language model agents. https://academic.oup.com/bib/article/26/6/bbaf601/8320153<br>
ZH XI. The rise and potential of large language model based agents. http://scis.scichina.com/en/2025/121101.pdf<br>
Y HU. Memory in the Age of AI Agents: A Survey. https://arxiv.org/abs/2512.13564<br>
KT TRAN. Multi-Agent Collaboration Mechanisms: A Survey of LLMs. https://arxiv.org/abs/2501.06322<br>
X ZHANG. A Survey of Multi-AI Agent Collaboration. https://dl.acm.org/doi/full/10.1145/3745238.3745531<br>
C RIEDL. Emergent Coordination in Multi-Agent Language Models. https://arxiv.org/pdf/2510.05174<br>
M RAWAT. Pre-Act: Multi-Step Planning and Reasoning Improves Agent Performance. https://arxiv.org/abs/2505.09970<br>
T WEBB. A brain-inspired agentic architecture to improve planning. https://www.nature.com/articles/s41467-025-63804-5<br>
SG PATIL. The Berkeley Function Calling Leaderboard (BFCL). https://openreview.net/forum?id=2GmDdhBdDk<br>
NATURAL LANGUAGE TOOLS (NLT). A Natural Language Approach to Tool Calling in LLMs. https://arxiv.org/abs/2510.14453<br>
Y HU. Memory in the Age of AI Agents. https://arxiv.org/abs/2512.13564<br>
W XU. A-Mem: Agentic Memory for LLM Agents. https://arxiv.org/abs/2502.12110<br>
T WEI. Evo-Memory: Benchmarking LLM Agent Test-time Learning. https://arxiv.org/abs/2511.20857<br>
Y WANG. MIRIX: Multi-Agent Memory System for LLM-Based Agents. https://arxiv.org/abs/2507.07957<br>
NEURIPS 2025. Tracing Hierarchical Memory for Multi-Agent Systems (G-Memory). https://neurips.cc/virtual/2025/poster/116187<br>
EXIF / EvolveR. Toward Self-Evolving Systems of LLM Agents. https://openreview.net/forum?id=uO3gGxzu8k<br>
M PARMAR. PlanGEN: A Multi-Agent Framework for Generating Plans. https://aclanthology.org/2025.emnlp-main.1042.pdf<br>
T XU. Verification-Aware Planning for Multi-Agent Systems (VeriMAP). https://arxiv.org/abs/2510.17109<br>
Y YANG. AgentNet: Decentralized Evolutionary Coordination for LLM-based Multi-Agent Systems. https://arxiv.org/abs/2504.00587<br>
Z ZHANG. Unlocking the Power of Multi-Agent LLM for Reasoning. https://arxiv.org/abs/2511.02303<br>
E AKATA. Playing repeated games with large language models. https://www.nature.com/articles/s41562-025-02172-y<br>
TK HUYNH. Understanding LLM Agent Behaviours via Game Theory. https://www.arxiv.org/abs/2512.07462<br>
S ERISKEN. MAEBE: Multi-Agent Emergent Behavior Evaluation Framework. https://arxiv.org/abs/2506.03053<br>
BEYOND SINGLE-AGENT SAFETY. A Taxonomy of Risks in LLM Ecosystems. https://arxiv.org/html/2512.02682v1<br>
GOOGLE. Announcing the Agent2Agent Protocol (A2A). https://developers.googleblog.com/en/a2a-a-new-era-of-agent-interoperability/<br>
X LI. LLM Agent Communication Protocol (LACP) Requires Standardization. https://arxiv.org/abs/2510.13821<br>
LANGCHAIN / AWS. Build multi-agent systems with LangGraph. https://aws.amazon.com/blogs/machine-learning/build-multi-agent-systems-with-langgraph-and-amazon-bedrock/<br>
MICROSOFT. Introduction to Microsoft Agent Framework. https://learn.microsoft.com/en-us/agent-framework/overview/agent-framework-overview<br>
ANTHROPIC. Effective context engineering for AI agents. https://www.anthropic.com/engineering/effective-context-engineering-for-ai-agents<br>
MONGODB. Why Multi-Agent Systems Need Memory Engineering. https://medium.com/mongodb/why-multi-agent-systems-need-memory-engineering-153a81f8d5be<br>
W WANG. OdysseyBench: Evaluating LLM Agents on Long-Horizon Workflows. https://arxiv.org/html/2508.09124v1<br>
X MA. Caution for the Environment: Multimodal LLM Agents are Susceptible to Environmental Distractions. https://aclanthology.org/2025.acl-long.1087/<br>
J YANG. Magma: A Foundation Model for Multimodal AI Agents. https://arxiv.org/abs/2502.13130<br>
PHYSICAL AI AGENTS. Physical AI Agents: Integrating Cognitive Intelligence with Physical Interaction. https://arxiv.org/html/2501.08944v1<br>
M MOHAMMADI. Evaluation and Benchmarking of LLM Agents: A Survey. https://arxiv.org/abs/2507.21504<br>
P ANOKHIN. HeroBench: A Benchmark for Long-Horizon Planning and Structured Reasoning. https://arxiv.org/abs/2508.12782<br>
Y FU. RAS-Eval: A Comprehensive Benchmark for Security Evaluation of LLM Agents. https://arxiv.org/abs/2506.15253<br>
LAKERA. The Backbone Breaker Benchmark. https://www.lakera.ai/blog/the-backbone-breaker-benchmark<br>
Y JIANG. MedAgentBench: A Virtual EHR Environment to Benchmark Medical LLM Agents. https://arxiv.org/abs/2501.14654<br>
L BERTI. Emergent Abilities in Large Language Models: A Survey. https://arxiv.org/pdf/2503.05788<br>
TRiSM FOR AGENTIC AI. TRiSM for Agentic AI: Trust, Risk, and Security Management in LLM-based AMAS. https://arxiv.org/html/2506.04133v2<br>
TRUSTAGENT. TrustAgent: A Survey on Trustworthy LLM Agents. https://github.com/Ymm-cll/TrustAgent<br>
V RAJENDRAN. SAFE-AGENT: A Safety-Assured Framework for Embodied LLM Decision Systems. https://openreview.net/forum?id=OiW4gwYVCR<br>
H YU. Simulated patient systems powered by large language models. https://www.nature.com/articles/s43856-025-01283-x<br>
Y XIAO. TradingAgents: Multi-Agents LLM Financial Trading Framework. https://arxiv.org/pdf/2412.20138v5.pdf<br>
S REN. A Survey of LLM-based Scientific Agents. https://arxiv.org/abs/2503.24047<br>
KEMPNER INSTITUTE. From models to scientists: Building AI agents for scientific discovery (ToolUniverse). https://kempnerinstitute.harvard.edu/research/deeper-learning/from-models-to-scientists-building-ai-agents-for-scientific-discovery/<br>
I BOUZENIA. ExecutionAgent: An LLM Agent to Execute Tests of Arbitrary Projects. https://software-lab.org/publications/issta2025_ExecutionAgent.pdf<br>
NVIDIA. Spec2RTL-Agent: Automated Hardware Code Generation. https://research.nvidia.com/publication/2025-06_spec2rtl-agent-automated-hardware-code-generation-complex-specifications-using</p>
</div>
<div id="MySignature" role="contentinfo">
<br><br>
<div>
<p style="text-align:center;">
<img src="https://s3.ax1x.com/2020/12/02/D5XzUP.png" height=80px>
<br>
<p style="text-align:center;">如果这篇文章帮助到了你,你可以请作者喝一杯咖啡</p>
<p style="text-align:center;"></p>
<img src="https://img2020.cnblogs.com/blog/938105/202010/938105-20201013171833350-276632012.png" height=250px align="center"/>
</div><br><br>
来源:https://www.cnblogs.com/sddai/p/19451103
頁:
[1]