AI智能体安全技术洞察

东方看客 發表於 2025-7-9 16:25:00

<h3>核心要点 (Key Points)</h3>
<ul>
<li>研究表明，AI智能体安全至关重要，因为这些系统可能遭受数据泄露和未授权操作等攻击。</li>
<li>保护AI智能体似乎涉及多种技术，如提示词加固（Prompt Hardening）、工具净化（Tool Sanitization）和持续评估（Continuous Evaluation），但由于其复杂性，挑战依然存在。</li>
<li>证据倾向于表明，业界和研究界正在持续努力，<span style="background-color: rgba(255, 255, 0, 1)">例如NIST（美国国家标准与技术研究院）提出的框架，以应对这些安全风险，尽管关于最佳实践的共识仍在形成中。</span></li>
</ul>
<h3>理解AI智能体安全 (Understanding AI Agent Security)</h3>
<p>AI智能体是能够感知输入、推理、规划任务并执行动作的自主系统，这使其在自动化领域极具价值，但也成为潜在的安全威胁目标。确保其安全对于防止数据隐私泄露、未授权访问和恶意操纵等问题至关重要，特别是当它们与敏感系统交互时。</p>
<h3>关键安全挑战 (Key Security Challenges)</h3>
<p><span style="background-color: rgba(255, 255, 0, 1)">AI智能体面临着多种风险，例如不可预测的用户输入、复杂的内部处理流程、多变的运行环境以及与不受信任实体的交互。</span>具体威胁包括智能体劫持、提示词注入和工具滥用，这些都可能导致数据泄露或执行非预期动作。</p>
<h3>技术洞察与解决方案 (Technical Insights and Solutions)</h3>
<p>来自美国AI安全研究所（US AISI）等机构的研究强调，<span style="background-color: rgba(255, 255, 0, 1)">需要进行适应性评估和针对特定任务的风险分析。研究建议采用提示词加固、内容过滤和代码执行器沙箱化等技术来缓解风险，并推荐使用深度防御（Defense-in-Depth）策略。</span></p>
<h3>行业与研究进展 (Industry and Research Efforts)</h3>
<p>像Reco这样的公司正在开发AI驱动的安全平台，而NIST等组织正在推进评估框架的建设。这些努力旨在增强AI智能体的安全性，但该领域仍在不断发展，关于最有效策略的讨论仍在继续。</p>
<hr>
<h3>调查笔记：AI智能体安全的技术洞察 (Survey Note: Technical Insights on AI Agent Security)</h3>
<p>AI智能体安全是一个关键且不断发展的领域，尤其是随着AI智能体——这种能够感知用户输入、推理、规划任务并执行动作的自主系统——日益融入各种应用之中。本调查笔记基于截至2025年7月9日的最新研究和行业发展，全面概述了与AI智能体相关的安全挑战、技术洞察和最佳实践。</p>
<h4>AI智能体及其安全需求简介 (Introduction to AI Agents and Their Security Needs)</h4>
<p>AI智能体被设计为自主运行，通常与外部系统交互、处理用户输入并根据其编程做出决策。虽然它们在自动化和效率方面展现出巨大潜力，但其自主性也带来了新的安全风险。这些风险从数据隐私泄露到潜在的恶意操纵不等，因此理解并解决保护AI智能体的技术挑战至关重要。例如，IBM关于AI智能体的文章强调了安全协议的重要性，以保护敏感的员工和客户数据，特别是在智能体在无人监督的情况下运行时（来源：IBM on AI Agents）。</p>
<h4>关键安全挑战 (Key Security Challenges)</h4>
<p>AI智能体的安全可以通过几个关键挑战来理解，这些挑战凸显了其设计和操作中固有的漏洞：</p>
<ul>
<li>多步用户输入的不可预测性 (Unpredictability of Multi-Step User Inputs):<br>AI智能体经常处理来自用户的复杂、多步骤的输入。恶意行为者可以利用这一点，构造导致非预期或有害行为的输入。例如，攻击者可能在用户输入中注入恶意指令，导致AI智能体执行未授权操作，正如Unit42关于智能体AI威胁的文章所指出的那样（来源：Unit42 on Agentic AI Threats）。</li>
<li>内部执行的复杂性 (Complexity in Internal Executions):<br>AI智能体的决策过程错综复杂且通常不透明。如果未能妥善保护，这种复杂性可能被利用。例如，攻击者可能操纵智能体的内部逻辑以改变其目标或绕过安全控制，这是ACM计算调查论文中强调的一个担忧（来源：ACM Computing Surveys on AI Agent Security）。</li>
<li>运行环境的多样性 (Variability of Operational Environments):<br>AI智能体可能在不同的环境中运行，每个环境都有其自身的安全状况。如果智能体没有被设计为能够安全适应，这种多样性会引入风险。例如，智能体可能与不安全的网络交互，使其暴露于外部威胁之下，正如Cybersecurity Tribe的文章所讨论的那样（来源：Cybersecurity Tribe on Agentic AI in Cybersecurity）。</li>
<li>与不受信任的外部实体交互 (Interactions with Untrusted External Entities):<br>AI智能体频繁与外部工具、服务或其他智能体交互。如果这些外部实体不受信任或已被攻破，这些交互可能成为攻击的载体。例如，智能体可能使用一个易受攻击的第三方工具，从而让攻击者获得控制权，正如Stytch博客上关于AI智能体安全所看到的那样（来源：Stytch on AI Agent Security）。</li>

</ul>
<p>Unit42的文章中详细介绍的具体攻击场景进一步说明了这些风险，该文章展示了使用如CrewAI和AutoGen等开源智能体框架的九个具体攻击场景。这些场景包括：</p>
<ul>
<li>识别参与的智能体 (Identifying Participant Agents): 泄露智能体列表及其角色，构成提示词注入和目标操纵等威胁。</li>
<li>提取智能体指令和工具模式 (Extracting Agent Instructions and Tool Schemas): 理解并可能操纵智能体的行为，存在智能体通信投毒的风险。</li>
<li>获取对内部网络的未授权访问 (Gaining Unauthorized Access to Internal Networks): 使用网页阅读器等工具获取内部资源，导致数据泄露。</li>
<li>泄露敏感数据 (Exfiltrating Sensitive Data): 从挂载的卷或数据库中读取并泄露文件，通常通过提示词注入和工具滥用实现。</li>
<li>间接提示词注入 (Indirect Prompt Injection): 通过恶意网页泄露用户对话历史，凸显了强大的输入验证的必要性。</li>

</ul>
<p>该研究发现，大多数漏洞与框架无关，而是源于不安全的设计、错误配置和不安全的工具集成，而非框架本身的缺陷。</p>
<h4>关于安全评估的技术洞察 (Technical Insights on Security Evaluations)</h4>
<p>最近的研究为保护AI智能体（特别是在智能体劫持和其他威胁方面）提供了宝贵的技术洞察。截至2025年2月20日更新的NIST技术博客，提供了来自美国AI安全研究所（US AISI）关于评估AI智能体安全的详细发现（来源：NIST Technical Blog on AI Agent Hijacking）：</p>
<ul>
<li>评估框架的持续改进 (Continuous Improvement of Evaluation Frameworks):<br>US AISI改进了AgentDojo框架，增加了新的注入任务，如远程代码执行、数据库泄露和自动化网络钓鱼。这些改进已在GitHub上开源，强调了为应对新兴威胁而需要持续更新的必要性（来源：GitHub AgentDojo）。</li>
<li>适应性评估 (Adaptive Evaluations):<br>红队演练揭示了Claude 3.5 Sonnet模型的新弱点，通过一种新的攻击方法，将攻击成功率从11%提高到81%。这凸显了适应性测试对于发现静态评估可能错过的漏洞的重要性。</li>
<li>针对特定任务的攻击表现 (Task-Specific Attack Performance):<br>分析特定任务的攻击成功率可以更深入地了解漏洞。例如，在他们的测试中，总体成功率为57%，但像执行恶意脚本或泄露数据这样的单个任务有更高的成功率，这凸显了进行特定任务风险分析的必要性。</li>
<li>多次攻击尝试的影响 (Impact of Multiple Attack Attempts):<br>持续的攻击可以显著提高成功率。在实验中，经过25次尝试后，平均成功率从57%上升到80%，表明防御必须考虑到重复或持续的攻击尝试以确保韧性。</li>

</ul>
<p>这些洞察强调了对AI智能体进行严格、适应性和任务特定的安全评估的重要性，如下表总结了NIST的发现：</p>
<div class="table-with-header rounded-lg border border-solid border-grey-line2-normal w-fit max-w-full mb-2">
<div class="h-8 items-center flex justify-between px-2 text-xs border-0 border-b border-solid border-grey-line2-normal">
<div class="text-text-primary-3 flex items-center gap-1">表格</div>
<div class="flex gap-1"> </div>

</div>
<div class="overflow-x-auto custom-scrollbar custom-scrollbar-float max-w-full">
<table class="w-fit !mb-0 !max-w-none">
<thead>
<tr><th>洞察 (Insight)</th><th>详情 (Details)</th><th>相关数据 (Relevant Numbers)</th><th>链接 (URLs)</th></tr>

</thead>
<tbody>
<tr>
<td>持续改进评估框架</td>
<td>改进了AgentDojo，增加了远程代码执行、数据库泄露等任务</td>
<td>-</td>
<td>https://github.com/usnistgov/agentdojo-inspect</td>

</tr>
<tr>
<td>评估需具适应性</td>
<td>红队演练通过新方法将攻击成功率从11%提升至81%</td>
<td>11%, 81%</td>
<td>-</td>

</tr>
<tr>
<td>分析特定任务的攻击表现</td>
<td>示例任务：恶意脚本（成功率高）、数据泄露；总体成功率57%</td>
<td>57%</td>
<td>-</td>

</tr>
<tr>
<td>测试多次攻击尝试会产生结果</td>
<td>经过25次尝试后，成功率从57%增加到80%</td>
<td>57%, 80%, 25</td>
<td>-</td>

</tr>

</tbody>

</table>

</div>

</div>
<h4>缓解措施与最佳实践 (Mitigations and Best Practices)</h4>
<p>为应对这些风险，推荐采取以下几种策略，这些策略源于Unit42的文章及其他来源：</p>
<ul>
<li>提示词加固与内容过滤 (Prompt Hardening and Content Filtering): 确保对输入到AI智能体的内容进行验证和净化，以防止提示词注入攻击。内容过滤可以阻止恶意或未经授权的输入，这对于识别参与智能体和间接提示词注入等场景尤为重要。</li>
<li>工具输入净化与漏洞扫描 (Tool Input Sanitization and Vulnerability Scanning): 定期扫描并保护AI智能体使用的工具，以防止被利用。例如，净化数据库工具的输入可以降低SQL注入风险，如在泄露数据库表的场景中所见。</li>
<li>代码执行器沙箱化 (Code Executor Sandboxing): 在沙箱中隔离代码执行，以遏制潜在的恶意行为，特别是对于涉及非预期远程代码执行（RCE）的场景，如通过挂载卷泄露敏感数据。</li>
<li>日志记录与监控 (Logging and Monitoring): 实施详细的AI智能体行为日志记录，以提供透明度并实现异常检测。这对于检测可疑行为至关重要，正如IBM在讨论向用户提供访问日志时所强调的那样（来源：IBM on AI Agents）。</li>
<li>深度防御 (Defense-in-Depth): 结合多种安全措施，因为没有任何单一的缓解措施是足够的。Unit42的文章建议采用深度防御方法，因为漏洞具有框架无关的特性。</li>
<li>威胁建模与安全测试 (Threat Modeling and Security Testing): 使用像AgentDojo这样的框架来建模潜在威胁并对AI智能体进行测试。定期的红队演练可以识别新的漏洞，这与NIST的适应性评估洞察相一致。</li>
<li>运行时保护 (Runtime Protections): 实施运行时监控和控制，以实时检测和缓解攻击，正如MIT斯隆管理学院关于智能体AI安全要点的文章所建议的那样（来源：MIT Sloan on Agentic AI Security）。</li>

</ul>
<p>下表总结了Unit42文章中的攻击场景、威胁和缓解措施：</p>
<div class="table-with-header rounded-lg border border-solid border-grey-line2-normal w-fit max-w-full mb-2">
<div class="h-8 items-center flex justify-between px-2 text-xs border-0 border-b border-solid border-grey-line2-normal">
<div class="text-text-primary-3 flex items-center gap-1">表格</div>
<div class="flex gap-1"> </div>

</div>
<div class="overflow-x-auto custom-scrollbar custom-scrollbar-float max-w-full">
<table class="w-fit !mb-0 !max-w-none">
<thead>
<tr><th>攻击场景</th><th>描述</th><th>威胁</th><th>缓解措施</th></tr>

</thead>
<tbody>
<tr>
<td>识别参与的智能体</td>
<td>泄露智能体列表及角色</td>
<td>提示词注入、意图破坏、目标操纵</td>
<td>提示词加固、内容过滤</td>

</tr>
<tr>
<td>提取智能体指令</td>
<td>提取系统提示和任务定义</td>
<td>提示词注入、意图破坏、目标操纵、智能体通信投毒</td>
<td>提示词加固、内容过滤</td>

</tr>
<tr>
<td>提取智能体工具模式</td>
<td>检索内部工具的输入/输出模式</td>
<td>提示词注入、意图破坏、目标操纵、智能体通信投毒</td>
<td>提示词加固、内容过滤</td>

</tr>
<tr>
<td>获取对内部网络的未授权访问</td>
<td>使用网页阅读器工具获取内部资源</td>
<td>提示词注入、工具滥用、意图破坏、目标操纵、智能体通信投毒</td>
<td>提示词加固、内容过滤、工具输入净化</td>

</tr>
<tr>
<td>通过挂载卷泄露敏感数据</td>
<td>从挂载卷读取并泄露文件</td>
<td>提示词注入、工具滥用、意图破坏、目标操纵、身份欺骗、非预期RCE、智能体通信投毒</td>
<td>提示词加固、代码执行器沙箱化、内容过滤</td>

</tr>
<tr>
<td>通过元数据服务泄露服务账户访问令牌</td>
<td>访问并泄露云服务账户令牌</td>
<td>提示词注入、工具滥用、意图破坏、目标操纵、身份欺骗、非预期RCE、智能体通信投毒</td>
<td>提示词加固、代码执行器沙箱化、内容过滤</td>

</tr>
<tr>
<td>利用SQL注入泄露数据库表</td>
<td>通过SQL注入提取数据库内容</td>
<td>提示词注入、工具滥用、意图破坏、目标操纵、智能体通信投毒</td>
<td>提示词加固、工具输入净化、工具漏洞扫描、内容过滤</td>

</tr>
<tr>
<td>利用BOLA访问未授权用户数据</td>
<td>通过操纵对象引用访问其他用户的数据</td>
<td>提示词注入、工具滥用、意图破坏、目标操纵、智能体通信投毒</td>
<td>工具漏洞扫描</td>

</tr>
<tr>
<td>用于对话历史泄露的间接提示词注入</td>
<td>通过恶意网页泄露用户对话历史</td>
<td>提示词注入、工具滥用、意图破坏、目标操纵、智能体通信投毒</td>
<td>提示词加固、内容过滤</td>

</tr>

</tbody>

</table>

</div>

</div>
<h4>行业努力与应用 (Industry Efforts and Applications)</h4>
<p>AI智能体安全日益增长的重要性反映在行业的努力中，如近期的发展所示：</p>
<ul>
<li>AI驱动的安全平台 (AI-Driven Security Platforms): 像Reco这样的初创公司（在2025年4月筹集了2500万美元）正在为SaaS安全开发AI智能体，使用生成式AI来自动化威胁检测和响应（来源：Business Insider on Reco）。这凸显了AI既是潜在漏洞又是增强安全工具的双重角色。</li>
<li>安全运营中心 (SOCs): AI智能体正被用于SOC中，以自动化威胁检测和事件响应等重复性任务，正如Torq博客上关于用于安全运营的多智能体系统的讨论（来源：Torq on AI Agents for SOC）。然而，这些智能体本身必须得到保护，以避免引入新的风险，这一点在Cybersecurity Dive的文章中得到了响应（来源：Cybersecurity Dive on AI Agents in SOC）。</li>
<li>研究与标准 (Research and Standards): 像NIST这样的组织正在积极研究AI智能体安全，专注于评估框架和标准，正如他们的技术博客所示。OWASP大型语言模型应用十大风险也为保护AI驱动的系统提供了指导，Unit42的文章也引用了此内容作为补充背景。</li>

</ul>
<h4>结论 (Conclusion)</h4>
<p>AI智能体安全是一个多方面的挑战，需要同时解决理论上的漏洞和实际的攻击向量。关键的技术洞察包括需要持续改进评估框架、进行适应性安全测试和特定任务的风险分析。诸如提示词加固、工具净化和深度防御等缓解策略对于保护AI智能体免受利用至关重要。随着AI智能体变得越来越普遍，正如2025年7月的最新发展所证明的那样，持续的研究和行业合作对于确保其安全部署将是至关重要的。本调查笔记借鉴了广泛的权威来源，为理解AI智能体安全的技术洞察提供了全面的基础，并为未来的工作提供了信息。</p><br><br>
来源：https://www.cnblogs.com/bonelee/p/18975089

頁: [1]

圆梦公社's Archiver

AI智能体安全技术洞察