AI智能体安全技术洞察
<h3>核心要点 (Key Points)</h3><ul>
<li>研究表明,AI智能体安全至关重要,因为这些系统可能遭受数据泄露和未授权操作等攻击。</li>
<li>保护AI智能体似乎涉及多种技术,如提示词加固(Prompt Hardening)、工具净化(Tool Sanitization)和持续评估(Continuous Evaluation),但由于其复杂性,挑战依然存在。</li>
<li>证据倾向于表明,业界和研究界正在持续努力,<span style="background-color: rgba(255, 255, 0, 1)">例如NIST(美国国家标准与技术研究院)提出的框架,以应对这些安全风险,尽管关于最佳实践的共识仍在形成中。</span></li>
</ul>
<h3>理解AI智能体安全 (Understanding AI Agent Security)</h3>
<p>AI智能体是能够感知输入、推理、规划任务并执行动作的自主系统,这使其在自动化领域极具价值,但也成为潜在的安全威胁目标。确保其安全对于防止数据隐私泄露、未授权访问和恶意操纵等问题至关重要,特别是当它们与敏感系统交互时。</p>
<h3>关键安全挑战 (Key Security Challenges)</h3>
<p><span style="background-color: rgba(255, 255, 0, 1)">AI智能体面临着多种风险,例如不可预测的用户输入、复杂的内部处理流程、多变的运行环境以及与不受信任实体的交互。</span>具体威胁包括智能体劫持、提示词注入和工具滥用,这些都可能导致数据泄露或执行非预期动作。</p>
<h3>技术洞察与解决方案 (Technical Insights and Solutions)</h3>
<p>来自美国AI安全研究所(US AISI)等机构的研究强调,<span style="background-color: rgba(255, 255, 0, 1)">需要进行适应性评估和针对特定任务的风险分析。研究建议采用提示词加固、内容过滤和代码执行器沙箱化等技术来缓解风险,并推荐使用深度防御(Defense-in-Depth)策略。</span></p>
<h3>行业与研究进展 (Industry and Research Efforts)</h3>
<p>像Reco这样的公司正在开发AI驱动的安全平台,而NIST等组织正在推进评估框架的建设。这些努力旨在增强AI智能体的安全性,但该领域仍在不断发展,关于最有效策略的讨论仍在继续。</p>
<hr>
<h3>调查笔记:AI智能体安全的技术洞察 (Survey Note: Technical Insights on AI Agent Security)</h3>
<p>AI智能体安全是一个关键且不断发展的领域,尤其是随着AI智能体——这种能够感知用户输入、推理、规划任务并执行动作的自主系统——日益融入各种应用之中。本调查笔记基于截至2025年7月9日的最新研究和行业发展,全面概述了与AI智能体相关的安全挑战、技术洞察和最佳实践。</p>
<h4>AI智能体及其安全需求简介 (Introduction to AI Agents and Their Security Needs)</h4>
<p>AI智能体被设计为自主运行,通常与外部系统交互、处理用户输入并根据其编程做出决策。虽然它们在自动化和效率方面展现出巨大潜力,但其自主性也带来了新的安全风险。这些风险从数据隐私泄露到潜在的恶意操纵不等,因此理解并解决保护AI智能体的技术挑战至关重要。例如,IBM关于AI智能体的文章强调了安全协议的重要性,以保护敏感的员工和客户数据,特别是在智能体在无人监督的情况下运行时(来源:IBM on AI Agents)。</p>
<h4>关键安全挑战 (Key Security Challenges)</h4>
<p>AI智能体的安全可以通过几个关键挑战来理解,这些挑战凸显了其设计和操作中固有的漏洞:</p>
<ul>
<li>多步用户输入的不可预测性 (Unpredictability of Multi-Step User Inputs):<br>AI智能体经常处理来自用户的复杂、多步骤的输入。恶意行为者可以利用这一点,构造导致非预期或有害行为的输入。例如,攻击者可能在用户输入中注入恶意指令,导致AI智能体执行未授权操作,正如Unit42关于智能体AI威胁的文章所指出的那样(来源:Unit42 on Agentic AI Threats)。</li>
<li>内部执行的复杂性 (Complexity in Internal Executions):<br>AI智能体的决策过程错综复杂且通常不透明。如果未能妥善保护,这种复杂性可能被利用。例如,攻击者可能操纵智能体的内部逻辑以改变其目标或绕过安全控制,这是ACM计算调查论文中强调的一个担忧(来源:ACM Computing Surveys on AI Agent Security)。</li>
<li>运行环境的多样性 (Variability of Operational Environments):<br>AI智能体可能在不同的环境中运行,每个环境都有其自身的安全状况。如果智能体没有被设计为能够安全适应,这种多样性会引入风险。例如,智能体可能与不安全的网络交互,使其暴露于外部威胁之下,正如Cybersecurity Tribe的文章所讨论的那样(来源:Cybersecurity Tribe on Agentic AI in Cybersecurity)。</li>
<li>与不受信任的外部实体交互 (Interactions with Untrusted External Entities):<br>AI智能体频繁与外部工具、服务或其他智能体交互。如果这些外部实体不受信任或已被攻破,这些交互可能成为攻击的载体。例如,智能体可能使用一个易受攻击的第三方工具,从而让攻击者获得控制权,正如Stytch博客上关于AI智能体安全所看到的那样(来源:Stytch on AI Agent Security)。</li>
</ul>
<p>Unit42的文章中详细介绍的具体攻击场景进一步说明了这些风险,该文章展示了使用如CrewAI和AutoGen等开源智能体框架的九个具体攻击场景。这些场景包括:</p>
<ul>
<li>识别参与的智能体 (Identifying Participant Agents): 泄露智能体列表及其角色,构成提示词注入和目标操纵等威胁。</li>
<li>提取智能体指令和工具模式 (Extracting Agent Instructions and Tool Schemas): 理解并可能操纵智能体的行为,存在智能体通信投毒的风险。</li>
<li>获取对内部网络的未授权访问 (Gaining Unauthorized Access to Internal Networks): 使用网页阅读器等工具获取内部资源,导致数据泄露。</li>
<li>泄露敏感数据 (Exfiltrating Sensitive Data): 从挂载的卷或数据库中读取并泄露文件,通常通过提示词注入和工具滥用实现。</li>
<li>间接提示词注入 (Indirect Prompt Injection): 通过恶意网页泄露用户对话历史,凸显了强大的输入验证的必要性。</li>
</ul>
<p>该研究发现,大多数漏洞与框架无关,而是源于不安全的设计、错误配置和不安全的工具集成,而非框架本身的缺陷。</p>
<h4>关于安全评估的技术洞察 (Technical Insights on Security Evaluations)</h4>
<p>最近的研究为保护AI智能体(特别是在智能体劫持和其他威胁方面)提供了宝贵的技术洞察。截至2025年2月20日更新的NIST技术博客,提供了来自美国AI安全研究所(US AISI)关于评估AI智能体安全的详细发现(来源:NIST Technical Blog on AI Agent Hijacking):</p>
<ul>
<li>评估框架的持续改进 (Continuous Improvement of Evaluation Frameworks):<br>US AISI改进了AgentDojo框架,增加了新的注入任务,如远程代码执行、数据库泄露和自动化网络钓鱼。这些改进已在GitHub上开源,强调了为应对新兴威胁而需要持续更新的必要性(来源:GitHub AgentDojo)。</li>
<li>适应性评估 (Adaptive Evaluations):<br>红队演练揭示了Claude 3.5 Sonnet模型的新弱点,通过一种新的攻击方法,将攻击成功率从11%提高到81%。这凸显了适应性测试对于发现静态评估可能错过的漏洞的重要性。</li>
<li>针对特定任务的攻击表现 (Task-Specific Attack Performance):<br>分析特定任务的攻击成功率可以更深入地了解漏洞。例如,在他们的测试中,总体成功率为57%,但像执行恶意脚本或泄露数据这样的单个任务有更高的成功率,这凸显了进行特定任务风险分析的必要性。</li>
<li>多次攻击尝试的影响 (Impact of Multiple Attack Attempts):<br>持续的攻击可以显著提高成功率。在实验中,经过25次尝试后,平均成功率从57%上升到80%,表明防御必须考虑到重复或持续的攻击尝试以确保韧性。</li>
</ul>
<p>这些洞察强调了对AI智能体进行严格、适应性和任务特定的安全评估的重要性,如下表总结了NIST的发现:</p>
<div class="table-with-header rounded-lg border border-solid border-grey-line2-normal w-fit max-w-full mb-2">
<div class="h-8 items-center flex justify-between px-2 text-xs border-0 border-b border-solid border-grey-line2-normal">
<div class="text-text-primary-3 flex items-center gap-1">表格</div>
<div class="flex gap-1"> </div>
</div>
<div class="overflow-x-auto custom-scrollbar custom-scrollbar-float max-w-full">
<table class="w-fit !mb-0 !max-w-none">
<thead>
<tr><th>洞察 (Insight)</th><th>详情 (Details)</th><th>相关数据 (Relevant Numbers)</th><th>链接 (URLs)</th></tr>
</thead>
<tbody>
<tr>
<td>持续改进评估框架</td>
<td>改进了AgentDojo,增加了远程代码执行、数据库泄露等任务</td>
<td>-</td>
<td>https://github.com/usnistgov/agentdojo-inspect</td>
</tr>
<tr>
<td>评估需具适应性</td>
<td>红队演练通过新方法将攻击成功率从11%提升至81%</td>
<td>11%, 81%</td>
<td>-</td>
</tr>
<tr>
<td>分析特定任务的攻击表现</td>
<td>示例任务:恶意脚本(成功率高)、数据泄露;总体成功率57%</td>
<td>57%</td>
<td>-</td>
</tr>
<tr>
<td>测试多次攻击尝试会产生结果</td>
<td>经过25次尝试后,成功率从57%增加到80%</td>
<td>57%, 80%, 25</td>
<td>-</td>
</tr>
</tbody>
</table>
</div>
</div>
<h4>缓解措施与最佳实践 (Mitigations and Best Practices)</h4>
<p>为应对这些风险,推荐采取以下几种策略,这些策略源于Unit42的文章及其他来源:</p>
<ul>
<li>提示词加固与内容过滤 (Prompt Hardening and Content Filtering): 确保对输入到AI智能体的内容进行验证和净化,以防止提示词注入攻击。内容过滤可以阻止恶意或未经授权的输入,这对于识别参与智能体和间接提示词注入等场景尤为重要。</li>
<li>工具输入净化与漏洞扫描 (Tool Input Sanitization and Vulnerability Scanning): 定期扫描并保护AI智能体使用的工具,以防止被利用。例如,净化数据库工具的输入可以降低SQL注入风险,如在泄露数据库表的场景中所见。</li>
<li>代码执行器沙箱化 (Code Executor Sandboxing): 在沙箱中隔离代码执行,以遏制潜在的恶意行为,特别是对于涉及非预期远程代码执行(RCE)的场景,如通过挂载卷泄露敏感数据。</li>
<li>日志记录与监控 (Logging and Monitoring): 实施详细的AI智能体行为日志记录,以提供透明度并实现异常检测。这对于检测可疑行为至关重要,正如IBM在讨论向用户提供访问日志时所强调的那样(来源:IBM on AI Agents)。</li>
<li>深度防御 (Defense-in-Depth): 结合多种安全措施,因为没有任何单一的缓解措施是足够的。Unit42的文章建议采用深度防御方法,因为漏洞具有框架无关的特性。</li>
<li>威胁建模与安全测试 (Threat Modeling and Security Testing): 使用像AgentDojo这样的框架来建模潜在威胁并对AI智能体进行测试。定期的红队演练可以识别新的漏洞,这与NIST的适应性评估洞察相一致。</li>
<li>运行时保护 (Runtime Protections): 实施运行时监控和控制,以实时检测和缓解攻击,正如MIT斯隆管理学院关于智能体AI安全要点的文章所建议的那样(来源:MIT Sloan on Agentic AI Security)。</li>
</ul>
<p>下表总结了Unit42文章中的攻击场景、威胁和缓解措施:</p>
<div class="table-with-header rounded-lg border border-solid border-grey-line2-normal w-fit max-w-full mb-2">
<div class="h-8 items-center flex justify-between px-2 text-xs border-0 border-b border-solid border-grey-line2-normal">
<div class="text-text-primary-3 flex items-center gap-1">表格</div>
<div class="flex gap-1"> </div>
</div>
<div class="overflow-x-auto custom-scrollbar custom-scrollbar-float max-w-full">
<table class="w-fit !mb-0 !max-w-none">
<thead>
<tr><th>攻击场景</th><th>描述</th><th>威胁</th><th>缓解措施</th></tr>
</thead>
<tbody>
<tr>
<td>识别参与的智能体</td>
<td>泄露智能体列表及角色</td>
<td>提示词注入、意图破坏、目标操纵</td>
<td>提示词加固、内容过滤</td>
</tr>
<tr>
<td>提取智能体指令</td>
<td>提取系统提示和任务定义</td>
<td>提示词注入、意图破坏、目标操纵、智能体通信投毒</td>
<td>提示词加固、内容过滤</td>
</tr>
<tr>
<td>提取智能体工具模式</td>
<td>检索内部工具的输入/输出模式</td>
<td>提示词注入、意图破坏、目标操纵、智能体通信投毒</td>
<td>提示词加固、内容过滤</td>
</tr>
<tr>
<td>获取对内部网络的未授权访问</td>
<td>使用网页阅读器工具获取内部资源</td>
<td>提示词注入、工具滥用、意图破坏、目标操纵、智能体通信投毒</td>
<td>提示词加固、内容过滤、工具输入净化</td>
</tr>
<tr>
<td>通过挂载卷泄露敏感数据</td>
<td>从挂载卷读取并泄露文件</td>
<td>提示词注入、工具滥用、意图破坏、目标操纵、身份欺骗、非预期RCE、智能体通信投毒</td>
<td>提示词加固、代码执行器沙箱化、内容过滤</td>
</tr>
<tr>
<td>通过元数据服务泄露服务账户访问令牌</td>
<td>访问并泄露云服务账户令牌</td>
<td>提示词注入、工具滥用、意图破坏、目标操纵、身份欺骗、非预期RCE、智能体通信投毒</td>
<td>提示词加固、代码执行器沙箱化、内容过滤</td>
</tr>
<tr>
<td>利用SQL注入泄露数据库表</td>
<td>通过SQL注入提取数据库内容</td>
<td>提示词注入、工具滥用、意图破坏、目标操纵、智能体通信投毒</td>
<td>提示词加固、工具输入净化、工具漏洞扫描、内容过滤</td>
</tr>
<tr>
<td>利用BOLA访问未授权用户数据</td>
<td>通过操纵对象引用访问其他用户的数据</td>
<td>提示词注入、工具滥用、意图破坏、目标操纵、智能体通信投毒</td>
<td>工具漏洞扫描</td>
</tr>
<tr>
<td>用于对话历史泄露的间接提示词注入</td>
<td>通过恶意网页泄露用户对话历史</td>
<td>提示词注入、工具滥用、意图破坏、目标操纵、智能体通信投毒</td>
<td>提示词加固、内容过滤</td>
</tr>
</tbody>
</table>
</div>
</div>
<h4>行业努力与应用 (Industry Efforts and Applications)</h4>
<p>AI智能体安全日益增长的重要性反映在行业的努力中,如近期的发展所示:</p>
<ul>
<li>AI驱动的安全平台 (AI-Driven Security Platforms): 像Reco这样的初创公司(在2025年4月筹集了2500万美元)正在为SaaS安全开发AI智能体,使用生成式AI来自动化威胁检测和响应(来源:Business Insider on Reco)。这凸显了AI既是潜在漏洞又是增强安全工具的双重角色。</li>
<li>安全运营中心 (SOCs): AI智能体正被用于SOC中,以自动化威胁检测和事件响应等重复性任务,正如Torq博客上关于用于安全运营的多智能体系统的讨论(来源:Torq on AI Agents for SOC)。然而,这些智能体本身必须得到保护,以避免引入新的风险,这一点在Cybersecurity Dive的文章中得到了响应(来源:Cybersecurity Dive on AI Agents in SOC)。</li>
<li>研究与标准 (Research and Standards): 像NIST这样的组织正在积极研究AI智能体安全,专注于评估框架和标准,正如他们的技术博客所示。OWASP大型语言模型应用十大风险也为保护AI驱动的系统提供了指导,Unit42的文章也引用了此内容作为补充背景。</li>
</ul>
<h4>结论 (Conclusion)</h4>
<p>AI智能体安全是一个多方面的挑战,需要同时解决理论上的漏洞和实际的攻击向量。关键的技术洞察包括需要持续改进评估框架、进行适应性安全测试和特定任务的风险分析。诸如提示词加固、工具净化和深度防御等缓解策略对于保护AI智能体免受利用至关重要。随着AI智能体变得越来越普遍,正如2025年7月的最新发展所证明的那样,持续的研究和行业合作对于确保其安全部署将是至关重要的。本调查笔记借鉴了广泛的权威来源,为理解AI智能体安全的技术洞察提供了全面的基础,并为未来的工作提供了信息。</p><br><br>
来源:https://www.cnblogs.com/bonelee/p/18975089
頁:
[1]