探索代理自主级别中的安全挑战
realtime news Feb 26, 2025 02:28
NVIDIA 的框架解决了自主 AI 系统中的安全风险,强调了代理工作流程中的漏洞,并提出了缓解策略。

随着人工智能的不断发展,代理工作流程的开发已成为关键进展,使多个 AI 模型得以集成,以最小的人为干预执行复杂任务。然而,NVIDIA 在其博客中分享的见解表明,这些工作流程带来了固有的安全挑战,特别是在使用大语言模型 (LLM) 的系统中。
理解代理工作流程及其风险
代理工作流程代表了 AI 技术的进步,使开发人员能够将 AI 模型链接在一起以进行复杂操作。这种自主性,虽然强大,但也引入了一些漏洞,例如提示注入攻击的风险。当不受信任的数据引入系统时,这种情况可能会发生,从而可能允许对手操纵 AI 输出。
为应对这些挑战,NVIDIA 提出了代理自主框架。该框架旨在评估并缓解与复杂 AI 工作流程相关的风险,重点是理解和管理此类系统可能带来的潜在威胁。
操控自主系统
利用 AI 驱动的应用通常涉及两个要素:恶意数据的引入和下游效果的触发。在使用 LLM 的系统中,这种操控被称为提示注入,可能是直接的或间接的。这些漏洞源于 LLM 架构中控制平面和数据平面之间缺乏分离。
直接提示注入可能导致不良内容生成,而间接注入则允许对手通过改变在检索增强生成(RAG)工具中使用的数据源来影响 AI 的行为。当不受信任的数据导致对手控制的下游操作时,这种操控尤其令人担忧。
AI 自主性中的安全与复杂性
即便是在“代理”AI 出现之前,按序编排 AI 工作负载已是常态。随着系统的进步,纳入更多决策能力和复杂交互,潜在数据流路径的数量增加,使威胁建模变得复杂。
NVIDIA 的框架按自主级别对系统进行分类,从简单的推理 API 到完全自主系统,帮助评估相关风险。例如,确定性系统(1 级)具有可预测的工作流,而完全自主系统(3 级)允许 AI 模型做出独立决策,增加了复杂性和潜在的安全风险。
威胁建模和安全控制
更高的自主级别不一定意味着更高的风险,但确实表明系统行为的可预测性较低。此类风险通常与可执行敏感操作的工具或插件有关。缓解这些风险需要阻止恶意数据注入插件,随着自主性的增加,这一过程变得更加困难。
NVIDIA 针对每个自主级别推荐了特定的安全控制。例如,0 级系统需要标准 API 安全,而具有复杂工作流的 3 级系统需要污染跟踪和强制数据清理。目标是防止不受信任的数据影响敏感工具,从而保护 AI 系统的运行。
结论
NVIDIA 的框架提供了评估代理工作流程相关风险的结构化方法,强调了理解系统自主级别的重要性。这一理解有助于实施适当的安全措施,确保 AI 系统抵御潜在威胁的稳健性。
欲获取更详细的见解,请访问 NVIDIA 博客。
Image source: Shutterstock