根据他们网站上的一篇最新博文,Anthropic 详细介绍了一些用于测试其 AI 系统的红队演练方法。通过这种实践,公司能够收集到关于各种情况下适用工具的经验数据,以及每种方法的相关优点和挑战。
什么是红队演练?
红队演练是提高 AI 系统安全性和可靠性的关键工具。它涉及对技术系统进行对抗性测试,来识别潜在的漏洞。研究人员和 AI 开发人员使用广泛的红队演练技术来测试他们的 AI 系统,每种技术都有其优点和缺点。
AI 红队演练缺乏标准化实践进一步复杂了情况。开发人员可能使用不同的技术来评估同一类型的威胁模型,使得客观地比较不同 AI 系统的相对安全性变得具有挑战性。
领域专家红队演练
领域专家红队演练涉及与主题专家合作,识别和评估 AI 系统在其专业领域内的潜在漏洞或风险。这种方法带来了对复杂的、特定语境问题的更深入理解。
政策漏洞测试以应对信任与安全风险
高风险威胁,如对人类造成严重伤害或对社会产生负面影响的威胁,需要复杂的红队演练方法和与外部主题专家的合作。Anthropic 在信任与安全领域采用了一种叫做“政策漏洞测试”(PVT)的红队演练方法。这包括与专家合作对一系列使用政策中涵盖的政策主题进行深入的定性测试。
应对国家安全风险的前沿威胁红队演练
Anthropic 继续构建评估技术,以衡量可能对国家安全构成重大风险的“前沿威胁”,例如化学、生物、放射和核(CBRN)威胁、网络安全和自主 AI 风险。这项工作涉及测试其 AI 系统的标准部署版本和非商业版本,以调查真实世界环境中的风险。
多语言和多文化红队演练
大多数红队演练工作在英语环境中进行,通常基于美国人的视角。为了应对这种代表性不足的问题,Anthropic 与新加坡信息通信媒体发展局(IMDA)和 AI Verify 基金会合作,开展了一项覆盖四种语言(英语、泰米尔语、中文和马来语)和相关新加坡受众话题的红队演练项目。
使用语言模型进行红队演练
使用语言模型进行红队演练涉及利用 AI 系统自动生成对抗性示例并测试其他 AI 模型的鲁棒性。这种方法可以补充手动测试工作,使红队演练更高效、更全面。
自动化红队演练
Anthropic 采用红队/蓝队动态模型,其中一个模型生成攻击以引诱目标行为(红队),然后在这些输出上微调模型以提高其鲁棒性(蓝队)。这种迭代过程有助于设计新的攻击向量,并且理想情况下使系统对一系列对抗性攻击更具韧性。
在新模态下进行红队演练
在新模态下进行红队演练涉及测试可以处理和响应各种输入形式(如图像或音频)的 AI 系统。这有助于在系统部署之前识别与这些扩展能力相关的新风险和故障模式。
多模态红队演练
Claude 模型家族可以接收视觉信息并提供基于文本的输出,呈现潜在的新风险。部署前的红队演练对于任何版本的发布都是至关重要的,特别是那些包含新模型能力和模态的发布。
开放式、通用红队演练
为一般危害而进行的众包红队演练
Anthropic 在受控环境中让众包工人使用他们自己的判断进行攻击类型的测试。这种方法允许更广泛的社会群体测试 AI 系统的各种风险。
为一般风险和系统限制服务的社区红队演练
例如 DEF CON 的 AI 村庄等项目使更广泛的社会群体参与到测试公开部署系统的工作中。Anthropic 希望这些挑战能激励更多不同背景的人参与 AI 安全工作。
从定性红队演练到定量评估
红队演练实践是建立自动化、定量评估方法的前兆。目标是将红队演练结果转化为对组织有复利价值的东西。这涉及评估 AI 模型的各种风险、实施缓解措施和测试这些防护措施的有效性的迭代循环。
政策建议
为支持红队演练的进一步采纳和标准化,Anthropic 鼓励政策制定者:
- 资助国家标准与技术研究院(NIST)等组织开发红队演练 AI 系统的技术标准。
- 资助独立的政府机构和非营利组织,与开发人员合作,进行系统的红队演练以检测潜在风险。
- 鼓励建立专业 AI 红队演练服务市场,并为这些组织制定认证流程。
- 鼓励 AI 公司允许第三方在安全条件下由经过审查的外部团体进行其 AI 系统的红队演练。
- 鼓励 AI 公司将其红队演练实践与必须满足的明确政策挂钩,以便继续扩展新模型的开发和发布。
结论
红队演练是识别和缓解 AI 系统风险的有效技术。通过投资红队演练,组织可以致力于构建安全且对社会有益的 AI 系统。这是确保 AI 被深思熟虑地开发并具有稳健保障措施的众多工具之一。
更多详情,请访问 Anthropic 的原始博文。
Image source: Shutterstock