Anthropic 扩展 AI 模型安全漏洞赏金计划

realtime news Aug 08, 2024 23:13 UTC 15:13

1 Min Read

人工智能（AI）模型能力的快速进步需要同样迅速的安全协议进展。根据 Anthropic 的说法，该公司正在扩大其漏洞赏金计划，推出一项新计划，旨在发现旨在防止其模型被滥用的缓解措施中的缺陷。

漏洞赏金计划对于加强技术系统的安全性和安全性至关重要。Anthropic 的新计划专注于识别和缓解普遍的越狱攻击，这些攻击可以一致地绕过各个领域的 AI 安全防护措施。该计划针对化学、生物、放射和核（CBRN）安全以及网络安全等高风险领域。

我们的方法

迄今为止，Anthropic 已与 HackerOne 合作，运营了一个仅限受邀者参与的漏洞赏金计划，奖励研究人员发现公开发布的 AI 模型中的安全问题。新宣布的漏洞赏金计划旨在测试 Anthropic 的下一代 AI 安全缓解系统，该系统尚未公开部署。该计划的关键特性包括：

提前访问：参与者将在公开部署之前获得最新安全缓解系统的提前测试机会。他们将被要求在受控环境中识别潜在漏洞或绕过安全措施的方法。
计划范围：Anthropic 提供高达 $15,000 的赏金奖励，用于发现可能在 CBRN 和网络安全等关键高风险领域暴露漏洞的新颖普遍越狱攻击。普遍越狱是一种允许在广泛主题中一致绕过 AI 安全措施的漏洞。计划参与者将获得详细的指示和反馈。

加入我们

该模型安全漏洞赏金计划的初始阶段将仅限邀请，并与 HackerOne 合作进行。虽然最初仅限邀请，Anthropic 计划在未来扩大该计划。初始阶段旨在优化过程并提供及时、建设性的反馈。经验丰富的 AI 安全研究人员或拥有识别语言模型越狱攻击经验的人士，欢迎通过申请表申请邀请，截止日期为 8 月 16 日（星期五）。选定的申请者将在秋季收到联系。

与此同时，Anthropic 积极寻求对模型安全问题的报告，以改进当前系统。可以通过电子邮件 usersafety@anthropic.com 报告潜在的安全问题，并提供足够的详细信息以进行复制。更多信息可在公司的负责任披露政策中找到。

此计划与其他 AI 公司签署的负责任 AI 开发承诺一致，例如白宫宣布的自愿 AI 承诺和七国集团广岛进程制定的先进 AI 系统组织行为准则。目标是加快缓解普遍越狱攻击的进展，并在高风险领域加强 AI 安全。鼓励该领域的专家加入这一重要努力，以确保 AI 能力进步的同时安全措施能够跟上。

News ▸

Anthropic 扩展 AI 模型安全漏洞赏金计划

我们的方法

加入我们

Read More

IBM Research Advances in Conversational AI with Next-Gen Virtual Agents

Anthropic Expands AI Model Safety Bug Bounty Program

GeForce NOW Hits Milestone with 2,000 Cloud Games

Figure Launches Advanced Humanoid Robot Leveraging NVIDIA AI for Autonomous Tasks

Understanding Token Compensation: A Comprehensive Guide