Anthropic 扩展 AI 模型安全漏洞赏金计划

realtime news  Aug 08, 2024 23:13  UTC 15:13

1 Min Read

人工智能(AI)模型能力的快速进步需要同样迅速的安全协议进展。根据 Anthropic 的说法,该公司正在扩大其漏洞赏金计划,推出一项新计划,旨在发现旨在防止其模型被滥用的缓解措施中的缺陷。

漏洞赏金计划对于加强技术系统的安全性和安全性至关重要。Anthropic 的新计划专注于识别和缓解普遍的越狱攻击,这些攻击可以一致地绕过各个领域的 AI 安全防护措施。该计划针对化学、生物、放射和核(CBRN)安全以及网络安全等高风险领域。

我们的方法

迄今为止,Anthropic 已与 HackerOne 合作,运营了一个仅限受邀者参与的漏洞赏金计划,奖励研究人员发现公开发布的 AI 模型中的安全问题。新宣布的漏洞赏金计划旨在测试 Anthropic 的下一代 AI 安全缓解系统,该系统尚未公开部署。该计划的关键特性包括:

  • 提前访问:参与者将在公开部署之前获得最新安全缓解系统的提前测试机会。他们将被要求在受控环境中识别潜在漏洞或绕过安全措施的方法。
  • 计划范围:Anthropic 提供高达 $15,000 的赏金奖励,用于发现可能在 CBRN 和网络安全等关键高风险领域暴露漏洞的新颖普遍越狱攻击。普遍越狱是一种允许在广泛主题中一致绕过 AI 安全措施的漏洞。计划参与者将获得详细的指示和反馈。

加入我们

该模型安全漏洞赏金计划的初始阶段将仅限邀请,并与 HackerOne 合作进行。虽然最初仅限邀请,Anthropic 计划在未来扩大该计划。初始阶段旨在优化过程并提供及时、建设性的反馈。经验丰富的 AI 安全研究人员或拥有识别语言模型越狱攻击经验的人士,欢迎通过 申请表 申请邀请,截止日期为 8 月 16 日(星期五)。选定的申请者将在秋季收到联系。

与此同时,Anthropic 积极寻求对模型安全问题的报告,以改进当前系统。可以通过电子邮件 usersafety@anthropic.com 报告潜在的安全问题,并提供足够的详细信息以进行复制。更多信息可在公司的 负责任披露政策 中找到。

此计划与其他 AI 公司签署的负责任 AI 开发承诺一致,例如白宫宣布的 自愿 AI 承诺 和七国集团广岛进程制定的 先进 AI 系统组织行为准则。目标是加快缓解普遍越狱攻击的进展,并在高风险领域加强 AI 安全。鼓励该领域的专家加入这一重要努力,以确保 AI 能力进步的同时安全措施能够跟上。



Read More