Anthropic 扩展 AI 模型安全漏洞赏金计划

NEW

Anthropic 扩展 AI 模型安全漏洞赏金计划 - Blockchain.News

人工智能（AI）模型能力的快速进步需要同样迅速的安全协议进展。根据 Anthropic 的说法，该公司正在扩大其漏洞赏金计划，推出一项新计划，旨在发现旨在防止其模型被滥用的缓解措施中的缺陷。

漏洞赏金计划对于加强技术系统的安全性和安全性至关重要。Anthropic 的新计划专注于识别和缓解普遍的越狱攻击，这些攻击可以一致地绕过各个领域的 AI 安全防护措施。该计划针对化学、生物、放射和核（CBRN）安全以及网络安全等高风险领域。

我们的方法

迄今为止，Anthropic 已与 HackerOne 合作，运营了一个仅限受邀者参与的漏洞赏金计划，奖励研究人员发现公开发布的 AI 模型中的安全问题。新宣布的漏洞赏金计划旨在测试 Anthropic 的下一代 AI 安全缓解系统，该系统尚未公开部署。该计划的关键特性包括：

提前访问：参与者将在公开部署之前获得最新安全缓解系统的提前测试机会。他们将被要求在受控环境中识别潜在漏洞或绕过安全措施的方法。
计划范围：Anthropic 提供高达 $15,000 的赏金奖励，用于发现可能在 CBRN 和网络安全等关键高风险领域暴露漏洞的新颖普遍越狱攻击。普遍越狱是一种允许在广泛主题中一致绕过 AI 安全措施的漏洞。计划参与者将获得详细的指示和反馈。

加入我们

该模型安全漏洞赏金计划的初始阶段将仅限邀请，并与 HackerOne 合作进行。虽然最初仅限邀请，Anthropic 计划在未来扩大该计划。初始阶段旨在优化过程并提供及时、建设性的反馈。经验丰富的 AI 安全研究人员或拥有识别语言模型越狱攻击经验的人士，欢迎通过申请表申请邀请，截止日期为 8 月 16 日（星期五）。选定的申请者将在秋季收到联系。

与此同时，Anthropic 积极寻求对模型安全问题的报告，以改进当前系统。可以通过电子邮件 usersafety@anthropic.com 报告潜在的安全问题，并提供足够的详细信息以进行复制。更多信息可在公司的负责任披露政策中找到。

此计划与其他 AI 公司签署的负责任 AI 开发承诺一致，例如白宫宣布的自愿 AI 承诺和七国集团广岛进程制定的先进 AI 系统组织行为准则。目标是加快缓解普遍越狱攻击的进展，并在高风险领域加强 AI 安全。鼓励该领域的专家加入这一重要努力，以确保 AI 能力进步的同时安全措施能够跟上。

Image source: Shutterstock

Flash News

Whale Deposits $1.33M USDC on HyperLiquid to Short $TRUMP at $14.787 Entry – Key Liquidation Level Revealed

4/28/2025 2:12:44 AM

Whale Deposits $1.33M USDC on HyperLiquid to Short $TRUMP: Entry and Liquidation Price Analysis

4/28/2025 2:12:44 AM

How to Buy MOG: Step-by-Step Guide for Fast and Secure Crypto Trading

4/28/2025 1:54:44 AM

Stock Market Futures Drop as 90-Day Tariff Pause Nears 20% Completion and Uncertainty Rises

4/28/2025 1:13:30 AM

Stock Market Futures Drop as 90-Day Tariff Pause Hits 20% Milestone – Trading Strategy Insights

4/28/2025 1:13:30 AM

Email us at info@blockchain.news