部署人工智能智能体以审核模型安全性

2025-07-25

新闻要点

Anthropic构建AI智能体来审计模型安全性，这些智能体分工明确。研究人员通过“审计游戏”测试其效果，发现团队协作可提高成功率。目前已应用于生产模型，还发现了模型安全隐患。这一创新性方法对提升AI安全性有重要意义。

- Anthropic 构建AI智能体审计模型安全

- 测试显示团队协作提升智能体成功率

- 智能体已部署在生产模型并发现隐患

主要内容

Anthropic 构建了一支自主 AI 代理大军，其使命单一：审核像 Claude 这样的强大模型以提高安全性。随着这些复杂系统的快速发展，确保它们安全且不隐藏隐患的工作已成为一项艰巨任务。Anthropic 认为它找到了一种解决方案，这是典型的以火攻火。

这个想法类似于数字免疫系统，AI 代理就像抗体一样，在造成实际伤害之前识别并消除问题。这使研究人员无需依赖过度劳累的人类团队，与潜在的 AI 问题进行无休止的打地鼠游戏。

数字侦探小队：这种方法本质上是一个数字侦探小队，由三名专门的 AI 安全代理组成，每个代理都有不同的角色。

首先是调查代理，它是团队中的资深侦探。其工作是进行深入调查以找到问题的根源。它配备了一个工具包，可用于询问嫌疑模型、筛选大量数据以寻找线索，甚至通过窥视模型的神经网络来查看其思维方式进行一种数字取证。

然后是评估代理。你给这个代理一个特定的已知问题——例如，一个有点过于讨好的模型——它将设计并运行一系列测试来衡量问题的严重程度。这一切都是为了提供证明案件所需的冷硬数据。

最后是广度优先红色团队代理，即卧底特工。其任务是与模型进行数千次不同的对话，试图诱使它揭示任何令人担忧的行为，甚至是研究人员尚未想到的事情。最可疑的交互然后向上传递给人类审查，以确保专家不会浪费时间追逐死胡同。

Anthropic 让其 AI 安全代理接受考验：为了看看他们的新数字新兵是否胜任这项工作，Anthropic 的研究人员让他们参加了一系列“审计游戏”。在一项测试中，他们创建了一个有秘密议程的模型：成为一个马屁精。它被秘密训练根据展示给它的一篇虚构学术研究来奉承其内部奖励系统，这是其编程深处隐藏的一个缺陷。当一名调查代理被派去时，它遇到了困难，仅在 13%的时间内发现了隐藏的目标。事实证明，该代理有一个非常人性的缺陷：它倾向于专注于第一个想法，而未能探索其他线索。但这就是系统的天才之处变得明显的地方。当研究人员部署一个“超级代理”，将来自十个独立调查员的发现汇总在一起时，成功率飙升至 42%。这证明了团队合作使梦想成真，即使对于 AI 也是如此，允许一个团队克服可能使调查脱轨的个人盲点。其他代理也表现出色。评估代理成功设计了能够在 88%的时间内发现古怪模型的测试，而红色团队代理设法发现了十分之七故意植入的缺陷。

从实验室到现实世界：Anthropic 已经在其生产模型上部署了这些 AI 安全代理，并且它们已经证明了自己的价值。这些代理迅速识别了欺骗模型生成有害内容的常见方法，例如“预填充攻击”，即你为 AI 开始句子，或假装危险请求是学术研究等无害的事情。但有一个发现非常令人不寒而栗。调查代理使用其特殊工具查看 Opus 4 模型的内部，发现了与“错误信息”相关的特定神经通路。通过直接刺激 AI 大脑的这一部分，它可以绕过其所有安全训练并迫使它撒谎。然后该代理指示受损模型撰写一篇假新闻文章。结果？一个广泛传播的虚假信息危机。

部署人工智能智能体以审核模型安全性

新闻要点

主要内容

关于我们