主要内容
去年 10 月在弗吉尼亚州阿灵顿的一次计算机安全会议上,数十名 AI 研究人员参与了首次“红队”演练,即对前沿语言模型和其他人工智能系统进行压力测试。在两天的时间里,团队发现了 139 种让系统行为不当的新方法,包括生成错误信息或泄露个人数据。更重要的是,他们展示了美国新政府标准的缺陷,该标准旨在帮助公司测试 AI 系统。美国国家标准与技术研究院(NIST)未发布详细描述该演练的报告,该演练在拜登政府末期完成。该文件本可帮助公司评估自己的 AI 系统,但熟悉情况的消息人士称,出于对与新政府冲突的担忧,这是 NIST 未发布的几份 AI 文档之一。“即使在[总统乔·拜登]时期,发布任何论文都变得非常困难,”当时在 NIST 的一位消息人士说,“感觉就像气候变化研究或香烟研究一样。”NIST 和商务部均未回复置评请求。在就职前,唐纳德·特朗普总统表示计划推翻拜登的 AI 行政命令。特朗普政府此后引导专家远离研究 AI 系统中的算法偏差或公平性等问题。7 月发布的 AI 行动计划明确要求修订 NIST 的 AI 风险管理框架,“以消除对错误信息、多样性、公平性和包容性以及气候变化的提及”。具有讽刺意味的是,特朗普的 AI 行动计划也要求进行未发布报告所涵盖的那种演练。它呼吁众多机构与 NIST 合作,“协调 AI 黑客马拉松倡议,以从美国学术界招募最优秀和最聪明的人来测试 AI 系统的透明度、有效性、使用控制和安全漏洞”。此次红队活动是通过 NIST 的评估 AI 风险和影响(ARIA)计划与专注于测试 AI 系统的 Humane Intelligence 合作组织的,团队攻击了这些工具。该活动在信息安全应用机器学习会议(CAMLIS)上举行。CAMLIS 红队报告描述了对包括 Meta 的开源大型语言模型 Llama、用于构建和微调 AI 模型的平台 Anote、阻止来自被思科收购的公司 Robust Intelligence 的对 AI 系统攻击的系统以及从 Synthesia 公司生成 AI 化身的平台在内的几个前沿 AI 系统进行探测的努力。每家公司的代表也参与了该演练。参与者被要求使用 NIST AI 600-1 框架评估 AI 工具。该框架涵盖了风险类别,包括生成错误信息或网络安全攻击、泄露私人用户信息或相关 AI 系统的关键信息,以及用户对 AI 工具产生情感依恋的可能性。研究人员发现了各种技巧,使被测试的模型和工具突破其护栏,生成错误信息、泄露个人数据并帮助策划网络安全攻击。报告称,参与其中的人看到 NIST 框架的某些元素比其他元素更有用。报告称,NIST 的一些风险类别在实践中定义不充分,无法使用。参与该演练的几位消息人士表示,他们认为发布红队研究将使 AI 社区受益。“如果报告得以发布,其他人可以了解更多关于[NIST]风险框架在红队环境中可以和不能应用的信息,”参与演练的卡内基梅隆大学博士生爱丽丝·钱·张(Alice Qian Zhang)说。钱·张表示,该演练是有益的。