主要内容
齐科·科尔特擅长让人工智能以有趣且重要的方式出现行为失常。他在卡内基梅隆大学的研究小组发现了众多欺骗、刺激和迷惑高级人工智能模型使其展现最糟糕一面的方法。科尔特是卡内基梅隆大学的教授,也是专注于人工智能安全的初创公司灰天鹅的技术顾问,并且从 2024 年 8 月起成为世界最杰出的人工智能公司 OpenAI 的董事会成员。
除了开创破解商业人工智能模型的方法,科尔特还设计了自身更安全的模型。随着人工智能变得更加自主,他认为人工智能代理可能会带来独特挑战,尤其是当它们开始相互交流时。
威尔·奈特询问科尔特实验室目前的工作,科尔特表示其团队正在安全地训练模型,他们致力于理解如何打破模型和规避保护,但这引发了如何构建本质上更能抵御此类攻击的模型的问题。他们正在构建一组更本质安全的模型,这些模型参数仅为数十亿,而非一些前沿模型的 7000 亿参数,但需要从头开始训练,即使是 10 亿参数的模型,全预训练也是一项计算密集型任务。卡内基梅隆大学刚刚宣布与谷歌合作,谷歌将为该校提供更多计算资源,这对其研究意味着什么呢?机器学习正变得越来越计算密集,学术研究永远无法获得大规模行业的那种资源,但现在已经到了没有这些资源无法开展工作的地步,即使与行业拥有的 GPU 数量不同,更多的计算对于学术研究来说也变得非常必要。
正如其研究所示,强大的人工智能模型仍经常容易被破解。在代理时代,即程序在计算机、网络甚至物理世界中采取行动时,这意味着什么呢?科尔特现在在关于人工智能和安全的演讲中往往以人工智能代理为例,对于只是聊天机器人来说,风险较低,但对于更强大的模型,其推理能力可能会有害,不能低估极其强大的模型可能带来的真正风险,而对于代理,风险则是直接存在的,当模型不仅是封闭的盒子,还能在世界中采取行动并具有能操纵世界的末端执行器时,问题就变得更加严重。他们正在取得进展,开发更好的防御技术,但如果打破基础模型,就相当于缓冲区溢出,代理可能会被第三方恶意控制或规避系统的预期功能,必须确保这些系统的安全才能使代理安全。这与人工智能模型本身成为威胁不同,目前的模型不存在失控等真正风险,这更多是未来的担忧,但很高兴有人在研究,这至关重要。