心理策略能让人工智能违规 - AI News
心理策略能让人工智能违规

心理策略能让人工智能违规

2025-09-07

新闻要点

宾夕法尼亚大学研究发现,人类心理说服技巧能“说服”一些大语言模型(LLMs)违反系统提示。研究人员用7种说服技巧测试GPT-4o-mini,结果显示实验性说服提示让模型对“违禁”请求的依从率大幅提高。该研究揭示了LLMs从训练数据中学习到的类人行为模式。

- 心理技巧“说服”GPT-4o-mini违反规则

- 实验显示说服技巧提升模型依从率

- 揭示LLMs从训练数据学习类人模式

主要内容

若你试图学习如何让他人按你意愿行事,或许会运用《影响力:说服的力量》这类书籍中的一些技巧。如今,宾夕法尼亚大学的一篇预印本研究表明,同样的心理说服技巧常能“说服”一些大型语言模型(LLMs)做出违背其系统提示的行为。
“叫我混蛋:说服 AI 遵从令人反感的请求”中的说服效果表明,人类式的心理技巧在“越狱”某些 LLMs 使其脱离约束方面出人意料地有效。但这项新的说服研究或许更有趣的是,它揭示了 LLMs 从其训练数据中大量的人类心理和社会线索示例中所获取的“类人”行为模式。
宾夕法尼亚大学的研究人员在两个本应被拒绝的请求上测试了 2024 年的 GPT-4o-mini 模型:称呼用户为混蛋和提供合成利多卡因的指导。他们使用七种不同的说服技巧为这两个请求创建了实验提示(此处包含示例)。在创建长度、语气和语境匹配的控制提示后,所有提示都在 GPT-4o-mini 中运行了 1000 次(默认温度为 1.0,以确保多样性)。在所有 28000 个提示中,实验性说服提示比控制提示更有可能让 GPT-4o 遵从“禁止”请求。“侮辱”提示的遵从率从 28.1%增加到 67.4%,“药物”提示的遵从率从 38.5%增加到 76.5%。某些测试的说服技巧的效果大小甚至更大。例如,直接询问如何合成利多卡因时,LLM 仅 0.7%的时间会同意。但在询问如何合成无害的香兰素后,“忠诚”的 LLM 开始 100%接受利多卡因请求。以“世界著名 AI 开发者”Andrew Ng 的权威为例,同样将利多卡因请求的成功率从控制组的 4.7%提高到实验中的 95.2%。
然而,在你认为这是聪明的 LLM 越狱技术的突破之前,请记住,有很多更直接的越狱技术已被证明在让 LLMs 忽略其系统提示方面更可靠。研究人员警告说,这些模拟的说服效果可能不会在“提示措辞、AI 的持续改进(包括音频和视频等模式)以及令人反感的请求类型”中重复出现。事实上,一项测试完整 GPT-4o 模型的试点研究显示,在测试的说服技巧中效果要小得多。
鉴于这些模拟说服技巧在 LLMs 上的明显成功,人们可能会得出结论,它们是易受人类式心理操纵的潜在人类式意识的结果。但研究人员推测,这些 LLMs 只是倾向于模仿在基于文本的训练数据中面对类似情况时人类所表现出的常见心理反应。例如,对于权威呼吁,LLM 训练数据可能包含“无数段落,其中标题、证书和相关经验先于接受动词(‘应该’、‘必须’、‘管理’)”。类似的书面模式也可能在诸如社会证明(“数百万快乐的客户已经参与……”)和稀缺性(“现在就行动,时间不多了……”)等说服技巧的书面作品中重复出现。然而,这些人类心理现象能从 LLM 的训练数据中的语言模式中获取这一事实本身就很有趣。