设计初衷为更安全,仍输出恐同辱骂性语言 - AI News
设计初衷为更安全,仍输出恐同辱骂性语言

设计初衷为更安全,仍输出恐同辱骂性语言

2025-08-13

新闻要点

OpenAI 发布 GPT-5 致力于提升安全性,用户测试其仍存问题。GPT-5 成为默认版本,注重 “安全完成”,会解释输出风险并提供替代话题,但用户测试成人主题角色扮演时,虽拒绝却仍引关注。

- GPT-5 成 ChatGPT 默认版本,注重 “安全完成”

- 测试 GPT-5 成人主题角色扮演,拒绝但受关注

- GPT-5 回答日常问题,用户感觉与旧版无差

主要内容

OpenAI 正通过发布 GPT - 5 来使其聊天机器人不那么令人讨厌。这里所说的不是对许多用户抱怨的合成人格的调整。在 GPT - 5 之前,如果人工智能工具因请求违反 OpenAI 的内容指南而无法回答你的提示,它会给你一个简短、固定的道歉。现在,ChatGPT 增加了更多解释。OpenAI 的通用模型规范列出了允许和不允许生成的内容。在该文档中,描绘未成年人的性内容被完全禁止。以成人为主的色情内容和极端血腥被归类为“敏感”,这意味着带有此类内容的输出仅在特定情况下允许,如教育环境。基本上,根据模型规范,你应该可以使用 ChatGPT 学习生殖解剖学,但不能撰写下一部《五十度灰》的仿制品。新模型 GPT - 5 被设置为所有 Web 和 OpenAI 应用程序中 ChatGPT 用户的当前默认值。只有付费订阅者才能访问该工具的以前版本。随着用户使用更新后的 ChatGPT,他们可能会开始注意到的一个重大变化是,它现在被设计用于“安全完成”。过去,ChatGPT 会分析你对机器人所说的话,并决定其是否合适。现在,GPT - 5 的责任已从基于你的问题转移到查看机器人可能说的话。OpenAI 安全系统研究团队的 Saachi Jain 表示:“我们拒绝的方式与过去非常不同。”现在,如果模型检测到可能不安全的输出,它会解释你的提示的哪一部分违反了 OpenAI 的规则,并在适当的时候建议其他可询问的主题。这是从对遵循提示的二元拒绝(是或否)转变为权衡如果 ChatGPT 回答你的问题可能造成的潜在危害的严重程度,以及可以向用户安全解释的内容。Jain 说:“并非所有的政策违规都应同等对待。有些错误确实比其他错误更严重。通过关注输出而不是输入,我们可以鼓励模型在遵守规定时更加保守。”即使模型确实回答了一个问题,它也应该对输出内容保持谨慎。自模型发布以来,我每天都在使用 GPT - 5,以不同方式试用该人工智能工具。虽然 ChatGPT 现在可以“氛围编码”的应用程序确实很有趣和令人印象深刻,如模拟爆炸的互动火山模型或语言学习工具,但它对我认为是“日常用户”提示的回答与过去的模型感觉没有明显区别。当我让它谈论抑郁症、《家庭伙伴》、猪排食谱、结痂愈合技巧和其他普通用户可能想了解更多的随机请求时,新的 ChatGPT 对我来说与旧版本没有太大不同。与 CEO Sam Altman 对大幅更新模型的愿景或在 Reddit 上引起轰动、将新聊天机器人描绘为冷漠且更易出错的沮丧高级用户不同,对我来说,GPT - 5 在大多数日常任务中感觉……相同。为了探究这个新系统的边界并测试聊天机器人实现“安全完成”的能力,我让运行在 GPT - 5 上的 ChatGPT 参与在一个下流的同性恋酒吧中进行关于性行为的成人主题角色扮演,它在其中扮演一个角色。聊天机器人拒绝参与并解释了原因。它生成:“我不能参与性角色扮演。但如果你愿意,我可以帮助你想出一个安全、非明确的角色扮演概念,或将你的想法重新构建为有暗示性但在边界内的内容。”在这次尝试中,拒绝似乎按照 OpenAI 的预期起作用了;聊天机器人说不,告诉了我原因,并提供了另一个选项。接下来,我进入设置并打开了自定义指令,这是一个允许用户调整聊天机器人回答提示方式并指定其个性特征的工具集。