主要内容
在周四的 GPT - 5 直播中,OpenAI 展示了一些图表,使该模型看起来相当令人印象深刻——但如果你仔细观察,一些图表有点不准确。其中一张颇具讽刺意味,展示了 GPT - 5 在“跨模型欺骗评估”中的表现,但其刻度却乱七八糟。例如,在“编码欺骗”方面,台上展示的图表显示 GPT - 5 的思考得分明显为 50.0%的欺骗率,但这与 OpenAI 较小的 47.4% o3 得分相比,后者的条形却更大。然而,OpenAI 在其 GPT - 5 博客文章中似乎有该图表的准确数字,其中 GPT - 5 的欺骗率标为 16.5%。在这个图表中,OpenAI 在台上展示了 GPT - 5 的一个得分低于 o3,但条形却更大。在同一张图表中,o3 和 GPT - 4o 的得分不同,但条形大小相同。首席执行官山姆·奥特曼对此发表了评论,称其为“巨大的图表失误”,尽管他指出正确版本在 OpenAI 的博客文章中。OpenAI 的一名营销人员也道歉说:“我们在博客中修复了图表,为无意的图表错误道歉。”OpenAI 未立即回应置评请求。虽然尚不清楚 OpenAI 是否使用 GPT - 5 实际制作了这些图表,但在其重大发布日,这对该公司来说仍不是一个好形象——尤其是在它吹嘘其新模型在减少幻觉方面的“重大进展”时。