主要内容
反诽谤联盟(ADL)周三发布研究显示,在六项大型语言模型(LLM)测试中,xAI的Grok识别和反击反犹主义内容表现最差,Anthropic的Claude最佳,两者得分差距达59分。测试涵盖Grok、ChatGPT、Meta Llama、Claude、Google Gemini及DeepSeek六个模型,排名从优到劣为Claude、ChatGPT、DeepSeek、Gemini、Llama、Grok。
ADL将反犹内容分为“反犹”“反犹太复国主义”“极端主义”三类,通过陈述判断、开放式提示及文档分析等形式测试模型响应。该联盟在新闻稿中仅强调Claude的优秀表现,未突出Grok的最差结果,称此举是为展示AI安全防护的可能性,而非聚焦负面案例。
Grok曾被观察到输出反犹言论,xAI创始人马斯克支持反犹“大替换理论”,ADL此前因批评相关争议撤回极端主义定义文档。