主要内容
腾讯推出了新的基准测试 ArtifactsBench,旨在解决当前创意 AI 模型测试中存在的问题。曾让 AI 构建简单网页或图表等,虽能运行但用户体验不佳,如按钮位置错误、颜色冲突、动画卡顿等,这是常见问题,也凸显了 AI 开发中的巨大挑战:如何教会机器有良好的品味?
长期以来,我们一直测试 AI 模型生成功能正确代码的能力,这些测试能确认代码可运行,但完全“忽视了定义现代用户体验的视觉保真度和交互完整性”。这正是 ArtifactsBench 设计要解决的问题,它更像是 AI 生成代码的自动化艺术评论家。
腾讯的 AI 基准测试是如何工作的呢?首先,AI 从超过 1800 个挑战的目录中获得一个创意任务,如构建数据可视化和网络应用程序、制作互动小游戏等。AI 生成代码后,ArtifactsBench 开始工作,在安全的沙盒环境中自动构建和运行代码,并通过捕获一系列截图来查看应用程序的行为,包括动画、按钮点击后的状态变化等动态用户反馈。最后,将原始请求、AI 代码和截图等证据交给多模态语言模型(MLLM)作为评判者,该 MLLM 法官使用详细的、按任务的清单在十个不同的指标上对结果进行评分,包括功能、用户体验甚至美学质量,以确保评分公平、一致和彻底。
当将 ArtifactsBench 的排名与 WebDev Arena(真人对最佳 AI 创作进行投票的黄金标准平台)进行比较时,一致性达到 94.4%,这比旧的自动化基准有了巨大飞跃,且该框架的判断与专业人类开发者的一致性超过 90%。
当腾讯对 30 多个世界顶级 AI 模型进行测试时,排行榜颇具启示性。虽然谷歌(Gemini-2.5-Pro)和 Anthropic(Claude 4.0-Sonnet)的顶级商业模型领先,但测试发现“通用模型的整体能力通常超过专业模型”,通用模型 Qwen-2.5-Instruct 实际上击败了其更专业的兄弟模型 Qwen-2.5-coder(代码特定模型)和 Qwen2.5-VL(视觉专业模型)。研究人员认为,创建出色的视觉应用不仅涉及单独的编码或视觉理解,还需要多种技能的融合,如强大的推理、细致的指令遵循和隐含的设计美学意识等,这些是最佳通用模型开始发展的全面、近乎人类的能力。腾讯希望其 ArtifactsBench 基准测试能够……