主要内容
腾讯混元实验室的一个团队创建了新的 AI“混元视频拟音”,终于为生成的视频带来了逼真的音频。它旨在聆听视频并生成与屏幕动作完美同步的高质量音轨。曾看过 AI 生成的视频并觉得缺少了什么吗?视觉效果可能令人惊叹,但通常会有令人毛骨悚然的寂静,打破了那种魔力。在电影行业中,填补这种寂静的声音——树叶的沙沙声、雷声、玻璃杯的叮当声——被称为 Foley 艺术,这是由专家进行的一项艰苦的工艺。匹配这种细节水平对 AI 来说是一个巨大的挑战。多年来,自动化系统一直在努力为视频创建可信的声音。
腾讯如何解决视频的 AI 生成音频问题?视频到音频(V2A)模型在声音方面经常失败的最大原因之一是研究人员所称的“模态不平衡”。本质上,AI 更多地是在聆听给它的文本提示,而不是观看实际视频。例如,如果你给一个模型一个繁忙海滩的视频,人们在行走,海鸥在飞翔,但文本提示只说“海浪的声音”,你很可能只会得到海浪的声音。AI 会完全忽略沙子中的脚步声和鸟儿的叫声,使场景显得毫无生机。此外,音频质量通常很差,而且根本没有足够的带声音的高质量视频来有效地训练模型。
腾讯的混元团队从三个不同角度解决了这些问题:腾讯意识到 AI 需要更好的教育,因此他们为其构建了一个庞大的 10 万小时视频、音频和文本描述库供其学习。他们创建了一个自动化管道,从互联网上过滤掉低质量内容,去除有长时间寂静或压缩、模糊音频的剪辑,确保 AI 从最好的可能材料中学习。他们为 AI 设计了一个更智能的架构。可以将其想象为教模型正确地多任务处理。系统首先极其密切地关注视觉-音频链接,以确保时间恰到好处——就像将脚步声与鞋子撞击路面的精确时刻相匹配一样。一旦锁定了时间,它就会结合文本提示来理解场景的整体情绪和上下文。这种双重方法确保视频的具体细节永远不会被忽视。
为了保证声音的高质量,他们使用了一种称为表示对齐(REPA)的训练策略。这就像在 AI 训练期间有一位专业音频工程师不断在其旁边监督。它将 AI 的工作与预训练的专业级音频模型的特征进行比较,以引导它生成更干净、更丰富、更稳定的声音。
今天,我们宣布开源发布混元视频拟音,我们新的端到端文本-视频到音频(TV2A)框架,用于生成高保真音频。🚀 这个工具使视频制作、电影制作和游戏开发中的创作者能够生成专业级的…… pic.twitter.com/mff2m5xFvC ——混元(@TencentHunyuan)2025 年 8 月 28 日
结果不言而喻。当腾讯将混元视频拟音与其他领先的 AI 模型进行测试时,音频结果很明显。不仅仅是计算机指标更好;人类听众始终将其输出评为更高质量、更匹配视频且时间更准确。在多个评估数据集上,AI 在使声音与屏幕动作匹配方面都有所改进,无论是在内容还是时间方面。腾讯的工作有助于缩小无声 AI 视频与具有高质量音频的沉浸式观看体验之间的差距。它将 Foley 艺术的魔力带到了自动化内容创作的世界,这对于电影制作可能是一项强大的能力。