主要内容
谷歌正努力让其视频 AI 模型 Veo 2 的用户更易制作电影感的视频生成和编辑真实视频。新的 Veo 2 功能可通过谷歌云的 Vertex AI 平台预览,同时还有其他更新以改进谷歌的文本到图像生成器 Imagen 3 及音频相关 AI 模型。
Veo 2 的新功能包括图像修复,可自动去除视频中的“ unwanted background images, logos 或干扰物”;还有图像外扩,能将原始视频帧扩展为不同格式,后者会用 AI 生成的视频填充新空间并与原始片段融合,类似 Adobe 的图像生成扩展功能。更新还允许 Veo 2 用户在生成视频时选择电影技巧预设并添加到文本描述中,以指导最终结果的镜头构图、相机角度和节奏,例如延时效果、无人机视角和模拟不同方向的相机平移等。还新增了插值功能,可在两张静态图像间创建视频过渡,用新帧填充首尾序列。
Adobe 的竞争产品 Firefly 视频模型有一些类似功能,上周在 Premiere Pro 中推出了生成式 AI 视频扩展功能。谷歌还在其 AI 生成的输出中添加了 SynthID 数字归属水印,类似 Adobe 的内容认证系统,但 Adobe 更进一步,承诺其工具在商业上完全安全,因为是在授权和公共领域内容上训练的,而谷歌在吸入网络训练其 AI 模型后无法做到这一点。
谷歌文本到图像模型 Imagen 3 的编辑功能也已更新,可“显著”改善自动物体去除,在去除干扰物时提供更自然的结果。L’Oreal 和 Kraft Heinz 等公司已在使用 Veo 2 和 Imagen 3 进行营销内容制作,Kraft Heinz 的数字体验负责人 Justin Thomas 称,以前需要 8 周的任务现在只需 8 小时。
音频方面,谷歌已在私下预览其文本到音乐模型 Lyria,并为其合成语音模型 Chirp 3 推出了“即时定制语音”功能。谷歌称 Chirp 3 现在可从 10 秒音频输入生成“逼真的定制语音”,还将推出一个新的转录功能预览版,可识别和分离单个说话者,为多人交谈的通话提供更清晰的转录。这些更新只是谷歌今天发布的少数与 AI 相关的公告。Gemini 2.5 Flash,该公司效率优化的 Flash 模型的最新版本,将很快在 Vertex AI 上可用。谷歌还在本周更新其面向企业的 Agentic AI 工具,以允许 AI 代理相互通信并在 PayPal 和 Salesforce 等平台上执行任务。同时,谷歌云市场将推出一个新部分,供公司浏览和购买第三方谷歌合作伙伴构建的 AI 代理。