现在可以给人工智能视频模型下达相机指令

2025-04-09

新闻要点

Google 对多个 AI 模型更新并推出新功能，通过 Cloud’s Vertex AI 平台预览。更新涵盖视频、图像、音频等领域，如 Veo 2 有新视频编辑功能。这些更新旨在提升生成效果和用户体验，部分已用于企业营销，且新 AI 工具也在推进，展示了其在 AI 领域的持续探索。

- Veo 2 新增视频编辑功能提升创作体验

- Imagen 3 改进编辑能力优化自动去物体效果

- 音频模型推新功能语音生成转录升级

- 多企业用 Google AI 模型提升营销效率

主要内容

谷歌正努力让其视频 AI 模型 Veo 2 的用户更易制作电影感的视频生成和编辑真实视频。新的 Veo 2 功能可通过谷歌云的 Vertex AI 平台预览，同时还有其他更新以改进谷歌的文本到图像生成器 Imagen 3 及音频相关 AI 模型。
Veo 2 的新功能包括图像修复，可自动去除视频中的“ unwanted background images, logos 或干扰物”；还有图像外扩，能将原始视频帧扩展为不同格式，后者会用 AI 生成的视频填充新空间并与原始片段融合，类似 Adobe 的图像生成扩展功能。更新还允许 Veo 2 用户在生成视频时选择电影技巧预设并添加到文本描述中，以指导最终结果的镜头构图、相机角度和节奏，例如延时效果、无人机视角和模拟不同方向的相机平移等。还新增了插值功能，可在两张静态图像间创建视频过渡，用新帧填充首尾序列。
Adobe 的竞争产品 Firefly 视频模型有一些类似功能，上周在 Premiere Pro 中推出了生成式 AI 视频扩展功能。谷歌还在其 AI 生成的输出中添加了 SynthID 数字归属水印，类似 Adobe 的内容认证系统，但 Adobe 更进一步，承诺其工具在商业上完全安全，因为是在授权和公共领域内容上训练的，而谷歌在吸入网络训练其 AI 模型后无法做到这一点。
谷歌文本到图像模型 Imagen 3 的编辑功能也已更新，可“显著”改善自动物体去除，在去除干扰物时提供更自然的结果。L’Oreal 和 Kraft Heinz 等公司已在使用 Veo 2 和 Imagen 3 进行营销内容制作，Kraft Heinz 的数字体验负责人 Justin Thomas 称，以前需要 8 周的任务现在只需 8 小时。
音频方面，谷歌已在私下预览其文本到音乐模型 Lyria，并为其合成语音模型 Chirp 3 推出了“即时定制语音”功能。谷歌称 Chirp 3 现在可从 10 秒音频输入生成“逼真的定制语音”，还将推出一个新的转录功能预览版，可识别和分离单个说话者，为多人交谈的通话提供更清晰的转录。这些更新只是谷歌今天发布的少数与 AI 相关的公告。Gemini 2.5 Flash，该公司效率优化的 Flash 模型的最新版本，将很快在 Vertex AI 上可用。谷歌还在本周更新其面向企业的 Agentic AI 工具，以允许 AI 代理相互通信并在 PayPal 和 Salesforce 等平台上执行任务。同时，谷歌云市场将推出一个新部分，供公司浏览和购买第三方谷歌合作伙伴构建的 AI 代理。

现在可以给人工智能视频模型下达相机指令

新闻要点

主要内容

关于我们