正在赋予其人工智能视觉能力

2025-08-12

新闻要点

SoundHound AI推出Vision AI，将视觉与声音融合。通过结合摄像头实时画面和语音技术，能理解用户真实意图。该技术应用于多场景，解决音视频同步难题，还有系统升级。其旨在让人与AI交互更自然，为企业带来更好服务体验。

- SoundHound推Vision AI 融合视觉与声音技术

- 技术应用于汽车、工厂、餐厅等多场景

- 解决音视频同步难题提供自然交互体验

- 升级系统让AI代理更快更准企业可控

主要内容

已在语音助手领域占据重要地位的 SoundHound AI，如今为其技术配备了一双“眼睛”。想象一下，开车经过一个地标建筑时，无需掏出手机，只需问车：“那边的建筑是什么？”就能立即得到答案。这正是 SoundHound AI 正在打造的。

随着视觉 AI 的推出，SoundHound 的新系统将视觉与声音相结合，创造出一种更智能、更自然的与技术交互的方式。其理念是模仿人类的操作方式：我们不仅倾听他人，还能看到他们的手势和所看之物。通过将这种上下文理解引入 AI，SoundHound 希望改善我们在许多当今智能设备上遇到的笨拙且令人沮丧的体验。

该公司瞄准了现实世界中的应用场景，在这些场景中，这种综合感知能力将产生巨大影响，无论是在你的下一辆车、餐厅免下车通道还是工厂车间。

SoundHound AI 首席执行官 Keyvan Mohajer 表示：“在 SoundHound，我们认为 AI 的未来不仅是多模态的，更是深度集成、响应迅速且为现实世界影响而构建的。通过视觉 AI，我们正在扩展我们在语音和对话 AI 领域的领导地位，重新定义人类与企业提供和使用的产品及服务的交互方式。”

那么它是如何工作的呢？视觉 AI 从相机获取实时视频流，并将其与该公司已经擅长理解自然语言的语音技术相结合。通过同时处理所看到和听到的内容，该系统能够以简单语音助手无法做到的方式把握用户的真实意图。例如，一位佩戴智能眼镜的机械师可以只需看一眼发动机部件并请求指导，就能立即获得视觉和音频指导，而无需放下工具。在商店中，工作人员只需看一眼货架就能获取实时库存计数。对于我们其他人来说，这可能意味着在免下车窗口的自助服务终端，在我们说出订单的那一刻，屏幕上就能以视觉方式确认我们的订单。

创建这样一个系统的最大技术难题之一是确保音频和视频元素完美同步。任何延迟都会打破自然对话的幻觉。SoundHound AI 工程副总裁 Pranav Singh 表示：“通过视觉 AI，我们将视觉识别和对话智能融合到一个单一的同步流程中。每一个帧、每一个话语、每一个意图都在同一个生态系统中进行解释——确保更快、更自然的用户体验，可在从自助服务终端到嵌入式设备的各种设备上扩展。这是智能与执行的交叉创新，提供能够看到你所见、听到你所说并即时响应的 AI。”

对于采用这项技术的企业来说，其承诺是提供更快的服务、更少的错误和更满意的客户。这是关于消除摩擦，让技术感觉不再像一个你必须操作的工具，而更像一个帮助你完成任务的伙伴。

SoundHound 推出的这项新视觉功能并非唯一的升级。该公司最近还通过新的更新 Amelia 7.1 改进了其系统的“大脑”。这一增强使其 AI 代理更快、更准确，并为企业提供了更多对其工作方式的控制和透明度。通过将视觉和声音相结合，SoundHound 旨在推动我们更接近一个与 AI 交互感觉像与另一个人交谈一样容易和直观的世界。（图片由 Christian Lue 拍摄）

正在赋予其人工智能视觉能力

新闻要点

主要内容

关于我们