谷歌人工智能模型能理解海豚交流 - AI News
谷歌人工智能模型能理解海豚交流

谷歌人工智能模型能理解海豚交流

2025-04-14

新闻要点

Google 联合多方开发 DolphinGemma 模型助力理解海豚交流。该模型于国家海豚日前后推出,经 WDP 长期研究数据训练,能分析海豚声音、预测后续声音。未来或加速研究,推动跨物种交流探索。

- Google 开发 DolphinGemma 模型理解海豚交流

- WDP 超 30 年研究为模型提供关键数据

- 模型可预测海豚声音序列 助力研究

- CHAT 系统探索与海豚双向互动交流

主要内容

谷歌开发了一种名为 DolphinGemma 的人工智能模型,旨在破译海豚的交流方式,有望某天促进跨物种交流。长期以来,海豚在水下发出的复杂咔嗒声、哨声和脉冲令科学家着迷,他们一直梦想着理解和破译这些复杂发声中的模式。谷歌与佐治亚理工学院的工程师合作,并利用野生海豚项目(WDP)的实地研究,推出了 DolphinGemma 以帮助实现这一目标。在全国海豚日前后宣布的基础人工智能模型是理解鲸类交流努力中的新工具。DolphinGemma 专门训练以学习海豚声音的结构,甚至能生成新的类似海豚的音频序列。

自 1985 年开始运作的 WDP 进行了世界上持续时间最长的海豚水下研究,以深入了解特定情境下的声音,如独特的“哨声”(类似名字,对母亲与幼崽团聚等互动至关重要)、爆发脉冲“尖叫”(常与冲突或攻击遭遇相关)、点击“嗡嗡声”(常在求偶或追逐鲨鱼时被检测到)。WDP 的最终目标是揭示这些自然声音序列中的内在结构和潜在意义,寻找可能表示某种语言的语法规则和模式。这种长期的艰苦分析为训练像 DolphinGemma 这样复杂的人工智能模型提供了关键基础和标注数据。

分析海豚交流的巨大数量和复杂性是一项艰巨任务,非常适合人工智能。DolphinGemma 利用专门的音频技术来应对这一挑战,它使用 SoundStream 标记器来有效表示海豚声音,并将这些数据输入擅长处理复杂序列的模型架构中。基于谷歌 Gemma 系列轻量级开放模型(与强大的 Gemini 模型共享技术)的见解,DolphinGemma 作为音频输入、音频输出系统运行。通过 WDP 广泛数据库中的自然海豚声音序列进行训练,DolphinGemma 学会识别重复模式和结构,能预测序列中的后续可能声音,就像人类语言模型预测下一个单词一样。约 4 亿个参数的 DolphinGemma 经过优化,即使在 WDP 用于实地数据收集的谷歌 Pixel 智能手机上也能高效运行。随着 WDP 本赛季开始部署该模型,有望极大地加速研究。

同时,一个平行项目探索了不同的途径:主动的双向互动。由 WDP 与佐治亚理工学院合作开发的 CHAT(鲸类听力增强遥测)系统旨在建立一个更简单的共享词汇,而不是直接翻译复杂的海豚语言。该概念依赖于将特定的新合成哨声(由 CHAT 创建,不同于自然声音)与海豚喜欢互动的物体(如围巾或海藻)相关联。研究人员展示了哨声与物体的关联,希望海豚的自然好奇心能促使它们模仿声音来请求物品。随着通过像 DolphinGemma 这样的模型对更多自然海豚声音的理解,这些声音可能会被纳入 CHAT 互动框架中。

谷歌 Pixel 为海洋研究提供支持,为上述两个项目提供了基础。