主要内容
尽管人工智能看似无处不在,但它主要在世界 7000 种语言中的一小部分中运行,将全球很大一部分人口抛在了后面。英伟达旨在解决这一明显的盲点,特别是在欧洲。该公司刚刚发布了一套强大的开源工具,旨在让开发者能够为 25 种不同的欧洲语言构建高质量的语音人工智能。这包括主要语言,但更重要的是,它为那些经常被大型科技公司忽视的语言,如克罗地亚语、爱沙尼亚语和马耳他语,提供了一条生命线。目标是让开发者创建我们许多人认为理所当然的那种语音驱动工具,从真正理解你的多语言聊天机器人到客户服务机器人和瞬间翻译服务。
这项计划的核心是谷仓,一个巨大的人类语音库。它包含约 100 万小时的音频,全部经过精心策划,以帮助教会人工智能语音识别和翻译的细微差别。为了利用这些语音数据,英伟达还提供了两个专为语言任务设计的新人工智能模型:Canary-1b-v2,这是一个为复杂转录和翻译工作的高精度而构建的大型模型;Parakeet-tdt-0.6b-v3,它是为速度至上的实时应用而设计的。
如果您渴望深入了解其背后的科学,关于谷仓的论文将于本月在荷兰的 Interspeech 会议上发表。对于渴望动手实践的开发者,该数据集和这两个模型已经在 Hugging Face 上可用。
然而,真正的神奇之处在于这些数据是如何创建的。我们都知道训练人工智能需要大量数据,但获取数据通常是一个缓慢、昂贵且实际上枯燥的人工标注过程。为了解决这个问题,英伟达的语音人工智能团队与卡内基梅隆大学和布鲁诺凯塞勒基金会的研究人员合作,构建了一个自动化管道。使用他们自己的 NeMo 工具包,他们能够将原始的、未标记的音频转化为高质量的结构化数据,供人工智能学习。
这不仅仅是一项技术成就,更是数字包容性的一大飞跃。这意味着里加或萨格勒布的开发者最终可以构建能够正确理解其当地语言的语音驱动人工智能工具,并且可以更高效地做到这一点。研究团队发现,他们的谷仓数据非常有效,与其他流行数据集相比,达到目标精度水平所需的数据量约为一半。这两个新模型展示了这种力量。Canary 简直是一个怪物,提供的翻译和转录质量可与比其大三倍的模型相媲美,但速度却高达十倍。与此同时,Parakeet 可以一次性处理 24 分钟的会议记录,自动识别正在使用的语言。这两个模型都足够智能,可以处理标点符号、大写和提供单词级别的时间戳,这是构建专业级应用程序所必需的。
通过将这些强大的工具及其背后的方法交到全球开发者社区手中,英伟达不仅仅是在发布一款产品。它正在启动新一轮的创新,希望创造一个无论你来自哪里,人工智能都能说你的语言的世界。(照片由 Aedrian Salazar 拍摄)