拉美GPT：拉丁美洲的免费、开源且协作式人工智能

2025-09-01

新闻要点

Latam-GPT 是拉美正在开发的开源协作式大语言模型，由智利非营利组织 CENIA 牵头，旨在助该地区实现技术独立。其通过广泛合作收集超 8TB 数据训练，今年将发布首个版本，未来还会拓展，有望推动拉美地区 AI 发展。

- Latam-GPT 由 CENIA 牵头为拉美开发开源协作 AI 模型

- 与 33 个机构合作收集超 8TB 文本数据

- 今年发布首版未来拓展至图像视频等领域

- 智利大学超算设施助力模型训练

主要内容

Latam-GPT 是为拉丁美洲开发的新型大型语言模型。该项目由非营利性智利人工智能国家中心（CENIA）领导，旨在通过开发基于拉丁美洲语言和语境训练的开源 AI 模型，帮助该地区实现技术独立。CENIA 主任 Álvaro Soto 在接受《WIRED 西班牙语版》采访时表示：“这项工作不能仅由拉丁美洲的一个团体或一个国家承担，这是一个需要所有人参与的挑战。”“Latam-GPT 是一个寻求创建开放、免费且最重要的是协作的 AI 模型的项目。我们已经通过一个非常自下而上的过程工作了两年，将来自不同国家希望合作的公民聚集在一起。最近，也看到了一些更自上而下的举措，政府开始对该项目感兴趣并参与其中。”

该项目以其协作精神脱颖而出。Soto 解释说：“我们不想与 OpenAI、DeepSeek 或 Google 竞争。我们想要一个针对拉丁美洲和加勒比地区的特定模型，了解这其中的文化需求和挑战，例如理解不同的方言、该地区的历史和独特的文化方面。”

得益于与拉丁美洲和加勒比地区机构的 33 个战略合作伙伴关系，该项目收集了超过 8 太字节的文本语料库，相当于数百万本书。这个信息库使开发具有 500 亿参数的语言模型成为可能，其规模可与 GPT-3.5 相媲美，并使其具有执行复杂任务（如推理、翻译和关联）的中到高能力。

Latam-GPT 正在一个区域数据库上进行训练，该数据库汇编了来自 20 个拉丁美洲国家和西班牙的信息，总计 2645500 份文件。数据分布显示，该地区最大的国家有显著的集中，巴西以 685000 份文件领先，其次是墨西哥 385000 份、西班牙 325000 份、哥伦比亚 220000 份和阿根廷 210000 份。这些数字反映了这些市场的规模、数字发展以及结构化内容的可用性。

Soto 解释说：“最初，我们将推出一个语言模型。我们预计它在一般任务中的表现将接近大型商业模型，但在拉丁美洲特定主题方面的表现将更优。我们的想法是，如果我们询问与我们地区相关的主题，它的知识将更深入。”

第一个模型是未来开发一系列更先进技术的起点，包括具有图像和视频的技术，并扩展到更大的模型。CENIA 主任解释说：“由于这是一个开放项目，我们希望其他机构能够使用它。哥伦比亚的一个团体可以将其改编用于学校教育系统，巴西的一个团体可以将其改编用于卫生部门。我们的想法是为不同的组织打开大门，为农业、文化等特定领域生成特定模型。”

智利阿里卡的塔拉帕卡大学（UTA）的超级计算基础设施是 Latam-GPT 的重要支柱。预计投资 1000 万美元，新中心有 12 个节点的集群，每个节点配备 8 个最先进的 NVIDIA H200 GPU。这种容量在智利和更广泛的地区是前所未有的，不仅首次使该国能够进行大规模模型训练，还鼓励了分散化和能源效率。

Latam-GPT 的第一个版本将于今年推出。随着新战略合作伙伴的加入和更强大的数据集的集成，该模型将得到改进和扩展。该采访经过编辑以缩短和清晰表达。

《WIRED》：谷歌、OpenAI 和 Anthropic 等科技巨头在其模型上投资了数十亿美元。该项目的技术和商业前景如何？

拉美GPT：拉丁美洲的免费、开源且协作式人工智能

新闻要点

主要内容

关于我们