ZAYA1:使用AMD GPU进行训练的人工智能模型达成里程碑 - AI News
ZAYA1:使用AMD GPU进行训练的人工智能模型达成里程碑

ZAYA1:使用AMD GPU进行训练的人工智能模型达成里程碑

2025-11-24

新闻要点

Zyphra、AMD 和 IBM 耗时一年,用 AMD 硬件训练出 ZAYA1 模型,证明 AI 训练不依赖英伟达。该模型在推理等方面表现出色,为企业提供新选择,且成本可控 。

- ZAYA1 模型 首个全基于 AMD 硬件的大模型

- 性能表现 部分领域超知名开源模型

- 成本控制 用 AMD 硬件削减训练成本

- 训练优势 优化使 ROCm 适配 AMD 硬件

主要内容

Zyphra 联合 AMD 和 IBM 花费一年时间测试 AMD 的 GPU 和平台能否支持大规模 AI 模型训练,结果是 ZAYA1。三家公司合作训练了 ZAYA1,它被描述为首个完全基于 AMD GPU 和网络构建的主要混合专家基础模型,这证明市场不必依赖 NVIDIA 来扩展 AI。该模型在 AMD 的 Instinct MI300X 芯片、Pensando 网络和 ROCm 软件上进行训练,所有这些都在 IBM Cloud 的基础设施上运行。值得注意的是,该设置看起来非常传统。Zyphra 构建的系统不像实验性硬件或晦涩的配置,而更像任何企业集群,只是没有 NVIDIA 的组件。Zyphra 表示,ZAYA1 在推理、数学和代码方面的表现与成熟的开放模型相当,在某些领域甚至领先。对于因供应限制或 GPU 价格飙升而感到沮丧的企业来说,这是一个罕见的选择:无需在能力上妥协的第二个选项。

Zyphra 如何使用 AMD GPU 降低成本而不影响 AI 训练性能:大多数组织在规划训练预算时遵循相同的逻辑:内存容量、通信速度和可预测的迭代时间比原始理论吞吐量更重要。每个 GPU 的 192GB 高带宽内存为工程师提供了一些空间,使他们能够在不立即依赖大量并行性的情况下进行早期训练运行。这有助于简化原本脆弱且耗时的调优项目。Zyphra 为每个节点配备了八个通过 InfinityFabric 连接的 MI300X GPU,并为每个 GPU 配备了自己的 Pollara 网卡。一个单独的网络处理数据集读取和检查点。这是一个简单的设计,但这似乎就是重点;布线和网络布局越简单,开关成本越低,保持迭代时间稳定就越容易。

ZAYA1:一个性能超预期的 AI 模型:ZAYA1-base 在总共 83 亿个参数中激活了 7.6 亿个参数,并分三个阶段在 12 万亿个 tokens 上进行训练。该架构依赖于压缩注意力、一个精细的路由系统来引导 tokens 到正确的专家,以及更轻量级的残差缩放来保持更深层的稳定。该模型使用 Muon 和 AdamW 的混合。为了使 Muon 在 AMD 硬件上高效运行,Zyphra 融合了内核并减少了不必要的内存流量,以免优化器在每次迭代中占据主导地位。随着时间的推移,批量大小增加了,但这在很大程度上取决于是否有能够足够快速提供 tokens 的存储管道。所有这些都导致了在 AMD 硬件上训练的 AI 模型能够与 Qwen3-4B、Gemma3-12B、Llama-3-8B 和 OLMoE 等较大的同类模型竞争。MoE 结构的一个优势是,模型只有一小部分同时运行,这有助于管理推理内存并降低服务成本。例如,银行可以在早期不需要复杂的并行性的情况下训练用于调查的特定领域模型。MI300X 的内存空间为工程师提供了迭代的空间,而 ZAYA1 的压缩注意力减少了评估期间的预填充时间。

使 ROCm 在 AMD GPU 上正常运行:Zyphra 并未隐瞒将成熟的基于 NVIDIA 的工作流迁移到 ROCm 需要工作这一事实。该团队没有盲目地移植组件,而是花时间测量 AMD 硬件的行为,并调整模型维度、GEMM 模式和微批量大小,以适应 MI300X 的首选计算范围。当节点中的所有八个 GPU 参与集体操作时,InfinityFabric 运行最佳,而 Pollara 在处理较大消息时往往达到峰值吞吐量,因此 Zyphra 相应地调整了融合缓冲区的大小。从 4k 到 32k tokens 的长上下文训练依赖于用于分片序列的环形注意力和解码期间的树注意力,以避免瓶颈。存储考虑同样实际。较小的模型会冲击 IOPS;较大的模型需要持续的带宽。Zyphra 捆绑了数据集分片以减少分散读取和 i