为人工智能数据中心选用 NVIDIA Spectrum-X - AI News
为人工智能数据中心选用 NVIDIA Spectrum-X

为人工智能数据中心选用 NVIDIA Spectrum-X

2025-10-13

新闻要点

Meta 和 Oracle 选用 NVIDIA Spectrum-X 升级 AI 数据中心,以应对大规模 AI 系统需求。该技术作为开放网络框架,可提升训练效率、加速部署。其具有灵活性、提升能效等优势,还能助力数据中心扩展。此外,Spectrum-X 能让 AI 基础设施更高效、易获取,推动 AI 生态发展。

- Meta 和 Oracle 用 NVIDIA Spectrum-X 升级 AI 数据中心

- 该技术提升 AI 训练效率,加速大规模部署

- MGX 系统灵活且提升能效,助力数据中心扩展

- Spectrum-X 推动 AI 基础设施高效且易获取

主要内容

Meta 和 Oracle 正在使用 NVIDIA 的 Spectrum-X 以太网网络交换机升级其 AI 数据中心,该技术旨在满足大规模 AI 系统不断增长的需求。两家公司都采用 Spectrum-X 作为开放网络框架的一部分,旨在提高 AI 训练效率并加速在大规模计算集群中的部署。

NVIDIA 的创始人兼 CEO 黄仁勋表示,万亿参数模型正在将数据中心转变为“千兆规模的 AI 工厂”,并补充说 Spectrum-X 充当连接数百万个 GPU 以训练有史以来最大模型的“神经系统”。Oracle 计划将 Spectrum-X 以太网与 Vera Rubin 架构一起用于构建大规模 AI 工厂。Oracle 云基础设施执行副总裁 Mahesh Thiagarajan 表示,新设置将使该公司更有效地连接数百万个 GPU,帮助客户更快地训练和部署新的 AI 模型。

与此同时,Meta 通过将 Spectrum-X 以太网交换机集成到其内部管理网络交换机的平台 Facebook Open Switching System (FBOSS) 中,正在扩大其 AI 基础设施。Meta 网络工程副总裁 Gaya Nagarajan 表示,公司的下一代网络必须开放且高效,以支持更大的 AI 模型并为数十亿用户提供服务。

构建灵活的 AI 系统时,数据中心变得更加复杂,灵活性至关重要。NVIDIA 的加速计算解决方案组合负责人 Joe DeLaere 解释说,NVIDIA 的 MGX 系统提供了模块化的积木式设计,让合作伙伴可以根据需要组合不同的 CPU、GPU、存储和网络组件。该系统还促进了互操作性,允许组织在多代硬件上使用相同的设计。

随着 AI 模型变得更大,能效已成为数据中心的核心挑战。DeLaere 表示,NVIDIA 正在从芯片到电网进行合作,与电源和冷却供应商密切合作,以提高每瓦的性能,例如转向 800 伏直流电源输送,以减少热损失并提高效率。该公司还推出了功率平滑技术,以减少电网上的尖峰,这种方法可以将最大功率需求降低多达 30%,在相同的占地面积内实现更多的计算能力。

NVIDIA 的 MGX 系统在数据中心的扩展方式中也发挥着作用。该公司的网络高级副总裁 Gilad Shainer 表示,MGX 机架同时承载计算和交换组件,支持用于向上扩展连接的 NVLink 和用于向外扩展增长的 Spectrum-X 以太网。他补充说,MGX 可以将多个 AI 数据中心连接为一个统一的系统,这是 Meta 等公司支持大规模分布式 AI 训练操作所需的。根据距离,它们可以通过暗光纤或额外的基于 MGX 的交换机连接站点,实现跨地区的高速连接。

Meta 对 Spectrum-X 的 AI 采用反映了开放网络的重要性日益增加。Shainer 表示,该公司将使用 FBOSS 作为其网络操作系统,但指出 Spectrum-X 通过合作伙伴关系支持其他几种操作系统,包括 Cumulus、SONiC 和 Cisco 的 NOS。这种灵活性允许超大规模和企业使用最适合其环境的系统来标准化其基础设施。

NVIDIA 将 Spectrum-X 视为使不同规模的 AI 基础设施更高效和可访问的一种方式。Shainer 表示,以太网平台专为 AI 工作负载(如训练和推理)设计,提供高达 95%的有效带宽,远远超过传统以太网。他还补充说,NVIDIA 的合作伙伴关系