人工智能数据中心空间耗尽时会怎样?新解决方案解读 - AI News
人工智能数据中心空间耗尽时会怎样?新解决方案解读

人工智能数据中心空间耗尽时会怎样?新解决方案解读

2025-08-25

新闻要点

AI数据中心空间不足时面临困境,NVIDIA新的Spectrum-XGS以太网技术承诺解决此挑战,它能跨远距离连接数据中心成“超工厂”。该技术有多项创新,CoreWeave将率先采用,有望改变AI数据中心规划运营方式 。

- NVIDIA推Spectrum-XGS以太网 解决AI数据中心空间难题

- 技术含距离自适应算法等多项创新

- CoreWeave将率先采用该技术

- 或改变AI数据中心规划与运营方式

主要内容

当 AI 数据中心空间耗尽时,它们面临着一个代价高昂的困境:建造更大的设施,还是找到让多个地点无缝协同工作的方法。英伟达的最新 Spectrum-XGS 以太网技术有望通过将跨广阔距离的 AI 数据中心连接成该公司所称的“千兆级 AI 超级工厂”来解决这一挑战。

在 Hot Chips 2025 之前宣布的这一网络创新,代表了该公司对一个日益严重问题的回应,这个问题正迫使 AI 行业重新思考计算能力的分配方式。问题在于:当一座建筑不够用时,随着人工智能模型变得更加复杂和要求更高,它们需要巨大的计算能力,而这往往超过任何单个设施所能提供的。传统的 AI 数据中心在电力容量、物理空间和冷却能力方面面临限制。当公司需要更多的处理能力时,通常不得不建造全新的设施,但由于网络限制,在不同地点之间协调工作一直是个问题。问题在于标准以太网基础设施,在连接遥远地点时,它存在高延迟、不可预测的性能波动(称为“抖动”)和不一致的数据传输速度等问题。这些问题使得 AI 系统难以在多个站点之间高效地分配复杂计算。

英伟达的解决方案:跨规模技术。Spectrum-XGS 以太网引入了英伟达所称的“跨规模”能力——一种补充现有“向上扩展”(使单个处理器更强大)和“向外扩展”(在同一地点添加更多处理器)策略的第三种 AI 计算方法。该技术集成到英伟达现有的 Spectrum-X 以太网平台中,并包括几项关键创新:根据设施之间的物理距离自动调整网络行为的距离自适应算法;防止长距离传输期间数据瓶颈的高级拥塞控制;确保可预测响应时间的精确延迟管理;用于实时网络监控和优化的端到端遥测。根据英伟达的公告,这些改进可以“使英伟达集体通信库的性能几乎翻倍”,该库处理多个图形处理单元(GPU)和计算节点之间的通信。

实际应用:CoreWeave 是一家专注于 GPU 加速计算的云基础设施公司,计划成为首批采用 Spectrum-XGS 以太网的公司之一。CoreWeave 的联合创始人兼首席技术官 Peter Salanki 表示:“通过英伟达 Spectrum-XGS,我们可以将我们的数据中心连接成一个单一的统一超级计算机,让我们的客户访问千兆级 AI,这将加速各个行业的突破。”这一部署将作为该技术在实际条件下能否兑现其承诺的实际测试案例。

行业背景和影响:在此公告之前,英伟达已经发布了一系列以网络为重点的产品,包括原始的 Spectrum-X 平台和 Quantum-X 硅光子交换机。这种模式表明,该公司认识到网络基础设施是 AI 发展中的一个关键瓶颈。英伟达创始人兼首席执行官 Jensen Huang 在新闻稿中表示:“AI 工业革命已经到来,巨型 AI 工厂是必不可少的基础设施。”虽然 Huang 的描述反映了英伟达的营销观点,但他所描述的潜在挑战——对更多计算能力的需求——在整个 AI 行业都得到了认可。该技术可能会潜在地影响 AI 数据中心的规划和运营方式。公司可能不再建造给当地电网和房地产市场带来压力的大型单一设施,而是分散其基础设施。