为了应对对人工智能 (AI) 工作负载日益增长的需求,NVIDIA 推出了 Spectrum-X,这是一种高性能以太网结构,旨在优化大规模 AI 运营。据NVIDIA 技术博客称,Spectrum-X 旨在满足现代 AI 工作负载的严格要求,相比传统以太网网络有较大改进。
从概念到实现的性能
由于 AI 应用需要更高的数据吞吐量和更低的延迟,传统的以太网网络难以跟上步伐。NVIDIA 的 Spectrum-X 通过结合远程直接内存访问 (RDMA)、基于遥测的拥塞控制、无损网络和动态负载平衡等进步重新构想了以太网。
尽管传统以太网可靠,但其固有的丢包问题使其在扩展分布式计算工作负载方面效果有限。Spectrum-X 通过将 NVIDIA 的以太网产品转变为高性能计算结构,解决了这些局限,能够支持加速计算的严格需求。
Spectrum-X 的主要特性
- 基于遥测的拥塞控制:高频率的遥测探测结合流量计量,确保工作负载受到保护,性能得到隔离,使不同的 AI 工作负载可以同时运行而不会性能下降。
- 无损网络:将网络配置为实现无损条件,最小化尾延迟并确保没有数据包丢失。
- 动态负载平衡:细粒度自适应路由最大化结构利用率并确保最高有效带宽,避免了静态路由的缺陷并提升整体网络性能。
Spectrum-X 伴随以色列-1 超级计算机首次亮相
NVIDIA Spectrum-X 于 2023 年 6 月在以色列-1 超级计算机上首次亮相,其性能提升了 1.6 倍。NVIDIA 团队对应用进行了严格测试和基准测试,不断优化 Spectrum-X,实现任何规模下的最低运行时间。
生态系统的采用和客户成功
以色列-1 所见的性能提升引起了 OEM、解决方案提供商和大规模云客户的极大兴趣。这导致 Spectrum-X 被广泛采用,合作伙伴将其集成到他们的数据中心解决方案中。
早期客户欢迎 Spectrum-X 优化大规模 AI 工作负载并提升数据中心性能的能力。显著例子包括与 NVIDIA 合作的 Dell AI Factory,将 Dell 的计算、存储、软件和服务与 NVIDIA 的先进 AI 基础设施结合,以及由 HPE 提供的 NVIDIA AI Computing,旨在加速生成性 AI 工业革命。
结论
NVIDIA 的 Spectrum-X 代表了以太网技术的重大进步,专为 AI 工作负载量身定制。随着 NVIDIA 不断创新,Spectrum-X 有望在 AI 工厂、生成性 AI 云和企业 AI 数据中心的发展中发挥关键作用,设定新的性能和效率标准。
有关 Spectrum-X 的更多信息,请下载NVIDIA Spectrum-X 网络平台架构:第一个专为加速 AI 工作负载设计的以太网络白皮书。
Image source: Shutterstock