NVIDIA NVLink 和 NVSwitch 增强了大型语言模型推理

NEW

NVIDIA NVLink 和 NVSwitch 增强了大型语言模型推理 - Blockchain.News

大型语言模型 (LLMs) 正在迅速扩展，需要增加计算能力来处理推理请求。根据 NVIDIA 技术博客所述，为了满足实时延迟要求并服务于日益增长的用户，需要多 GPU 计算。

多 GPU 计算的优势

即使一个大型模型能够适应于单个最先进的 GPU 的内存中，生成 tokens 的速度依赖于可用的总计算能力。结合多个最先进 GPU 的能力可以实现实时用户体验。像张量并行 (TP) 等技术可以快速处理推理请求，通过仔细选择每个模型的 GPU 数量来优化用户体验和成本。

多 GPU 推理：通信密集

多 GPU TP 推理涉及将每个模型层的计算拆分到多个 GPU 上。GPU 必须进行大量通信，共享结果以继续计算下一个模型层。这种通信是关键的，因为张量核心往往在等待数据时处于空闲状态。例如，对 Llama 3.1 70B 单个查询可能需要每个 GPU 高达 20 GB 的数据传输，突显了高带宽互连的需求。

NVSwitch：快速多 GPU LLM 推理的关键

有效的多 GPU 扩展需要每个 GPU 具有优秀的互连带宽和快速的连接性。配备了第四代 NVLink 的 NVIDIA Hopper 架构 GPU 可以以 900 GB/s 的速度通信。当与 NVSwitch 结合时，服务器中的每个 GPU 可以同时以这种速度通信，确保无阻塞的通信。像 NVIDIA HGX H100 和 H200 这样的系统，配备多个 NVSwitch 芯片，提供了显著的带宽，增强了整体性能。

性能比较

没有 NVSwitch 时，GPU 必须将带宽分配到多个点对点连接上，随着加入更多 GPU，通信速度会降低。例如，点对点架构为两个 GPU 提供的带宽仅为 128 GB/s，而 NVSwitch 提供了 900 GB/s。这个差异极大地影响了整体推理吞吐量和用户体验。原文博客中的表格展示了 NVSwitch 相对于点对点连接的带宽和吞吐量优势。

未来的创新

NVIDIA 继续使用 NVLink 和 NVSwitch 技术突破实时推理性能的界限。即将推出的 NVIDIA Blackwell 架构将配备第五代 NVLink，将速度加倍至 1,800 GB/s。此外，新的 NVSwitch 芯片和 NVLink 开关托盘将允许更大的 NVLink 域，进一步提升万亿参数模型的性能。

NVIDIA GB200 NVL72 系统连接了 36 个 NVIDIA Grace CPU 和 72 个 NVIDIA Blackwell GPU，充分体现了这些进步。该系统允许所有 72 个 GPU 作为单一单元运行，实现了比前几代快 30 倍的实时万亿参数推理。

Image source: Shutterstock

Flash News

Trump's World Liberty Financial Denies Ethereum Sell-off Reports

4/11/2025 8:14:56 AM

China's Response to U.S. Tariff Policies and Its Impact on Cryptocurrency Markets

4/11/2025 8:09:07 AM

China to Raise Tariffs on U.S. Goods to 125% Starting April 12th

4/11/2025 8:03:14 AM

U.S. Dollar Weakness Signals Bullish Trend for Bitcoin and Altcoins

4/11/2025 8:03:00 AM

Gate.io Rebrands to Damen, Signaling Strategic Evolution in Crypto Market

4/11/2025 7:56:26 AM

Email us at info@blockchain.news