大型语言模型 (LLMs) 正在迅速扩展,需要增加计算能力来处理推理请求。根据 NVIDIA 技术博客 所述,为了满足实时延迟要求并服务于日益增长的用户,需要多 GPU 计算。
多 GPU 计算的优势
即使一个大型模型能够适应于单个最先进的 GPU 的内存中,生成 tokens 的速度依赖于可用的总计算能力。结合多个最先进 GPU 的能力可以实现实时用户体验。像张量并行 (TP) 等技术可以快速处理推理请求,通过仔细选择每个模型的 GPU 数量来优化用户体验和成本。
多 GPU 推理:通信密集
多 GPU TP 推理涉及将每个模型层的计算拆分到多个 GPU 上。GPU 必须进行大量通信,共享结果以继续计算下一个模型层。这种通信是关键的,因为张量核心往往在等待数据时处于空闲状态。例如,对 Llama 3.1 70B 单个查询可能需要每个 GPU 高达 20 GB 的数据传输,突显了高带宽互连的需求。
NVSwitch:快速多 GPU LLM 推理的关键
有效的多 GPU 扩展需要每个 GPU 具有优秀的互连带宽和快速的连接性。配备了第四代 NVLink 的 NVIDIA Hopper 架构 GPU 可以以 900 GB/s 的速度通信。当与 NVSwitch 结合时,服务器中的每个 GPU 可以同时以这种速度通信,确保无阻塞的通信。像 NVIDIA HGX H100 和 H200 这样的系统,配备多个 NVSwitch 芯片,提供了显著的带宽,增强了整体性能。
性能比较
没有 NVSwitch 时,GPU 必须将带宽分配到多个点对点连接上,随着加入更多 GPU,通信速度会降低。例如,点对点架构为两个 GPU 提供的带宽仅为 128 GB/s,而 NVSwitch 提供了 900 GB/s。这个差异极大地影响了整体推理吞吐量和用户体验。原文博客中的表格展示了 NVSwitch 相对于点对点连接的带宽和吞吐量优势。
未来的创新
NVIDIA 继续使用 NVLink 和 NVSwitch 技术突破实时推理性能的界限。即将推出的 NVIDIA Blackwell 架构将配备第五代 NVLink,将速度加倍至 1,800 GB/s。此外,新的 NVSwitch 芯片和 NVLink 开关托盘将允许更大的 NVLink 域,进一步提升万亿参数模型的性能。
NVIDIA GB200 NVL72 系统连接了 36 个 NVIDIA Grace CPU 和 72 个 NVIDIA Blackwell GPU,充分体现了这些进步。该系统允许所有 72 个 GPU 作为单一单元运行,实现了比前几代快 30 倍的实时万亿参数推理。
Image source: Shutterstock