在 AI 推理方面的重大进展中,NVIDIA 推出了其 TensorRT-LLM 多模块注意力功能,这显著增强了 NVIDIA HGX H200 平台的吞吐量。根据NVIDIA的说法,这项创新在长序列长度情况下将吞吐量提高了 3 倍以上,以应对现代生成式 AI 模型日益增长的需求。
生成式 AI 的进步
生成式 AI 模型的快速发展,以 Llama 2 和 Llama 3.1 系列为例,引入了具有显著更大上下文窗口的模型。例如,Llama 3.1 模型支持最长可达 128,000 个标记的上下文长度。这种扩展使得 AI 模型能够在广泛的数据集上执行复杂的认知任务,但也在 AI 推理环境中带来了独特的挑战。
AI 推理的挑战
AI 推理,特别是长序列长度情况下,遇到了低延迟需求和小批量大小等障碍。传统的 GPU 部署方法往往未能充分利用 NVIDIA GPU 的流多处理器 (SMs),尤其是在推理的解码阶段。这种不充分利用影响了整个系统的吞吐量,因为仅有少部分 GPU 的 SMs 被使用,导致许多资源闲置。
多模块注意力解决方案
NVIDIA 的 TensorRT-LLM 多模块注意力通过最大化 GPU 资源的使用来解决这些挑战。它将计算任务分解成更小的模块,并分配到所有可用的 SMs 上。这不仅减缓了内存带宽的限制,还通过在解码阶段高效利用 GPU 资源提升了吞吐量。
NVIDIA HGX H200 的性能
在 NVIDIA HGX H200 上实施的多模块注意力表现出了显著的结果。在低延迟场景下,它使得系统能够生成长序列查询时每秒最多 3.5 倍的标记数。即使采用模型并行化,导致使用一半的 GPU 资源,依然能观察到 3 倍的性能提升,而不会影响第一个标记产生的时间。
意义及未来展望
这一 AI 推理技术的进步使现有系统能够支持更大的上下文长度,无需额外的硬件投资。TensorRT-LLM 多模块注意力默认激活,为具有广泛上下文需求的 AI 模型显著提升了性能。这一发展体现了 NVIDIA 在推进 AI 推理能力方面的承诺,实现对复杂 AI 模型更高效的处理。
Image source: Shutterstock