NVIDIA 的 TensorRT-LLM 多模块注意力在 HGX H200 上提升 AI 推理性能

realtime news Nov 22, 2024 09:53 UTC 01:53

1 Min Read

在 AI 推理方面的重大进展中，NVIDIA 推出了其 TensorRT-LLM 多模块注意力功能，这显著增强了 NVIDIA HGX H200 平台的吞吐量。根据NVIDIA的说法，这项创新在长序列长度情况下将吞吐量提高了 3 倍以上，以应对现代生成式 AI 模型日益增长的需求。

生成式 AI 的进步

生成式 AI 模型的快速发展，以 Llama 2 和 Llama 3.1 系列为例，引入了具有显著更大上下文窗口的模型。例如，Llama 3.1 模型支持最长可达 128,000 个标记的上下文长度。这种扩展使得 AI 模型能够在广泛的数据集上执行复杂的认知任务，但也在 AI 推理环境中带来了独特的挑战。

AI 推理的挑战

AI 推理，特别是长序列长度情况下，遇到了低延迟需求和小批量大小等障碍。传统的 GPU 部署方法往往未能充分利用 NVIDIA GPU 的流多处理器 (SMs)，尤其是在推理的解码阶段。这种不充分利用影响了整个系统的吞吐量，因为仅有少部分 GPU 的 SMs 被使用，导致许多资源闲置。

多模块注意力解决方案

NVIDIA 的 TensorRT-LLM 多模块注意力通过最大化 GPU 资源的使用来解决这些挑战。它将计算任务分解成更小的模块，并分配到所有可用的 SMs 上。这不仅减缓了内存带宽的限制，还通过在解码阶段高效利用 GPU 资源提升了吞吐量。

NVIDIA HGX H200 的性能

在 NVIDIA HGX H200 上实施的多模块注意力表现出了显著的结果。在低延迟场景下，它使得系统能够生成长序列查询时每秒最多 3.5 倍的标记数。即使采用模型并行化，导致使用一半的 GPU 资源，依然能观察到 3 倍的性能提升，而不会影响第一个标记产生的时间。

意义及未来展望

这一 AI 推理技术的进步使现有系统能够支持更大的上下文长度，无需额外的硬件投资。TensorRT-LLM 多模块注意力默认激活，为具有广泛上下文需求的 AI 模型显著提升了性能。这一发展体现了 NVIDIA 在推进 AI 推理能力方面的承诺，实现对复杂 AI 模型更高效的处理。

News ▸

NVIDIA 的 TensorRT-LLM 多模块注意力在 HGX H200 上提升 AI 推理性能

生成式 AI 的进步

AI 推理的挑战

多模块注意力解决方案

NVIDIA HGX H200 的性能

意义及未来展望

Read More

NVIDIA's TensorRT-LLM Multiblock Attention Enhances AI Inference on HGX H200

Japan Faces Challenges in Crypto Money Laundering and Fraud

Leveraging NVIDIA NIM for Human-in-the-Loop AI Agent Development

NVIDIA Schedules Key Presentations for Financial Community Engagement

NVIDIA JetPack 6.1 Enhances Camera Performance and Security with fTPM