NVIDIA 的 TensorRT-LLM 多模块注意力在 HGX H200 上提升 AI 推理性能

NEW

NVIDIA 的 TensorRT-LLM 多模块注意力在 HGX H200 上提升 AI 推理性能 - Blockchain.News

在 AI 推理方面的重大进展中，NVIDIA 推出了其 TensorRT-LLM 多模块注意力功能，这显著增强了 NVIDIA HGX H200 平台的吞吐量。根据NVIDIA的说法，这项创新在长序列长度情况下将吞吐量提高了 3 倍以上，以应对现代生成式 AI 模型日益增长的需求。

生成式 AI 的进步

生成式 AI 模型的快速发展，以 Llama 2 和 Llama 3.1 系列为例，引入了具有显著更大上下文窗口的模型。例如，Llama 3.1 模型支持最长可达 128,000 个标记的上下文长度。这种扩展使得 AI 模型能够在广泛的数据集上执行复杂的认知任务，但也在 AI 推理环境中带来了独特的挑战。

AI 推理的挑战

AI 推理，特别是长序列长度情况下，遇到了低延迟需求和小批量大小等障碍。传统的 GPU 部署方法往往未能充分利用 NVIDIA GPU 的流多处理器 (SMs)，尤其是在推理的解码阶段。这种不充分利用影响了整个系统的吞吐量，因为仅有少部分 GPU 的 SMs 被使用，导致许多资源闲置。

多模块注意力解决方案

NVIDIA 的 TensorRT-LLM 多模块注意力通过最大化 GPU 资源的使用来解决这些挑战。它将计算任务分解成更小的模块，并分配到所有可用的 SMs 上。这不仅减缓了内存带宽的限制，还通过在解码阶段高效利用 GPU 资源提升了吞吐量。

NVIDIA HGX H200 的性能

在 NVIDIA HGX H200 上实施的多模块注意力表现出了显著的结果。在低延迟场景下，它使得系统能够生成长序列查询时每秒最多 3.5 倍的标记数。即使采用模型并行化，导致使用一半的 GPU 资源，依然能观察到 3 倍的性能提升，而不会影响第一个标记产生的时间。

意义及未来展望

这一 AI 推理技术的进步使现有系统能够支持更大的上下文长度，无需额外的硬件投资。TensorRT-LLM 多模块注意力默认激活，为具有广泛上下文需求的 AI 模型显著提升了性能。这一发展体现了 NVIDIA 在推进 AI 推理能力方面的承诺，实现对复杂 AI 模型更高效的处理。

Image source: Shutterstock

Flash News

Crypto Rover Highlights Bitcoin Price Surge as Top Priority for Male Traders in 2025

4/30/2025 1:42:00 PM

Ethereum (ETH) Price Consolidation Signals Potential Breakout: Key Trading Levels and Liquidity Insights

4/30/2025 1:32:00 PM

Trump Comments Signal Potential Stock Market Volatility as Tariffs Loom – Trading Insights and Economic Impact

4/30/2025 1:32:00 PM

$500 Waifu Clash Jackpot Winner Revealed: Key Insights for Crypto Gaming Traders

4/30/2025 1:30:06 PM

BTC Correlation Patterns: Equities During US Hours, Gold After Hours – Trading Analysis by Skew Δ

4/30/2025 1:26:00 PM

Email us at info@blockchain.news