NVIDIA GH200 NVL32：通过NVLink交换机革新首令牌生成时间性能

realtime news Sep 27, 2024 18:00 UTC 10:00

1 Min Read

NVIDIA最新的GH200 NVL32系统在首令牌生成时间（TTFT）性能上展现了显著的飞跃，满足了如Llama 3.1和3.2等大语言模型（LLM）的不断增长需求。根据NVIDIA技术博客，该系统将显著影响实时应用，如互动语音机器人和编码助手。

首令牌生成时间（TTFT）的重要性

TTFT是LLM处理用户提示并开始生成响应所需的时间。随着LLM的复杂性不断增加，像Llama 3.1这样的模型现在具有数千亿个参数，TTFT速度的需求变得至关重要。这对需要即时响应的应用程序尤其重要，如AI驱动的客户支持和数字助手。

NVIDIA的GH200 NVL32系统由32个NVIDIA GH200 Grace Hopper超级芯片提供动力，并通过NVLink交换机连接，旨在满足这些需求。该系统利用TensorRT-LLM的改进，提供卓越的长上下文推理TTFT，使其非常适合最新的Llama 3.1模型。

实时用例和性能

像AI语音机器人和数字助手这样的应用程序需要几百毫秒范围内的TTFT以模拟自然的人类对话。例如，半秒的TTFT比五秒的TTFT显著更具用户友好性。快速的TTFT对于依赖最新信息的服务尤其重要，如使用检索增强生成（RAG）增强LLM提示的智能工作流。

NVIDIA GH200 NVL32系统即使在上下文长度很长的情况下，也能实现Llama 3.1模型的最快公开TTFT。这种性能对于需要快速和准确响应的实时应用程序至关重要。

技术规格和成就

GH200 NVL32系统连接了32个NVIDIA GH200 Grace Hopper超级芯片，每个芯片通过NVLink-C2C连接NVIDIA Grace CPU和NVIDIA Hopper GPU。这种设置允许进行高带宽、低延迟的通信，减少同步时间并最大化计算性能。该系统提供高达127 petaFLOPs的峰值FP8 AI计算性能，显著减少了长上下文需求模型的TTFT。

例如，该系统可以为具有32,768个令牌输入序列长度的Llama 3.1 70B实现仅472毫秒的TTFT。即使对于更复杂的模型，如Llama 3.1 405B，该系统在使用32,768令牌输入时也能提供约1.6秒的TTFT。

推理中的持续创新

推理仍然是创新的热点，服务技术、运行时优化等方面的进步层出不穷。像飞行批处理、预测解码和FlashAttention等技术正在使强大的AI模型的部署更加高效和具有成本效益。

NVIDIA的加速计算平台，由庞大的开发者生态系统和广泛的GPU安装基础支持，处于这些创新的最前沿。该平台与CUDA编程模型的兼容性以及与开发者社区的深入合作确保了AI能力的快速进步。

未来前景

展望未来，NVIDIA Blackwell GB200 NVL72平台承诺带来更大的进步。通过第二代Transformer引擎和第五代Tensor Cores，Blackwell提供高达20 petaFLOPs的FP4 AI计算性能，显著提升性能。该平台的第五代NVLink提供1,800 GB/s的GPU到GPU带宽，将NVLink域扩展到72个GPU。

随着AI模型的不断增长和智能工作流的普及，对GH200 NVL32和Blackwell GB200 NVL72等高性能、低延迟计算解决方案的需求将只增不减。NVIDIA的持续创新确保公司始终处于AI和加速计算的前沿。

News ▸

NVIDIA GH200 NVL32：通过NVLink交换机革新首令牌生成时间性能

首令牌生成时间（TTFT）的重要性

实时用例和性能

技术规格和成就

推理中的持续创新

未来前景

Read More

NVIDIA GH200 NVL32: Revolutionizing Time-to-First-Token Performance with NVLink Switch

Tether Assists in Major Crypto Money Laundering Bust with Dutch Authorities and U.S. Secret Service

Ethereum Developers Discuss Key Upgrades in Latest ACDE Call

AssemblyAI Launches Postman Collection for Enhanced API Testing

OFAC Sanctions Russian Exchange Cryptex and Facilitator UAPS, FinCEN Targets PM2BTC