NVIDIA GH200 NVL32:通过NVLink交换机革新首令牌生成时间性能

realtime news  Sep 27, 2024 18:00  UTC 10:00

1 Min Read

NVIDIA最新的GH200 NVL32系统在首令牌生成时间(TTFT)性能上展现了显著的飞跃,满足了如Llama 3.1和3.2等大语言模型(LLM)的不断增长需求。根据NVIDIA技术博客,该系统将显著影响实时应用,如互动语音机器人和编码助手。

首令牌生成时间(TTFT)的重要性

TTFT是LLM处理用户提示并开始生成响应所需的时间。随着LLM的复杂性不断增加,像Llama 3.1这样的模型现在具有数千亿个参数,TTFT速度的需求变得至关重要。这对需要即时响应的应用程序尤其重要,如AI驱动的客户支持和数字助手。

NVIDIA的GH200 NVL32系统由32个NVIDIA GH200 Grace Hopper超级芯片提供动力,并通过NVLink交换机连接,旨在满足这些需求。该系统利用TensorRT-LLM的改进,提供卓越的长上下文推理TTFT,使其非常适合最新的Llama 3.1模型。

实时用例和性能

像AI语音机器人和数字助手这样的应用程序需要几百毫秒范围内的TTFT以模拟自然的人类对话。例如,半秒的TTFT比五秒的TTFT显著更具用户友好性。快速的TTFT对于依赖最新信息的服务尤其重要,如使用检索增强生成(RAG)增强LLM提示的智能工作流。

NVIDIA GH200 NVL32系统即使在上下文长度很长的情况下,也能实现Llama 3.1模型的最快公开TTFT。这种性能对于需要快速和准确响应的实时应用程序至关重要。

技术规格和成就

GH200 NVL32系统连接了32个NVIDIA GH200 Grace Hopper超级芯片,每个芯片通过NVLink-C2C连接NVIDIA Grace CPU和NVIDIA Hopper GPU。这种设置允许进行高带宽、低延迟的通信,减少同步时间并最大化计算性能。该系统提供高达127 petaFLOPs的峰值FP8 AI计算性能,显著减少了长上下文需求模型的TTFT。

例如,该系统可以为具有32,768个令牌输入序列长度的Llama 3.1 70B实现仅472毫秒的TTFT。即使对于更复杂的模型,如Llama 3.1 405B,该系统在使用32,768令牌输入时也能提供约1.6秒的TTFT。

推理中的持续创新

推理仍然是创新的热点,服务技术、运行时优化等方面的进步层出不穷。像飞行批处理、预测解码和FlashAttention等技术正在使强大的AI模型的部署更加高效和具有成本效益。

NVIDIA的加速计算平台,由庞大的开发者生态系统和广泛的GPU安装基础支持,处于这些创新的最前沿。该平台与CUDA编程模型的兼容性以及与开发者社区的深入合作确保了AI能力的快速进步。

未来前景

展望未来,NVIDIA Blackwell GB200 NVL72平台承诺带来更大的进步。通过第二代Transformer引擎和第五代Tensor Cores,Blackwell提供高达20 petaFLOPs的FP4 AI计算性能,显著提升性能。该平台的第五代NVLink提供1,800 GB/s的GPU到GPU带宽,将NVLink域扩展到72个GPU。

随着AI模型的不断增长和智能工作流的普及,对GH200 NVL32和Blackwell GB200 NVL72等高性能、低延迟计算解决方案的需求将只增不减。NVIDIA的持续创新确保公司始终处于AI和加速计算的前沿。



Read More