根据最近提交给MLPerf Training v4.0的结果,NVIDIA在生成式AI领域设定了新的性能和规模记录。这一成就突显了公司在AI训练基准测试,特别是在大型语言模型(LLMs)和生成式AI领域的持续统治地位。
MLPerf Training v4.0更新
由MLCommons联盟开发的MLPerf Training是评估端到端AI训练性能的行业标准基准测试。最新版本v4.0引入了两个新测试,反映了流行的行业工作负载。第一个测试测量使用低秩适应(LoRA)技术的Llama 2 70B的微调速度。第二个测试侧重于基于关系图注意网络(RGAT)实现的图神经网络(GNN)训练。
更新的测试套件包括各种工作负载,例如LLM预训练(GPT-3 175B)、LLM微调(Llama 2 70B使用LoRA)、文本到图像(Stable Diffusion v2)以及其他覆盖广泛AI应用的测试。
NVIDIA的破纪录表现
在最新的MLPerf Training回合中,NVIDIA使用其硬件和软件解决方案的全套产品实现了卓越的性能:
- NVIDIA Hopper GPU
- 第四代NVLink互连和第三代NVSwitch芯片
- NVIDIA Quantum-2 InfiniBand网络
- 优化的NVIDIA软件套件
自上轮以来,这些组件已进一步优化,使NVIDIA打破了以前的记录。例如,NVIDIA将其GPT-3 175B的训练时间从使用3,584个H100 GPU的10.9分钟缩短至使用11,616个H100 GPU的仅3.4分钟,展示了接近线性的性能扩展。
生成式AI和LLM微调
NVIDIA还在LLM微调方面设定了新记录,特别是使用Meta开发的Llama 2 70B模型。利用LoRA技术,单个配备八个H100 GPU的DGX H100在28分钟内完成了微调。使用NVIDIA H200 Tensor Core GPU将这一时间进一步缩短至24.7分钟。NVIDIA的提交还展示了可扩展性,使用1,024个H100 GPU的微调时间仅为1.5分钟。
为了取得这些成果,该公司利用了NVIDIA NeMo框架中的上下文并行能力。此外,在cuDNN中使用的FP8自注意力实现提高了八GPU规模下的性能15%。
视觉生成式AI的进展
MLPerf Training v4.0还包括基于Stable Diffusion v2的文本到图像生成式AI的基准测试。NVIDIA的提交通过广泛的软件增强(如全迭代CUDA图和为Stable Diffusion优化的分布式优化器)在相同规模下提供了高达80%的性能提升。
图神经网络训练
NVIDIA在GNN训练方面也创下了新纪录。使用8、64和512个H100 GPU,该公司在最大规模配置中实现了仅1.1分钟的记录时间。使用八个H200 Tensor Core GPU与相同规模的H100提交相比提供了47%的提升。
关键要点
NVIDIA继续在AI训练性能方面领先,展示了在各种AI工作负载中的最高多功能性和效率。公司持续优化其软件套件,确保每个GPU都有更多性能,降低训练成本并使更多要求苛刻的模型训练成为可能。
展望未来,在GTC 2024上宣布的NVIDIA Blackwell平台承诺将民主化万亿参数AI,提供高达30倍的实时万亿参数推断速度和高达4倍的万亿参数训练速度,相比NVIDIA Hopper GPU。
欲了解更多详细信息,请访问NVIDIA技术博客。
Image source: Shutterstock