🔔
🎄
🎁
🦌
🛷
NEW
NVIDIA的Blackwell在MLPerf训练性能上达成新里程碑 - Blockchain.News

NVIDIA的Blackwell在MLPerf训练性能上达成新里程碑

realtime news Nov 14, 2024 10:51

NVIDIA的Blackwell平台在MLPerf Training 4.1基准测试中展示了卓越的性能,通过显著的每个GPU改进提升AI训练能力。

NVIDIA的Blackwell在MLPerf训练性能上达成新里程碑

NVIDIA的博客称,NVIDIA的Blackwell平台在MLPerf Training 4.1行业基准测试中创造了新的标准,在各种工作负载中展现了出色的成果。该平台在大型语言模型(LLM)基准测试中每GPU性能提高了多达2.2倍,特别是在Llama 2 70B微调和GPT-3 175B预训练中表现出色。

Blackwell的长足进展

Blackwell架构首次向MLCommons联盟提交,强调其在提升生成式AI训练性能中的作用。实现这一成就的关键是优化Tensor Cores使用的新内核,Tensor Cores是许多深度学习算法背后的基本数学运算。此优化使Blackwell能够在利用更大更快的高带宽内存的同时,每GPU实现更高的计算吞吐量。

值得注意的是,该平台能够仅用64个GPU运行GPT-3 LLM基准测试,保持了卓越的每GPU性能。相比之下,相同任务在Hopper平台上需要256个GPU,凸显了Blackwell的优越效率和能力。

不懈的优化

NVIDIA通过持续的软件开发,继续提升其平台的性能和功能,适用于广泛的框架和应用程序。最新的MLPerf培训提交展示了自该基准测试引入以来,Hopper上的GPT-3 175B每GPU训练性能提高了1.3倍。

此外,通过使用11616个Hopper GPU,利用NVIDIA NVLink和NVSwitch进行高带宽通信,以及NVIDIA Quantum-2 InfiniBand网络,实现了大规模的结果。与前一年相比,此设置在GPT-3 175B基准测试上的规模和性能增加了三倍以上。

合作共赢

NVIDIA的成功也体现在其合作伙伴的贡献中,包括ASUSTek、Azure、思科、戴尔、富士通等主要系统制造商和云服务提供商,均向MLPerf提交了令人印象深刻的结果。作为MLCommons的创始成员,NVIDIA强调了AI计算行业标准基准测试的重要性,为公司提供了做出明智平台投资决策的关键数据。

通过持续的进步和优化,NVIDIA的加速计算平台正在AI培训中设定新的基准,为合作伙伴和客户提供增强的性能和更高的投资回报。

Image source: Shutterstock