NVIDIA GH200 超级芯片在 MLPerf Inference v4.1 中取得显著成绩

realtime news  Sep 26, 2024 22:40  UTC 14:40

1 Min Read

根据 NVIDIA 技术博客,在最新一轮的 MLPerf Inference 基准测试中,NVIDIA 平台在各种测试中表现出色。其中突出的表现者是 NVIDIA GH200 Grace Hopper 超级芯片,它通过高带宽、低延迟的 NVIDIA NVLink-C2C 互连将 NVIDIA Grace CPU 和 NVIDIA Hopper GPU 集成在一起。

GH200 超级芯片的架构创新

NVIDIA GH200 Grace Hopper 超级芯片代表了一种新型的融合 CPU 和 GPU 架构,结合了高性能和节能的 Grace CPU 与强大的 Hopper GPU。这种集成通过 NVLink-C2C 实现,提供 900 GB/s 的带宽给 GPU,大大超过了当前的服务器。这种架构使得 CPU 和 GPU 线程可以访问所有系统分配的内存,而无需在 CPU 和 GPU 之间进行数据传输,从而提高了效率和性能。

在 MLPerf Inference 基准测试中的表现

GH200 超级芯片在 MLPerf Inference v4.1 的各种生成式 AI 基准测试中表现出色。值得注意的是,在要求较高的基准测试如 Mixtral 8x7B 和 Llama 2 70B 中,它的每加速器性能比 H100 张量核心 GPU 高达 1.4 倍。此外,它在 GPT-J 基准测试中比最好的双插槽、仅 CPU 提交高出多达 22 倍。

在实时、面向用户的服务中,GH200 的性能保持在其离线能力的 5% 以内,而在最好的仅 CPU 提交中观察到 55% 的性能衰减。这使得 GH200 成为需要实时 AI 推理的生产环境中的可行选择。

GH200 NVL2:增强的功能

GH200 NVL2 在 GH200 的基础上,通过在单个节点内通过 NVLink 连接两个 GH200 超级芯片。该配置提供 8 petaflops 的 AI 性能,144 个 Arm Neoverse 内核和 960GB 的 LPDDR5X 内存。此设置中的 Hopper GPU 提供 288GB 的 HBM3e 内存和高达 10TB/s 的内存带宽,适用于大型语言模型 (LLM)、图神经网络 (GNN) 和高性能计算 (HPC) 等高性能应用。

行业采用和认可

多家行业领导者在其服务器设计中采用了 GH200 架构。惠普企业 (HPE) 和 Supermicro 是提交使用 GH200 设计结果的公司之一。HPE 的首席 AI 性能工程师 Kenneth Leach 赞扬了 GH200 NVL2 设计的高性能并将其归因于每个超级芯片的 144GB HBM3e 内存。

甲骨文云基础设施 (OCI) 也验证了 GH200 的性能,OCI 云工程高级总监 Sanjay Basu 强调了该架构在 AI 推理中的潜力以及即将推出的 Grace Blackwell 超级芯片。

总结

NVIDIA GH200 Grace Hopper 超级芯片在 MLPerf Inference v4.1 测试中设立了新的基准,提供了无与伦比的性能和效率。其创新架构和高带宽使其成为企业 AI 应用的强大解决方案,确保其在部署先进 AI 工作负载的组织中仍然是领先选择。



Read More