NVIDIA 宣布发布一款突破性的语言模型 Llama 3.1-Nemotron-51B,该模型承诺在 AI 性能方面实现前所未有的准确性和效率。新模型源自 Meta 的 Llama-3.1-70B,采用了新颖的神经架构搜索(NAS)方法,大幅提升其准确性和效率。据NVIDIA 技术博客,即使在高负载下,该模型也可以安装在单个 NVIDIA H100 GPU 上,使其更具可访问性和成本效益。
卓越的吞吐和负载效率
Llama 3.1-Nemotron-51B 模型在推理速度上比其前代快 2.2 倍,同时保持几乎相同的准确性。这种效率使得在单个 GPU 上能够处理 4 倍的负载,这要归功于其内存占用减少和架构优化。
每美元的最佳准确性
采用大型语言模型(LLMs)的一大挑战是其推理成本。Llama 3.1-Nemotron-51B 模型通过在准确性和效率之间提供均衡的权衡,解决了这一问题,使其成为从边缘系统到云数据中心的各种应用的成本效益解决方案。对于通过 Kubernetes 和 NIM 蓝图部署多个模型,这一能力尤其有利。
简化 NVIDIA NIM 的推理过程
Nemotron 模型通过 TensorRT-LLM 引擎优化以实现更高的推理性能,并作为 NVIDIA NIM 推理微服务进行打包。这个设置简化并加速了在 NVIDIA 加速基础设施上的生成式 AI 模型的部署,包括云、数据中心和工作站。
幕后揭秘:用 NAS 构建模型
Llama 3.1-Nemotron-51B-Instruct 模型使用高效的 NAS 技术和训练方法开发,允许创建针对特定 GPU 优化的非标准 Transformer 模型。这种方法包括一个块蒸馏框架,以并行训练各种块变体,确保高效而准确的推理。
定制多样化需求的 LLMs
NVIDIA 的 NAS 方法使用户可以选择在准确性和效率之间的最佳平衡。例如,Llama-3.1-Nemotron-40B-Instruct 变体旨在优先考虑速度和成本,比其母模型速度提高 3.2 倍,而准确性略有降低。
详细结果
Llama 3.1-Nemotron-51B-Instruct 模型已在多个行业标准上进行基准测试,展示了其在各种场景中的卓越性能。它使参考模型的吞吐量翻倍,成为多个用例的成本效益方案。
Llama 3.1-Nemotron-51B-Instruct 模型为那些希望以高性价比利用高度准确的基础模型的用户和公司提供了一套新的机会。它在准确性和效率之间的平衡使其成为构建者的有吸引力选项,并展示了 NAS 方法的有效性,NVIDIA 计划将其扩展到其他模型。
Image source: Shutterstock