Meta 的 Llama 系列大型语言模型(LLMs)已成为开源社区的基石,支持全球范围内的多种用例。根据 NVIDIA 技术博客,最新版本的 Llama 3.1 通过利用 NVIDIA 的先进 GPU 平台,进一步提升了这一地位。
增强的训练和安全性
Meta 工程师使用 NVIDIA H100 张量核心 GPU 对 Llama 3.1 进行训练,优化了超过 16,000 个 GPU 的训练过程。这是 Llama 模型首次在如此大规模上进行训练,由 405B 变体为主导。合作目的是通过引入一套信任和安全模型,确保 Llama 3.1 模型的安全和可信赖性。
针对 NVIDIA 平台优化
Llama 3.1 系列模型针对 NVIDIA 广泛的 GPU 平台进行了优化,从数据中心到边缘设备和 PC 不等。这种优化包括对嵌入模型、检索增强生成(RAG)应用和模型准确性评估的支持。
利用 NVIDIA 软件进行构建
NVIDIA 提供了全面的软件套件以促进 Llama 3.1 的采用。高质量的数据集至关重要,NVIDIA 通过提供合成数据生成(SDG)管道来解决这一问题。该管道基于 Llama 3.1,允许开发人员创建定制的高质量数据集。
数据生成阶段利用 Llama 3.1-405B 模型作为生成器,而 Nemotron-4 340B 奖励模型评估数据质量。这确保了生成的数据集符合人类的偏好。NVIDIA NeMo 平台进一步帮助策划、定制和评估这些数据集。
NVIDIA NeMo
NeMo 平台为开发定制生成 AI 模型提供端到端解决方案。它包括数据策划、模型定制和响应对齐人类偏好的工具。NeMo 还支持检索增强生成、模型评估和编程保护措施的引入,以确保安全和可靠性。
广泛的推理优化
Meta 的 Llama 3.1-8B 模型现已针对 NVIDIA GeForce RTX PC 和 NVIDIA RTX 工作站的推理进行了优化。TensorRT 模型优化器将这些模型量化为 INT4,通过减少内存带宽瓶颈来提升性能。这些优化由 NVIDIA TensorRT-LLM 软件本地支持。
这些模型还针对 NVIDIA Jetson Orin 进行了优化,目标是机器人和边缘计算设备。所有 Llama 3.1 模型支持 128K 上下文长度,并且以 BF16 精度提供基础和指令变体。
TensorRT-LLM 的最大性能
TensorRT-LLM 将 Llama 3.1 模型编译成优化的 TensorRT 引擎,最大化推理性能。这些引擎使用模式匹配和融合技术来提高效率。这些模型还支持 FP8 精度,在不影响准确性的情况下进一步减少内存占用。
对于 Llama 3.1-405B 模型,TensorRT-LLM 引入了行级粒度的 FP8 量化,保持高准确性。NVIDIA NIM 推理微服务将这些优化捆绑在一起,加速生成 AI 模型在各种平台上的部署。
NVIDIA NIM
NVIDIA NIM 支持 Llama 3.1 的生产部署,提供动态 LoRA 适配器选择,通过单一基础模型服务多个用例。这通过多级缓存系统来管理 GPU 和主机内存中的适配器。
未来前景
NVIDIA 与 Meta 在 Llama 3.1 上的合作展示了 AI 模型优化和部署方面的重要进展。借助 NVIDIA 加速计算平台,开发人员可以在各种平台上构建强大的模型和应用,从数据中心到边缘设备。
NVIDIA 继续为开源社区做出贡献,推进生成 AI 的能力。更多详情,请访问 NVIDIA AI 平台。
Image source: Shutterstock