NVIDIA 新发布的 Llama 3.1 系列 8B、70B 和 405B 大型语言模型 (LLM) 正在缩小专有模型和开源模型之间的差距。这一发展吸引了更多开发者和企业将这些模型集成到其 AI 应用中,NVIDIA 技术博客称。
Llama 3.1 的能力
这些模型在内容生成、编码和深度推理等各项任务上表现出色。它们可用于支持企业应用,例如聊天机器人、自然语言处理和语言翻译。Llama 3.1 405B 模型由于其广泛的训练数据,特别适合用于生成合成数据来微调其他 LLM,这在医疗、金融和零售等因合规要求而经常受限于现实数据的行业中非常有用。
此外,Llama 3.1 405B 也可使用领域特定数据进行微调,以服务于企业应用,提供更好的准确性和定制化,满足组织要求,包括领域知识、公司词汇和文化差异等。
使用 NVIDIA AI Foundry 构建定制生成 AI 模型
NVIDIA AI Foundry 是一个用于构建具有企业数据和领域特定知识的定制生成 AI 模型的平台和服务。类似于 TSMC 制造其他公司设计的芯片,NVIDIA AI Foundry 允许组织开发自己的 AI 模型。这包括 NVIDIA 创建的 AI 模型如 Nemotron 和 Edify、流行的开源基础模型、用于定制模型的 NVIDIA NeMo 软件以及在 NVIDIA DGX Cloud 上的专用容量。
该代工厂输出的性能优化定制模型被打包为 NVIDIA NIM 推理微服务,便于在任何加速云、数据中心或工作站上轻松部署。
使用 Llama 3.1 生成专有的领域合成数据
企业在缺乏领域数据或因合规和安全要求无法访问数据时经常面临挑战。Llama 3.1 405B 模型由于其增强的能力,非常适合用于生成合成数据,它能够识别复杂模式、生成高质量数据、良好地泛化、实现高效扩展、减少偏见和保护隐私。
Nemotron-4 340B 奖励模型评估由 Llama 3.1 405B 模型生成的数据,在各个类别中对其进行打分并过滤掉评分较低的数据,以提供与人类偏好一致的高质量数据集。该模型在 RewardBench 排行榜上获得了总分 92.0 的最佳表现。
使用 NVIDIA NeMo 策划、定制和评估模型
NVIDIA NeMo 是一个端到端的平台,用于开发定制生成 AI 模型。它包括用于训练、定制、检索增强生成 (RAG)、设置保护栏和工具包、数据策划工具和模型预训练的工具。NeMo 支持多种参数高效微调技术,如 p-tuning、低秩适应 (LoRA) 及其量化版本 (QLoRA)。
NeMo 还支持监督微调 (SFT) 和对齐技术,如基于人类反馈的强化学习 (RLHF)、直接偏好优化 (DPO) 和 NeMo SteerLM。这些技术使得能够引导模型响应并使其与人类偏好对齐,使 LLM 可以集成到面向客户的应用中。
使用 NVIDIA NIM 进行高性能推理
AI Foundry 的定制模型可以打包为 NVIDIA NIM 推理微服务,这是 NVIDIA AI Enterprise 的一部分,用于在云、数据中心和工作站中安全、可靠地部署高性能推理。它支持广泛的 AI 模型,包括开源基础模型,确保使用行业标准 API 无缝、可扩展的 AI 推理。
使用 NIM 可通过单条命令本地部署或在 NVIDIA 加速基础设施的 Kubernetes 上自动扩展。使用 NIM 部署指南快速入门。此外,NIM 还支持使用 LoRA 定制的模型部署。
开始构建您的定制模型
根据您在 AI 旅程中的不同位置,有不同的方法来开始。要为您的企业构建定制的 Llama NIM,请访问 NVIDIA AI Foundry 了解更多信息。在 ai.nvidia.com 上体验新的 Llama 3.1 NIM 和其他流行的基础模型。您可以直接访问模型端点或下载 NIM 并本地运行它们。
Image source: Shutterstock