NVIDIA 发布 Mistral-NeMo-Minitron 8B:高精度紧凑语言模型

realtime news  Aug 22, 2024 08:32  UTC 00:32

1 Min Read

生成型 AI 的开发人员通常在模型大小和准确性之间面临权衡。但是,NVIDIA 最新发布的一款语言模型能够在紧凑的形式下提供最先进的精度,兼得两全其美。

Mistral-NeMo-Minitron 8B 是上个月由 Mistral AI 和 NVIDIA 发布的开放式 Mistral NeMo 12B 模型的迷你版本,小到可以在由 NVIDIA RTX 驱动的工作站上运行,同时在多个 AI 驱动的聊天机器人、虚拟助手、内容生成器和教育工具的基准上表现出色。Minitron 模型由 NVIDIA 使用 NVIDIA NeMo 蒸馏而成,这是一个开发定制生成 AI 的端到端平台。

NVIDIA 应用深度学习研究副总裁 Bryan Catanzaro 表示:“我们结合了两种不同的 AI 优化方法——剪枝将 Mistral NeMo 的 120 亿参数缩减到 80 亿,并通过蒸馏提高精度。这样,Mistral-NeMo-Minitron 8B 能在较低的计算成本下提供与原始模型相当的准确性。”

与其更大的对手不同,小型语言模型可以在工作站和笔记本电脑上实时运行。这使得资源有限的组织更容易在其基础设施中部署生成型 AI 功能,同时优化成本、运营效率和能源使用。在边缘设备上本地运行语言模型还带来了安全方面的好处,因为数据不需要从边缘设备传输到服务器。

开发人员可以通过标准应用程序编程接口(API)作为 NVIDIA NIM 微服务来开始使用 Mistral-NeMo-Minitron 8B——或者可以从 Hugging Face 下载模型。一个可以在几分钟内部署到任何 GPU 加速系统上的可下载 NVIDIA NIM 也将很快上线。

80 亿参数的最先进表现

对于其大小的模型,Mistral-NeMo-Minitron 8B 在 九个常见的语言模型基准测试中表现领先。 这些基准测试涵盖了各种任务,包括语言理解、常识推理、数学推理、摘要、编码和生成真实答案的能力。

作为 NVIDIA NIM 微服务打包,模型优化了低延迟,这意味着用户可以获得更快的响应时间;高吞吐量则意味着在生产中的更高计算效率。

在某些情况下,开发人员可能希望使用更小版本的模型在智能手机或像机器人这样的嵌入设备上运行。为此,他们可以下载 80 亿参数的模型,并使用 NVIDIA AI Foundry 将其剪枝和蒸馏成一个更小、更优化的神经网络,针对企业特定应用进行定制。

AI Foundry 平台和服务为开发人员提供了一个完整的解决方案,可以将定制的基础模型打包为 NIM 微服务。它包括流行的基础模型、NVIDIA NeMo 平台以及 NVIDIA DGX Cloud 上的专用容量。使用 NVIDIA AI Foundry 的开发人员还可以访问 NVIDIA AI Enterprise,这是一个为生产部署提供安全性、稳定性和支持的软件平台。

由于最初的 Mistral-NeMo-Minitron 8B 模型从最先进的准确性基线开始,因此使用 AI Foundry 缩小后的版本仍然可以在训练数据和计算基础设施上提供高精度。

利用剪枝和蒸馏的优势

为了在更小的模型中实现高精度,团队使用了剪枝和蒸馏相结合的过程。剪枝通过移除对精度贡献最小的模型权重来缩小神经网络。在蒸馏过程中,团队重新训练了这个剪枝模型,使用小数据集显著提高了通过剪枝过程下降的精度。

最终结果是一个更小、更高效的模型,其预测精度与其更大的对手相当。

这一技术意味着需要一小部分原始数据集来训练一个相关模型家族中的每一个额外模型,与从头开始训练一个小模型相比,剪枝和蒸馏一个大模型节省了高达 40 倍的计算成本。

这周,NVIDIA 还宣布了另一款小型语言模型 Nemotron-Mini-4B-Instruct,优化了低内存使用和更快的响应时间,适用于NVIDIA GeForce RTX AI 电脑和笔记本。该模型作为 NIM 微服务提供,可用于云端和本地设备部署,是 NVIDIA ACE 的一部分,这是一套由生成型 AI 驱动的数字人类技术,提供语音、智能和动画。

通过浏览器或 API 以 NIM 微服务体验两种模型请访问 ai.nvidia.com



Read More