Hugging Face 推出面向 AI 开发者的 NVIDIA NIM 推理即服务

realtime news Jul 30, 2024 15:06 UTC 07:06

1 Min Read

根据 NVIDIA 博客报道，领先的 AI 社区平台 Hugging Face 现已为开发者提供由 NVIDIA NIM 微服务驱动的推理即服务。该服务旨在通过流行的 AI 模型提高最多五倍的代币效率，并提供对 NVIDIA DGX Cloud 的即时访问。

提升 AI 模型效率

这一新服务在 SIGGRAPH 会议上宣布，使开发者能够快速部署领先的大型语言模型，包括 Llama 3 系列和 Mistral AI 模型。这些模型经过优化，使用运行在 NVIDIA DGX Cloud 上的 NVIDIA NIM 微服务。

开发者可以使用托管在 Hugging Face Hub 上的开源 AI 模型进行原型设计，并无缝部署到生产环境中。企业 Hub 用户可以利用无服务器推理，以增加灵活性、最小化基础设施开销和优化性能。

推理即服务补充了 Hugging Face 上已有的 Train on DGX Cloud 服务。此集成提供了一个集中化的中心，让开发者可以比较各种开源模型，进行实验、测试，并在 NVIDIA 加速的基础设施上部署前沿模型。

这些工具通过 Hugging Face 模型卡上的“Train”和“Deploy”下拉菜单轻松访问，使用户只需点击几下即可开始。

NVIDIA NIM 是一组 AI 微服务，包括 NVIDIA AI 基础模型和开源社区模型，这些模型使用行业标准 API 进行了推理优化。NIM 提供了更高效的代币处理，从而提高了底层 NVIDIA DGX Cloud 基础设施的效率，并加速关键 AI 应用。

例如，在作为 NIM 访问时，70 亿参数版本的 Llama 3 比在 NVIDIA H100 Tensor Core GPU 驱动的系统上进行的现成部署提供了多达5倍的更高吞吐量。

NVIDIA DGX Cloud 平台专为生成性 AI 而打造，提供开发者便捷访问可靠的加速计算基础设施。此平台支持 AI 开发的每一步，从原型设计到生产部署，而无需长期的 AI 基础设施承诺。

Hugging Face 在 NVIDIA DGX Cloud 上提供的推理即服务，由 NIM 微服务驱动，便捷地访问了为 AI 部署优化的计算资源。它使用户能够在企业级环境中使用最新的 AI 模型进行实验。

在 SIGGRAPH 会议上，NVIDIA 还推出了用于 OpenUSD 框架的生成性 AI 模型和 NIM 微服务。这旨在加速开发者构建高度精确的虚拟世界的能力，为 AI 的下一次演进奠定基础。

欲了解更多信息，请访问官方 NVIDIA 博客。