NVIDIA NIM革新AI模型部署，优化微服务

realtime news Nov 22, 2024 07:52 UTC 23:52

1 Min Read

NVIDIA通过其NVIDIA NIM平台发布了一种变革性方法来部署微调的AI模型，根据NVIDIA的博客。该创新解决方案旨在通过提供预构建的、性能优化的推理微服务来提升企业生成AI应用。

增强的AI模型部署

对于利用特定领域数据的AI基础模型的组织，NVIDIA NIM提供了创建和部署微调模型的简化流程。这种能力对于在企业环境中高效地交付价值至关重要。该平台支持通过参数高效微调（PEFT）以及诸如持续预训练和监督微调（SFT）等方法自定义模型的无缝部署。

NVIDIA NIM通过自动构建为调整后的模型和GPU优化的TensorRT-LLM推理引擎而脱颖而出，促成单步模型部署过程。这减少了与更新推理软件配置以适应新模型权重相关的复杂性和时间。

要使用NVIDIA NIM，组织需要一个至少具有80 GB GPU内存的NVIDIA加速计算环境和git-lfs工具。还需要一个NGC API密钥以在该环境中拉取和部署NIM微服务。用户可以通过NVIDIA开发者计划或90天的NVIDIA AI企业版许可证获得访问权限。

NIM为本地推理引擎生成提供了两种性能配置文件：延迟专注型和吞吐量专注型。这些配置文件根据模型和硬件配置选择，以确保最佳性能。该平台支持创建本地构建的、优化的TensorRT-LLM推理引擎，从而快速部署定制模型，例如NVIDIA OpenMath2-Llama3.1-8B。

一旦收集到模型权重，用户可以通过简单的Docker命令部署NIM微服务。通过指定模型配置文件来根据特定性能需求量身打造部署过程，从而增强这一过程。通过Python与OpenAI库进行推理任务的方式可以实现对部署模型的交互。

通过促进高性能推理引擎微调模型的部署，NVIDIA NIM为更快、更高效的AI推理铺平了道路。无论是使用PEFT还是SFT，NIM优化的部署能力正在解锁各行业AI应用的新可能性。