大型语言模型(LLM)正在被企业组织广泛采用,以增强其AI应用程序。根据NVIDIA技术博客,该公司推出了新的NVIDIA NIMs(神经接口模块)用于Mistral和Mixtral模型,以简化AI项目的部署。
用于LLM的全新NVIDIA NIMs
基础模型是许多企业需求的强大起点,但它们通常需要定制才能在生产环境中获得最佳表现。NVIDIA为Mistral和Mixtral模型推出的新NIMs旨在简化这一过程,提供预构建、云原生的微服务,这些微服务可无缝集成到现有基础设施中。这些微服务会不断更新,以确保最佳性能和最新的AI推理进展。
Mistral 7B NIM
Mistral 7B Instruct模型设计用于文本生成、语言翻译和聊天机器人等任务。该模型可以在单个GPU上运行,并且在NVIDIA H100数据中心GPU上部署时,与非NIM部署相比,每秒token生成性能可提高多达2.3倍。
Mixtral-8x7B和Mixtral-8x22B NIMs
Mixtral-8x7B和Mixtral-8x22B模型采用专家混合(MoE)架构,提供快速且经济高效的推理解决方案。这些模型擅长摘要、问答和代码生成等任务,使其成为需要实时响应应用程序的理想选择。Mixtral-8x7B NIM在四个H100上可以实现多达4.1倍的吞吐量提升,而Mixtral-8x22B NIM在八个H100上可以实现多达2.9倍的内容生成和翻译用例的吞吐量提升。
通过NVIDIA NIM加速AI应用部署
开发人员可以利用NIM加速AI应用的部署,提升AI推理效率,并降低运营成本。容器化模型提供了以下几个好处:
性能和可扩展性
NIM提供低延迟、高吞吐量的AI推理,可以轻松扩展,多达5倍的Llama 3 70B NIM提供更高的吞吐量。这使得无需从头开始构建就可以实现精确、细化的模型。
易用性
通过简化的系统集成和在NVIDIA加速基础设施上的优化性能,开发人员可以快速将AI应用推向市场。API和工具设计用于企业使用,最大化AI的能力。
安全性和可管理性
NVIDIA AI Enterprise确保了AI应用和数据的稳健控制和安全性。NIM支持在任何基础设施上的灵活自托管部署,提供企业级软件、严格验证和直接访问NVIDIA AI专家的能力。
AI推理的未来:NVIDIA NIMs及其前景
NVIDIA NIM代表了AI推理的重大进步。随着对AI驱动应用需求的增长,高效部署这些应用变得至关重要。企业可以使用NVIDIA NIM将预构建的云原生微服务纳入其系统,加快产品发布,保持创新的领先地位。
AI推理的未来涉及将多个NVIDIA NIM链接起来,创建一个能协同工作并适应各种任务的微服务网络。这将彻底改变各行业对技术的使用方式。有关部署NIM推理微服务的更多信息,请访问NVIDIA技术博客。
Image source: Shutterstock