NVIDIA 和 Outerbounds 改革 LLM 驱动的生产系统
随着过去 18 个月中语言模型的迅速扩展,现在已有数百种变体,包括大型语言模型(LLM)、小型语言模型(SLM)和特定领域的模型。根据 NVIDIA 技术博客,其中许多模型可免费用于商业用途,使得使用自定义数据集进行微调变得越来越经济实惠且简单。
使用 NVIDIA NIM 构建 LLM 驱动的企业应用程序
NVIDIA NIM 提供了能够自托管 GPU 加速微服务的容器,用于预训练和定制的 AI 模型。Outerbounds 从 Netflix 衍生出来,是一个由开源框架 Metaflow 驱动的 MLOps 和 AI 平台。它们共同实现了对 LLM 和围绕它们构建的系统的高效和安全管理。
NVIDIA NIM 提供了一系列预包装和优化的社区创建的 LLM,可以在私有环境中部署,从而避免第三方服务带来的安全和数据治理问题。自发布以来,Outerbounds 一直在帮助公司开发 LLM 驱动的企业应用程序,将 NIM 集成到其平台中,以实现跨云和本地资源的安全部署。
术语 LLMOps 描述了管理大语言模型依赖项和操作的实践,而 MLOps 涵盖了监督多个领域的机器学习模型的更广泛任务。
阶段 1:开发 LLM 支持的系统
第一阶段涉及设置一个高效的开发环境,用于快速迭代和实验。NVIDIA NIM 微服务提供了可以在安全、私密环境中部署的优化 LLM。这一阶段包括微调模型、构建工作流并使用真实世界数据进行测试,同时确保数据控制并最大化 LLM 性能。
Outerbounds 帮助在公司云帐户内部署开发环境,使用现有的数据治理规则和边界。NIM 曝光了一个与 OpenAI 兼容的 API,使开发者能够使用现成框架访问私有端点。利用 Metaflow,开发者可以创建包含 NIM 微服务的端到端工作流。
阶段 2:LLM 系统的持续改进
为了确保一致、持续的改进,开发环境需要适当的版本控制、跟踪和监控。Metaflow 的内置工件和标签有助于跟踪提示、响应和使用的模型,促进开发团队之间的协作。将 LLM 作为系统的核心依赖项可以确保随着模型的发展保持稳定性。
在受控环境中部署 NIM 微服务可以可靠地管理模型生命周期,将提示和评估与确切的模型版本关联。像 Metaflow 卡片这样的监控工具可以可视化关键指标,确保系统可观测并及时解决性能问题。
阶段 3:CI/CD 和生产上线
集成持续集成和持续交付实践可确保 LLM 驱动的系统顺利上线。自动化流水线允许持续改进和更新,同时保持系统稳定性。逐步部署和 A/B 测试有助于在现场环境中管理 LLM 系统的复杂性。
隔离业务逻辑和模型,同时统一计算资源,有助于维护稳定、高可用的生产部署环境。跨开发和生产利用共享计算池,提高了 GPU 资源的利用率,降低了成本。Metaflow 事件触发器将 LLM 驱动的系统与上游数据源和下游系统集成,确保兼容性和稳定性。
结论
LLM 驱动的系统应像任何其他大型软件系统一样处理,重点放在弹性和持续改进上。NVIDIA NIM 以标准容器镜像的形式提供 LLM,实现稳定和安全的生产系统,同时不牺牲创新速度。通过采用软件工程中的最佳实践,组织可以构建适应不断变化的业务需求的强大 LLM 驱动的应用程序。
Read More
NVIDIA and Outerbounds Revolutionize LLM-Powered Production Systems
Oct 02, 2024 1 Min Read
AI Model TxGNN Utilizes Zero-Shot Learning to Repurpose Drugs for Rare Diseases
Oct 02, 2024 1 Min Read
Mocaverse and Square Enix Collaborate to Boost Web3 User Onboarding
Oct 02, 2024 1 Min Read
BNB Chain Announces Winners of 2024 Q3 Hackathon
Oct 02, 2024 1 Min Read
Bitcoin (BTC) Reaches New High: On-Chain Metrics Indicate Market Shift
Oct 02, 2024 1 Min Read