Google Cloud Run 集成 NVIDIA L4 GPU 提升 AI 推理部署

realtime news  Aug 22, 2024 16:28  UTC 08:28

1 Min Read

根据NVIDIA 技术博客的报道,Google Cloud Run 宣布集成了 NVIDIA L4 Tensor Core GPU、NVIDIA NIM 微服务,以及用于无服务器 AI 推理部署的功能。此合作旨在解决企业在部署 AI 启用应用程序时面临的性能优化、可扩展性及基础设施复杂性等挑战。

增强 AI 推理部署

Google Cloud 完全托管的无服务器容器运行时 Cloud Run,现在在预览版中支持 NVIDIA L4 Tensor Core GPU。这使企业能够按需运行实时 AI 应用程序,而无需管理基础设施的麻烦。NVIDIA NIM 微服务的集成进一步简化了 AI 模型的优化和部署,最大化应用性能并减少了复杂性。

实时 AI 启用应用程序

Cloud Run 通过根据传入流量动态分配资源来抽象基础设施管理,确保高效的扩展和资源利用。支持 NVIDIA L4 GPU 是对以前仅支持 CPU 的解决方案的重大升级,提供了比 CPU 解决方案高达 120 倍的 AI 视频性能和 2.7 倍更多的生成性 AI 推理性能。

值得注意的是,Let’s Enhance、Wombo、Writer、Descript 和 AppLovin 等公司正在利用 NVIDIA L4 GPU 为其生成性 AI 应用程序提供动力,提供增强的用户体验。

性能优化的无服务器 AI 推理

优化 AI 模型性能对资源效率和成本管理至关重要。NVIDIA NIM 提供了一组优化的云原生微服务,简化并加速了 AI 模型的部署。这些预优化的容器化模型能无缝集成到应用程序中,减少了开发时间并最大化资源效率。

在 Cloud Run 上使用 NVIDIA NIM 可以部署高性能的 AI 应用程序,使用优化的推理引擎释放 NVIDIA L4 GPU 的全部潜力,提供出色的吞吐量和延迟,而无需在推理性能优化方面的专业知识。

部署 Llama3-8B-Instruct NIM 微服务

在 NVIDIA L4 GPU 上使用 Cloud Run 部署像 Llama3-8B-Instruct 这样的模型非常简单。用户需要安装 Google Cloud SDK,并按照一系列步骤来克隆存储库、设置环境变量、编辑 Dockerfile、构建容器并使用提供的脚本进行部署。

开始使用

包括 NVIDIA NIM 和 NVIDIA L4 GPU 在内的 NVIDIA AI 平台与 Google Cloud Run 的集成解决了 AI 应用部署中的关键问题。这种协同效应加速了部署,提高了性能,确保了运营效率和成本效益。

开发者可以通过 NVIDIA API 目录原型化 NVIDIA NIM 微服务,然后下载 NIM 容器以在 Google Cloud Run 上进一步开发。为了获得企业级的安全性和支持,可获取 90 天的 NVIDIA AI 企业许可证。

目前,支持 NVIDIA L4 GPU 的 Cloud Run 在 us-central1 Google Cloud 区域内处于预览状态。有关更多信息和演示,请访问启动活动直播和注册页面。



Read More