NVIDIA NIM 微服务提升大语言模型推理效率 - Blockchain.News

NVIDIA NIM 微服务提升大语言模型推理效率

realtime news Aug 16, 2024 12:15

NVIDIA NIM 微服务优化大语言模型的吞吐量和延迟,提高了 AI 应用程序的效率和用户体验。

NVIDIA NIM 微服务提升大语言模型推理效率

随着大语言模型(LLM)以空前的速度不断发展,企业越来越关注构建最大化吞吐量和最小化延迟的生成型 AI 应用程序,据 NVIDIA 技术博客 报道。这些优化对于降低运营成本和提供优越的用户体验至关重要。

衡量成本效率的关键指标

当用户向 LLM 发送请求时,系统会处理该请求并通过输出一系列标记生成响应。通常会同时处理多个请求以最小化等待时间。吞吐量 测量每单位时间内成功操作的数量,例如每秒标记数,这对于确定企业如何并发处理用户请求至关重要。

延迟 通过首标记时间(TTFT)和标记间延迟(ITL)来衡量,表示在数据传输前或传输之间的延迟。较低的延迟可确保顺畅的用户体验和高效的系统性能。TTFT 测量模型在接收请求后生成第一个标记所需的时间,而 ITL 是指生成连续标记之间的时间间隔。

平衡吞吐量和延迟

企业必须根据并发请求的数量和延迟预算(即用户可接受的延迟量)来平衡吞吐量和延迟。增加并发请求的数量可以提高吞吐量,但也可能增加单个请求的延迟。相反,保持设定的延迟预算可以通过优化并发请求的数量来最大化吞吐量。

随着并发请求数量的增加,企业可以部署更多 GPU 以保持吞吐量和用户体验。例如,一个在高峰时段处理激增购物请求的聊天机器人需要多个 GPU 以维持最佳性能。

NVIDIA NIM 如何优化吞吐量和延迟

NVIDIA NIM 微服务提供了一种维持高吞吐量和低延迟的解决方案。NIM 通过运行时优化、智能模型表示和定制的吞吐量和延迟配置文件来优化性能。NVIDIA TensorRT-LLM 通过调整 GPU 数量和批量大小等参数进一步提升模型性能。

NIM 是 NVIDIA AI 企业套件的一部分,经过广泛调整以确保每个模型的高性能。通过张量并行性和飞行中批处理等技术并行处理多个请求,最大化 GPU 利用率,提升吞吐量并减少延迟。

NVIDIA NIM 性能

使用 NIM 后,企业报告了吞吐量和延迟的显著提升。例如,NVIDIA Llama 3.1 8B Instruct NIM 相较于最佳的开源替代方案,吞吐量提升了 2.5 倍,TTFT 加快了 4 倍,ITL 提高了 2.2 倍。一个现场演示显示,NIM 开启时的输出速度比关闭时快 2.4 倍,展示了 NIM 优化技术带来的效率提升。

NVIDIA NIM 在企业 AI 领域设立了新的标准,提供了无与伦比的性能、易用性和成本效率。希望提升客户服务、简化运营或在行业中创新的企业可以受益于 NIM 强大的、可扩展的和安全的解决方案。

Image source: Shutterstock