NVIDIA NIM 微服务提升大语言模型推理效率

realtime news Aug 16, 2024 20:15 UTC 12:15

1 Min Read

随着大语言模型（LLM）以空前的速度不断发展，企业越来越关注构建最大化吞吐量和最小化延迟的生成型 AI 应用程序，据 NVIDIA 技术博客报道。这些优化对于降低运营成本和提供优越的用户体验至关重要。

衡量成本效率的关键指标

当用户向 LLM 发送请求时，系统会处理该请求并通过输出一系列标记生成响应。通常会同时处理多个请求以最小化等待时间。吞吐量 测量每单位时间内成功操作的数量，例如每秒标记数，这对于确定企业如何并发处理用户请求至关重要。

延迟通过首标记时间（TTFT）和标记间延迟（ITL）来衡量，表示在数据传输前或传输之间的延迟。较低的延迟可确保顺畅的用户体验和高效的系统性能。TTFT 测量模型在接收请求后生成第一个标记所需的时间，而 ITL 是指生成连续标记之间的时间间隔。

平衡吞吐量和延迟

企业必须根据并发请求的数量和延迟预算（即用户可接受的延迟量）来平衡吞吐量和延迟。增加并发请求的数量可以提高吞吐量，但也可能增加单个请求的延迟。相反，保持设定的延迟预算可以通过优化并发请求的数量来最大化吞吐量。

随着并发请求数量的增加，企业可以部署更多 GPU 以保持吞吐量和用户体验。例如，一个在高峰时段处理激增购物请求的聊天机器人需要多个 GPU 以维持最佳性能。

NVIDIA NIM 如何优化吞吐量和延迟

NVIDIA NIM 微服务提供了一种维持高吞吐量和低延迟的解决方案。NIM 通过运行时优化、智能模型表示和定制的吞吐量和延迟配置文件来优化性能。NVIDIA TensorRT-LLM 通过调整 GPU 数量和批量大小等参数进一步提升模型性能。

NIM 是 NVIDIA AI 企业套件的一部分，经过广泛调整以确保每个模型的高性能。通过张量并行性和飞行中批处理等技术并行处理多个请求，最大化 GPU 利用率，提升吞吐量并减少延迟。

NVIDIA NIM 性能

使用 NIM 后，企业报告了吞吐量和延迟的显著提升。例如，NVIDIA Llama 3.1 8B Instruct NIM 相较于最佳的开源替代方案，吞吐量提升了 2.5 倍，TTFT 加快了 4 倍，ITL 提高了 2.2 倍。一个现场演示显示，NIM 开启时的输出速度比关闭时快 2.4 倍，展示了 NIM 优化技术带来的效率提升。

NVIDIA NIM 在企业 AI 领域设立了新的标准，提供了无与伦比的性能、易用性和成本效率。希望提升客户服务、简化运营或在行业中创新的企业可以受益于 NIM 强大的、可扩展的和安全的解决方案。

News ▸

NVIDIA NIM 微服务提升大语言模型推理效率

衡量成本效率的关键指标

平衡吞吐量和延迟

NVIDIA NIM 如何优化吞吐量和延迟

NVIDIA NIM 性能

Read More

HKMA Warns Public of Phishing Scams Impersonating Bank of China (Hong Kong)

NVIDIA NIM Microservices Enhance LLM Inference Efficiency at Scale

Circle Proposes New Capital-Risk Framework for Stablecoins

NVIDIA Unveils Pruning and Distillation Techniques for Efficient LLMs

Uniswap (UNI) Announces $2.35M Prize Pool for v4 Security Competition