NVIDIA NIM 微服务提升大语言模型推理效率

NEW

NVIDIA NIM 微服务提升大语言模型推理效率 - Blockchain.News

随着大语言模型（LLM）以空前的速度不断发展，企业越来越关注构建最大化吞吐量和最小化延迟的生成型 AI 应用程序，据 NVIDIA 技术博客报道。这些优化对于降低运营成本和提供优越的用户体验至关重要。

衡量成本效率的关键指标

当用户向 LLM 发送请求时，系统会处理该请求并通过输出一系列标记生成响应。通常会同时处理多个请求以最小化等待时间。吞吐量 测量每单位时间内成功操作的数量，例如每秒标记数，这对于确定企业如何并发处理用户请求至关重要。

延迟通过首标记时间（TTFT）和标记间延迟（ITL）来衡量，表示在数据传输前或传输之间的延迟。较低的延迟可确保顺畅的用户体验和高效的系统性能。TTFT 测量模型在接收请求后生成第一个标记所需的时间，而 ITL 是指生成连续标记之间的时间间隔。

平衡吞吐量和延迟

企业必须根据并发请求的数量和延迟预算（即用户可接受的延迟量）来平衡吞吐量和延迟。增加并发请求的数量可以提高吞吐量，但也可能增加单个请求的延迟。相反，保持设定的延迟预算可以通过优化并发请求的数量来最大化吞吐量。

随着并发请求数量的增加，企业可以部署更多 GPU 以保持吞吐量和用户体验。例如，一个在高峰时段处理激增购物请求的聊天机器人需要多个 GPU 以维持最佳性能。

NVIDIA NIM 如何优化吞吐量和延迟

NVIDIA NIM 微服务提供了一种维持高吞吐量和低延迟的解决方案。NIM 通过运行时优化、智能模型表示和定制的吞吐量和延迟配置文件来优化性能。NVIDIA TensorRT-LLM 通过调整 GPU 数量和批量大小等参数进一步提升模型性能。

NIM 是 NVIDIA AI 企业套件的一部分，经过广泛调整以确保每个模型的高性能。通过张量并行性和飞行中批处理等技术并行处理多个请求，最大化 GPU 利用率，提升吞吐量并减少延迟。

NVIDIA NIM 性能

使用 NIM 后，企业报告了吞吐量和延迟的显著提升。例如，NVIDIA Llama 3.1 8B Instruct NIM 相较于最佳的开源替代方案，吞吐量提升了 2.5 倍，TTFT 加快了 4 倍，ITL 提高了 2.2 倍。一个现场演示显示，NIM 开启时的输出速度比关闭时快 2.4 倍，展示了 NIM 优化技术带来的效率提升。

NVIDIA NIM 在企业 AI 领域设立了新的标准，提供了无与伦比的性能、易用性和成本效率。希望提升客户服务、简化运营或在行业中创新的企业可以受益于 NIM 强大的、可扩展的和安全的解决方案。

Image source: Shutterstock

Flash News

Justin Sun Welcomes Influencer iShowSpeed to Hong Kong Amidst Crypto Discussions

4/4/2025 3:05:11 PM

Kobeissi Letter Highlights Successful Technical Trading Amidst Market Volatility

4/4/2025 3:04:16 PM

Whale Purchases 11,463 ETH Worth $20.78M at $1,813 Each

4/4/2025 2:59:50 PM

Whale Purchases 11,463 ETH at $1,813 Each, Spending $20.78M

4/4/2025 2:59:50 PM

Impact of Tariffs on Markets and Stability of Bitcoin

4/4/2025 2:59:26 PM

Email us at info@blockchain.news