NVIDIA 发布 GenAI-Perf 用于优化生成式 AI 模型性能

NEW

NVIDIA 发布 GenAI-Perf 用于优化生成式 AI 模型性能 - Blockchain.News

NVIDIA 推出了一款名为 GenAI-Perf 的新工具，旨在提升生成式 AI 模型的性能测量和优化。据 NVIDIA 技术博客报道，该工具集成在最新发布的 NVIDIA Triton 中，旨在帮助机器学习工程师找到延迟和吞吐量之间的最佳平衡，特别是对于大型语言模型（LLMs）来说至关重要。

LLM 性能的关键指标

在处理 LLM 时，性能指标不仅限于传统的延迟和吞吐量。关键指标包括：

首个 token 时间：从发送请求到接收首个响应之间的时间。
输出 token 吞吐量：每秒生成的输出 token 数量。
token 间延迟：中间响应之间的时间除以生成的 token 数量。

这些指标对于快速和一致性能至关重要，其中首个 token 时间往往是最高优先级。

介绍 GenAI-Perf

GenAI-Perf 旨在准确测量这些特定指标，帮助用户确定优化配置以达到最佳性能和成本效益。该工具支持行业标准数据集，如 OpenOrca 和 CNN_dailymail，并通过兼容 OpenAI 的 API 促进各类推理引擎的标准化性能评估。

GenAI-Perf 旨在成为所有 NVIDIA 生成式 AI 产品的默认基准测试工具，包括 NVIDIA NIM、NVIDIA Triton 推理服务器和 NVIDIA TensorRT-LLM。这使得支持 OpenAI 兼容 API 的不同服务解决方案之间易于进行比较。

支持的端点和使用方法

目前，GenAI-Perf 支持三个 OpenAI 端点 API：Chat、Chat Completions 和 Embeddings。随着新模型类型的出现，将引入更多端点。GenAI-Perf 也是开源的，接受社区贡献。

要开始使用 GenAI-Perf，用户可以从 NVIDIA GPU 云安装最新的 Triton 推理服务器 SDK 容器。运行容器和服务器需要特定命令，这些命令根据所使用的模型类型而定，例如，用于 chat 和 chat-completion 端点的 GPT2，以及用于 embeddings 的 intfloat/e5-mistral-7b-instruct。

分析和结果

对于分析符合 OpenAI chat 的模型，用户可以运行特定命令来测量性能指标，如请求延迟、输出序列长度和输入序列长度。GPT2 的样本结果显示如下指标：

请求延迟（毫秒）： 平均 1679.30，最小值 567.31，最大值 2929.26。
输出序列长度： 平均 453.43，范围从 162 到 784。
输出 token 吞吐量（每秒）： 269.99。

同样，对于分析符合 OpenAI embeddings 的模型，用户可以生成一个包含样本文本的 JSONL 文件并运行 GenAI-Perf 以获得请求延迟和请求吞吐量等指标。

结论

GenAI-Perf 提供了一个综合解决方案，用于基准测试生成式 AI 模型，提供对关键性能指标的洞察并促进优化。作为一个开源工具，它允许不断改进并适应新的模型类型和需求。

Image source: Shutterstock

Flash News

Gate.io Launches $100K $EDGE Airdrop for $GT Holders Amidst Low Market Volume

4/1/2025 9:53:59 AM

Bitcoin Cycle Top Not Yet Reached: On-Chain Indicators Analysis

4/1/2025 9:41:00 AM

Aggregated RFQ Enhances SMA Trading Efficiency

4/1/2025 9:39:57 AM

KookCapitalLLC Asserts Unique Status of Bitcoin and Fartcoin

4/1/2025 9:27:25 AM

Gold Price Stability Indicates Reduced Market Uncertainty Ahead of Tariff Announcements

4/1/2025 9:15:00 AM

Email us at info@blockchain.news