NVIDIA 发布 GenAI-Perf 用于优化生成式 AI 模型性能
NVIDIA 推出了一款名为 GenAI-Perf 的新工具,旨在提升生成式 AI 模型的性能测量和优化。据 NVIDIA 技术博客 报道,该工具集成在最新发布的 NVIDIA Triton 中,旨在帮助机器学习工程师找到延迟和吞吐量之间的最佳平衡,特别是对于大型语言模型(LLMs)来说至关重要。
LLM 性能的关键指标
在处理 LLM 时,性能指标不仅限于传统的延迟和吞吐量。关键指标包括:
- 首个 token 时间:从发送请求到接收首个响应之间的时间。
- 输出 token 吞吐量:每秒生成的输出 token 数量。
- token 间延迟:中间响应之间的时间除以生成的 token 数量。
这些指标对于快速和一致性能至关重要,其中首个 token 时间往往是最高优先级。
介绍 GenAI-Perf
GenAI-Perf 旨在准确测量这些特定指标,帮助用户确定优化配置以达到最佳性能和成本效益。该工具支持行业标准数据集,如 OpenOrca 和 CNN_dailymail,并通过兼容 OpenAI 的 API 促进各类推理引擎的标准化性能评估。
GenAI-Perf 旨在成为所有 NVIDIA 生成式 AI 产品的默认基准测试工具,包括 NVIDIA NIM、NVIDIA Triton 推理服务器和 NVIDIA TensorRT-LLM。这使得支持 OpenAI 兼容 API 的不同服务解决方案之间易于进行比较。
支持的端点和使用方法
目前,GenAI-Perf 支持三个 OpenAI 端点 API:Chat、Chat Completions 和 Embeddings。随着新模型类型的出现,将引入更多端点。GenAI-Perf 也是开源的,接受社区贡献。
要开始使用 GenAI-Perf,用户可以从 NVIDIA GPU 云安装最新的 Triton 推理服务器 SDK 容器。运行容器和服务器需要特定命令,这些命令根据所使用的模型类型而定,例如,用于 chat 和 chat-completion 端点的 GPT2,以及用于 embeddings 的 intfloat/e5-mistral-7b-instruct。
分析和结果
对于分析符合 OpenAI chat 的模型,用户可以运行特定命令来测量性能指标,如请求延迟、输出序列长度和输入序列长度。GPT2 的样本结果显示如下指标:
- 请求延迟(毫秒): 平均 1679.30,最小值 567.31,最大值 2929.26。
- 输出序列长度: 平均 453.43,范围从 162 到 784。
- 输出 token 吞吐量(每秒): 269.99。
同样,对于分析符合 OpenAI embeddings 的模型,用户可以生成一个包含样本文本的 JSONL 文件并运行 GenAI-Perf 以获得请求延迟和请求吞吐量等指标。
结论
GenAI-Perf 提供了一个综合解决方案,用于基准测试生成式 AI 模型,提供对关键性能指标的洞察并促进优化。作为一个开源工具,它允许不断改进并适应新的模型类型和需求。
Read More
Circle's Euro-Backed Stablecoin EURC Launches on Base
Aug 01, 2024 1 Min Read
IOTA Community Allocates Funds to Boost EVM Ecosystem
Aug 01, 2024 1 Min Read
Binance Schedules Brief System Upgrade for Spot and Margin Trading
Aug 01, 2024 1 Min Read
GeForce NOW to Introduce 18 New Games in August 2024
Aug 01, 2024 1 Min Read
CoreWeave Appoints Jeff Baker as New Chief Accounting Officer
Aug 01, 2024 1 Min Read