解码AI性能:分析NVIDIA RTX电脑上的TOPS和Tokens

realtime news  Jun 13, 2024 18:41  UTC 10:41

1 Min Read

AI个人电脑的时代已经到来,由NVIDIA RTX和GeForce RTX技术驱动。这一转变带来了评估AI加速任务的新方式,引入了一些在选择台式机和笔记本电脑时可能难以理解的新指标,根据NVIDIA博客

TOPS的出现

第一个基准是TOPS,或每秒万亿次操作。这一指标类似于引擎的马力评分,数值越高性能越好。例如,微软的Copilot+ PC系列包含的神经处理单元(NPUs)可以执行超过40 TOPS,对于轻量AI辅助任务来说已经足够。然而,NVIDIA RTX和GeForce RTX GPU提供了前所未有的性能,例如GeForce RTX 4090 GPU可提供超过1,300 TOPS的性能,这对于要求苛刻的生成式AI任务(如AI辅助的数字内容创作和大语言模型(LLMs)的查询)来说是必不可少的。

投入Tokens来使用

LLM性能用模型生成的tokens数量来衡量。Tokens可以是单词、标点符号或空白。AI性能可以用“每秒tokens(tokens per second)”来量化。另一个关键因素是批处理大小,即同时处理的输入数量。更大的批处理大小可以提高性能,但需要更多内存。RTX GPU在这方面表现出色,因为它们拥有大量的视频随机存取存储器(VRAM)、Tensor Cores和TensorRT-LLM软件。

GeForce RTX GPU提供高达24GB的高速VRAM,而NVIDIA RTX GPU则高达48GB,这使得更大批处理大小和更大模型成为可能。专用AI加速器Tensor Cores显著加快了深度学习和生成式AI模型所需的操作。使用NVIDIA TensorRT软件开发工具包(SDK)的应用程序可以在超过1亿台由RTX GPU驱动的Windows电脑和工作站上解锁最大性能。

文本到图像,比以往更快

测量图像生成速度是评估性能的另一种方法。Stable Diffusion是一种流行的基于图像的AI模型,允许用户将文本描述转换为复杂的视觉表示。使用RTX GPU,这些结果可以比在CPU或NPU上生成得更快。使用Automatic1111接口的TensorRT扩展可以进一步增强性能,使RTX用户能够利用SDXL Base检查点将提示生成的图像速度提高2倍。

另一种流行的Stable Diffusion接口ComfyUI最近添加了TensorRT加速,允许RTX用户将提示生成的图像速度提高60%,并将这些图像转换为视频的速度提高70%。新的UL Procyon AI图像生成基准测试表明,与最快的非TensorRT实现相比,GeForce RTX 4080 SUPER GPU的速度提高了50%。

TensorRT加速功能即将应用于Stable Diffusion 3,Stability AI的新文本到图像模型,性能将提高50%。TensorRT-模型优化器进一步加快了性能,速度提高70%,内存消耗减少50%。

这些进步的真正考验在于实际使用案例中。用户可以通过调整提示在RTX GPU上显著更快地精细化图像生成,每次迭代需要几秒钟,而在其他系统上可能需要几分钟。这种速度和安全性是通过在RTX驱动的电脑或工作站上本地运行实现的。

结果已经揭晓并开源

背后的AI研究人员Jan.ai最近将TensorRT-LLM集成到他们的本地聊天机器人应用程序中,并对这些优化进行了基准测试。他们发现TensorRT在相同硬件上“比llama.cpp快30-70%”,并且在连续处理运行中更加高效。该团队的方法是开源的,供其他人自行测量生成式AI性能。

从游戏到生成式AI,速度至关重要。TOPS、每秒图像(images per second)、每秒tokens(tokens per second)和批处理大小都是确定性能的重要指标。



Read More