NVIDIA使用TensorRT-LLM提升Llama 3.3 70B模型性能

realtime news Dec 18, 2024 01:56 UTC 17:56

1 Min Read

Meta公司最新的Llama系列添加——Llama 3.3 70B模型，由于NVIDIA的TensorRT-LLM而获得了显著的性能提升。根据NVIDIA介绍，这次合作旨在优化大型语言模型（LLM）的推理吞吐量，使其提高至三倍。

使用TensorRT-LLM的高级优化

NVIDIA的TensorRT-LLM采用了多种创新技术来最大限度地提升Llama 3.3 70B的性能。主要优化包括飞行批处理、KV缓存和自定义FP8量化。这些技术旨在提升LLM服务的效率，减少延迟并提高GPU利用率。

飞行批处理允许多个请求同时处理，优化了服务吞吐量。通过在上下文和生成阶段交错请求，它减少延迟并提升GPU利用率。此外，KV缓存机制通过存储以前标记的键值元素节省计算资源，尽管需要仔细管理内存资源。

推测解码是一种加速LLM推理的强大方法。它允许生成多个未来标记序列，比单一自动回归解码中的标记更有效地处理。TensorRT-LLM支持各种推测解码技术，包括草稿目标、Medusa、Eagle和预见解码。

这些技术显著提高了吞吐量，如使用NVIDIA的H200 Tensor Core GPU的内部测量所示。例如，使用草稿模型将吞吐量从每秒51.14个标记提高到每秒181.74个标记，实现了3.55倍的加速。

为了实现这些性能提升，NVIDIA提供了一个全面的设置，以将草稿目标推测解码与Llama 3.3 70B模型集成。这包括下载模型检查点、安装TensorRT-LLM以及将模型检查点编译为优化的TensorRT引擎。

NVIDIA致力于推进AI技术的发展，与Meta和其他合作伙伴协作，旨在增强开放社区AI模型。TensorRT-LLM优化不仅提高了吞吐量，还降低了能耗和总拥有成本，使AI部署在各种基础设施中更为高效。

有关设置过程和其他优化的更多信息，请访问NVIDIA官方博客。