NVIDIA通过TensorRT-LLM中的ReDrafter支持增强LLM推理

realtime news Dec 19, 2024 01:39 UTC 17:39

1 Min Read

NVIDIA已将Apple的ReDrafter，一种创新的投机解码技术，集成到其TensorRT-LLM库中以增强大语言模型（LLM）推理。据NVIDIA的官方博客，此次合作旨在优化NVIDIA GPU上的LLM工作负载性能。

了解ReDrafter

ReDrafter由Apple开发并开源，采用基于递归神经网络（RNN）的采样或“起草”，结合树状注意力。这种投机解码技术通过并行生成多个token，加速了LLM推理，同时保持输出质量并减少响应时间。该方法在低流量期间特别有效，利用资源实现低延迟推理。

技术集成

ReDrafter集成到TensorRT-LLM中，可在单引擎中实现起草和验证，最大限度地减少运行时开销。此更新使TensorRT-LLM在内核选择和调度上更具灵活性，优化了网络性能。TensorRT-LLM中的ReDrafter实现简化了运行时变化，并提升了与之前方法如Medusa相比的投机解码效率。

航班批处理和引擎内验证

TensorRT-LLM支持航班批处理，通过批处理上下文阶段和生成阶段请求提高吞吐量。ReDrafter的验证逻辑被合并到模型定义中，验证时需要相似的逻辑。这种方法增强了TensorRT-LLM的灵活性，使未来能够定义更复杂的模型。

性能和潜力

根据Apple的基准测试，TensorRT-LLM中的ReDrafter在NVIDIA H100 GPU上可实现高达2.7倍的吞吐量提升。影响性能的因素包括GPU利用率、平均接受率和任务特异性。投机解码特别有利于低流量场景和任务，如代码完成，这更准确地预测未来token。

未来影响

此次集成标志着LLM推理优化的重要进展。通过增强TensorRT-LLM的能力，NVIDIA和Apple的合作为开发复杂模型开辟了新的可能性。LLM社区现在可以利用这些进步，在NVIDIA GPU上部署性能无与伦比的模型。

News ▸

NVIDIA通过TensorRT-LLM中的ReDrafter支持增强LLM推理

了解ReDrafter

技术集成

航班批处理和引擎内验证

性能和潜力

未来影响

Read More

Imbue CEO Kanjun Qiu Discusses Future of AI Agents

Digital Avatars Revolutionize Customer Service with AI-Driven Interactivity

NVIDIA NeMo-Aligner Enhances Supervised Fine-Tuning with Data-Efficient Knowledge Distillation

Character.AI Discloses Brief User Data Exposure Incident

Hong Kong Monetary Authority Reports Successful Tender of RMB Bills