NVIDIA已将Apple的ReDrafter,一种创新的投机解码技术,集成到其TensorRT-LLM库中以增强大语言模型(LLM)推理。据NVIDIA的官方博客,此次合作旨在优化NVIDIA GPU上的LLM工作负载性能。
了解ReDrafter
ReDrafter由Apple开发并开源,采用基于递归神经网络(RNN)的采样或“起草”,结合树状注意力。这种投机解码技术通过并行生成多个token,加速了LLM推理,同时保持输出质量并减少响应时间。该方法在低流量期间特别有效,利用资源实现低延迟推理。
技术集成
ReDrafter集成到TensorRT-LLM中,可在单引擎中实现起草和验证,最大限度地减少运行时开销。此更新使TensorRT-LLM在内核选择和调度上更具灵活性,优化了网络性能。TensorRT-LLM中的ReDrafter实现简化了运行时变化,并提升了与之前方法如Medusa相比的投机解码效率。
航班批处理和引擎内验证
TensorRT-LLM支持航班批处理,通过批处理上下文阶段和生成阶段请求提高吞吐量。ReDrafter的验证逻辑被合并到模型定义中,验证时需要相似的逻辑。这种方法增强了TensorRT-LLM的灵活性,使未来能够定义更复杂的模型。
性能和潜力
根据Apple的基准测试,TensorRT-LLM中的ReDrafter在NVIDIA H100 GPU上可实现高达2.7倍的吞吐量提升。影响性能的因素包括GPU利用率、平均接受率和任务特异性。投机解码特别有利于低流量场景和任务,如代码完成,这更准确地预测未来token。
未来影响
此次集成标志着LLM推理优化的重要进展。通过增强TensorRT-LLM的能力,NVIDIA和Apple的合作为开发复杂模型开辟了新的可能性。LLM社区现在可以利用这些进步,在NVIDIA GPU上部署性能无与伦比的模型。
Image source: Shutterstock