IBM研究院推出具有投机解码功能的低成本AI推理

realtime news Jun 25, 2024 00:35 UTC 16:35

1 Min Read

IBM研究院宣布在AI推理方面取得重大突破，结合投机解码和分页注意机制，提升了大型语言模型（LLM）的成本性能。据IBM研究院称，这一发展有望使客户服务聊天机器人更加高效和经济。

近年来，LLM提高了聊天机器人理解客户查询并提供准确响应的能力。然而，这些模型的高成本和慢速响应阻碍了更广泛的AI应用。而投机解码作为一种优化技术，通过更快地生成令牌，能够将延迟减少两到三倍，从而改善客户体验。

尽管投机解码具有优势，但减少延迟通常会带来一个折衷：即通过率降低，或者说同时使用模型的用户数量减少，从而增加运营成本。IBM研究院通过将其开源的Granite 20B代码模型的延迟缩减一半，同时将处理能力提高四倍，解决了这一挑战。

投机解码：提高令牌生成效率

LLM使用的变换器架构在生成文本时效率不高。通常，需要进行一次前向传递来处理每个先前生成的令牌，然后再生成新的令牌。投机解码修改了这一过程以同时评估多个潜在的令牌。如果这些令牌得到验证，一次前向传递可以生成多个令牌，从而提高推理速度。

这一技术可以由一个较小、更高效的模型或主模型的一部分来执行。通过并行处理令牌，投机解码最大化了每个GPU的效率，潜在地将推理速度提高两到三倍。DeepMind和Google研究人员初次引入投机解码时使用了草稿模型，而较新的方法，如Medusa推理器，消除了对辅助模型的需求。

IBM研究人员通过在未来令牌相互之间进行条件设置，而不是在模型的下一个预测令牌上建立条件，改进了Medusa推理器。这一方法结合使用小批量和大批量文本的高效微调方法，使推理器的响应与LLM更为一致，大大提高了推理速度。

通常，降低LLM延迟会因增加GPU内存压力而牺牲通过率。动态批处理可以缓解这一点，但当投机解码也在争夺内存时则无济于事。IBM研究人员通过应用分页注意机制解决了这一问题，该优化技术受操作系统虚拟内存和分页概念的启发。

传统的注意算法将键值（KV）序列存储在连续的内存中，导致碎片化。而分页注意则将这些序列划分为较小的块，或者说页，根据需要访问。这种方法最大限度地减少了冗余计算，允许推理器在不重复整个KV缓存的情况下为每个预测词生成多个候选者，从而释放内存。

IBM已将投机解码和分页注意机制集成到其Granite 20B代码模型中。IBM推理器已在Hugging Face开源，使其他开发人员能够为其LLM适应这些技术。IBM计划在其watsonx平台上的所有模型中实施这些优化技术，以增强企业AI应用。