NVIDIA TensorRT-LLM 提升希伯来语 LLM 性能

realtime news  Aug 07, 2024 03:12  UTC 19:12

1 Min Read

开发高性能的希伯来语大型语言模型 (LLM) 因希伯来语的复杂性呈现出独特的挑战。希伯来语的复杂结构,加上缺少大写字母和频繁的标点符号缺失,使句子分割和准确的文本处理变得复杂。

希伯来语语言处理的挑战

希伯来语单词通过词根和模式的组合形成,这导致根据上下文同一个词可能有多种含义。此外,希伯来语句法允许灵活的词序,增加了另一层复杂性。缺少表示元音音标的符号进一步复杂了文本理解。

为了解决这些挑战,DictaLM-2.0 版本的希伯来语 LLM 套件接受了经典与现代希伯来语文本的训练。该套件在 Hugging Face 的希伯来语 LLM 排行榜上名列前茅。

通过 NVIDIA TensorRT-LLM 进行优化

NVIDIA 的 TensorRT-LLM 和 Triton Inference Server 提供了解决方案来优化和加速大规模部署希伯来语 LLM 的性能。TensorRT-LLM 是一个用于为 NVIDIA GPU 编译和优化 LLM 的开源库,而 Triton Inference Server 则简化了面向生产部署的 AI 推理工作负载。

低资源语言

像希伯来语这样的低资源语言缺乏大量的训练数据。这种高质量数字化文本数据的稀缺使得 LLM 难以捕捉非西方语言的细微差别和文化背景。因此,主要以英语文本语料库训练的 LLM 在这些语言上表现不佳。

当代 LLM 依赖于基于统计的分词方法,由于低资源语言的词元集合有限,这些方法的效果较差。这导致压缩效率较低,在生成这些语言的文本时计算复杂度增加。

优化工作流程

希伯来语 LLM 的优化过程包含几个步骤。首先,预训练于 Mistral 7B 的 DictaLM 2.0 Instruct 模型被克隆并使用 TensorRT-LLM 进行设置。然后,拉取并运行带有 TensorRT-LLM 后端的 Triton Inference Server 容器以优化模型。

创建 FP16 TensorRT-LLM 引擎

将 Hugging Face 检查点转换为 TensorRT-LLM 格式,然后构建优化引擎。使用代表性数据集进行量化后训练 (PTQ) 转为 INT4,在保持统计相似性的同时增强内存效率。

使用 Triton Inference Server 部署

构建优化引擎后,模型与 Triton Inference Server 一起部署,后者利用 TensorRT-LLM C++ 运行时进行快速推理执行。定制的分词器被设置以处理低资源语言的独特词元映射。

性能结果

在单个 NVIDIA A100 GPU 上进行的性能实验表明,与未加速的 Python 后端相比,TensorRT-LLM 在延迟方面有显著改善。TensorRT-LLM 为多个异步请求提供了有效的扩展,展示了其高效性。

结论

NVIDIA TensorRT-LLM 和 Triton Inference Server 提供了一个强有力的工具包,用于高效地优化、部署和运行 LLM。更多信息,请访问 NVIDIA 技术博客



Read More