NVIDIA NeMo 实现 ASR 模型 10 倍速度提升

realtime news  Sep 26, 2024 22:07  UTC 14:07

1 Min Read

NVIDIA NeMo 一直在开发自动语音识别 (ASR) 模型,这些模型在行业中树立了标杆,特别是在 Hugging Face Open ASR 排行榜上名列前茅的模型。根据 NVIDIA 技术博客,最近的进展通过关键优化使这些模型的推理速度加快了最多 10 倍。

驱动速度提升的增强功能

为了实现这一显著的速度提升,NVIDIA 实施了多项增强功能,其中包括将张量自动转换为 bfloat16、创新的标签循环算法和引入 CUDA Graphs。这些改进在 NeMo 2.0.0 中可用,提供了一种快速且具有成本效益的 CPU 替代方案。

克服速度性能瓶颈

之前,有几个瓶颈阻碍了 NeMo ASR 模型的性能,例如转换开销、低计算强度和发散性能问题。通过实施全半精度推理和批处理优化,显著减少了这些瓶颈。

转换开销

自动转换行为、参数处理和频繁的缓存清理是导致转换开销的主要问题。通过转向全半精度推理,NVIDIA 在不牺牲准确性的前提下消除了不必要的转换。

优化批处理

将 CTC 贪婪解码和特征归一化等操作从顺序处理转为全批处理,提高了 10% 的吞吐量,整体速度提升约 20%。

低计算强度

由于自回归预测和联合网络,RNN-T 和 TDT 模型以前被认为不适合服务器端 GPU 推理。引入 CUDA Graphs 条件节点消除了内核启动开销,显著提高了性能。

预测网络中的发散

由于在 RNN-T 和 TDT 模型的预测网络中使用的原始贪婪搜索算法存在发散问题,导致批处理推理遇到困难。NVIDIA 引入的标签循环算法通过交换嵌套循环的角色,极大加快了解码速度。

性能和成本效益

这些增强功能使传感器模型的逆实时因子(RTFx)更接近 CTC 模型,这对较小的模型尤其有益。这些改进也带来了可观的成本节约。例如,使用 GPU 进行 RNN-T 推理最多可比基于 CPU 的解决方案节省 4.5 倍的成本。

根据 NVIDIA 的对比分析,使用 AWS 实例运行的 NVIDIA Parakeet RNN-T 1.1B 模型转录 100 万小时语音展示了显著的成本优势。基于 CPU 的转录成本为 11,410 美元,而基于 GPU 的转录成本仅为 2,499 美元。

未来展望

NVIDIA 继续优化 Canary 1B 和 Whisper 等模型,以进一步降低运行 attention-encoder-decoder 和基于语音 LLM 的 ASR 模型的成本。将 CUDA Graphs 条件节点与 TorchInductor 等编译器框架集成,预计将进一步提高 GPU 速度和效率。

欲了解更多信息,请访问 官方 NVIDIA 博客



Read More