NVIDIA 推出 DoRA:一种卓越的 AI 模型微调方法

realtime news  Jun 29, 2024 15:12  UTC 07:12

1 Min Read

NVIDIA 宣布开发了一种名为 DoRA(Weight-Decomposed Low-Rank Adaptation)的新型微调方法,这是一种高效的 LoRA 替代方案。根据 NVIDIA 技术博客,DoRA 提高了 LoRA 的学习能力和稳定性,同时没有增加任何推理开销。

DoRA 的优势

DoRA 在各种大语言模型(LLM)和视觉语言模型(VLM)中表现出显著的性能提升。例如,在常识推理任务中,DoRA 在 Llama 7B 上提高了 +3.7 分,在 Llama 3 8B 上提高了 +4.4 分。此外,DoRA 在多轮基准测试、图像/视频-文本理解和视觉指导调优任务中也表现更好。

这一创新方法已被 ICML 2024 接受为口头报告,标志着其在机器学习领域的可信度和潜在影响。

DoRA 的机制

DoRA 通过将预训练权重分解为大小和方向分量来运行,并对两者进行微调。该方法利用 LoRA 进行方向适应,从而确保有效的微调。在训练过程中,DoRA 将微调后的分量重新合并到预训练权重中,从而避免了推理期间的任何额外延迟。

视觉化的 DoRA 和预训练权重之间的大小和方向差异显示,DoRA 进行了一些实质性的方向调整,而大小变化很小,类似于全微调(FT)学习模式。

模型性能表现

在各种性能基准测试中,DoRA 始终优于 LoRA。例如,在大型语言模型中,DoRA 显著增强了常识推理能力和对话/指令跟随能力。在视觉语言模型中,DoRA 在图像-文本和视频-文本理解以及视觉指导调优任务中表现出色。

大型语言模型

比较研究表明,DoRA 在常识推理基准测试和多轮基准测试中超过了 LoRA。在测试中,DoRA 在各种数据集上取得了更高的平均分,表明其具有强大的性能。

视觉语言模型

DoRA 也在视觉语言模型中表现出色,在图像-文本理解、视频-文本理解和视觉指导调优任务中优于 LoRA。该方法在多个基准测试中获得了更高的平均分,展现了其有效性。

压缩感知大语言模型

DoRA 可以集成到 QLoRA 框架中,提高低比特预训练模型的准确性。与 Answer.AI 合作的 QDoRA 项目显示,QDoRA 在 Llama 2 和 Llama 3 模型上优于 FT 和 QLoRA。

文本-图像生成

DoRA 的应用还扩展到使用 DreamBooth 进行文本-图像个性化,在 3D Icon 和 Lego 集等具有挑战性的数据集上表现出显著优于 LoRA 的结果。

影响和未来应用

DoRA 有望成为 AI 模型微调的默认选择,与 LoRA 及其变体兼容。其高效性和有效性使其成为适应基础模型到各种应用的有价值工具,包括 NVIDIA Metropolis、NVIDIA NeMo、NVIDIA NIM 和 NVIDIA TensorRT。

欲了解更多详细信息,请访问 NVIDIA 技术博客



Read More