NVIDIA 推出 DoRA：一种卓越的 AI 模型微调方法

realtime news Jun 29, 2024 15:12 UTC 07:12

1 Min Read

NVIDIA 宣布开发了一种名为 DoRA（Weight-Decomposed Low-Rank Adaptation）的新型微调方法，这是一种高效的 LoRA 替代方案。根据 NVIDIA 技术博客，DoRA 提高了 LoRA 的学习能力和稳定性，同时没有增加任何推理开销。

DoRA 的优势

DoRA 在各种大语言模型（LLM）和视觉语言模型（VLM）中表现出显著的性能提升。例如，在常识推理任务中，DoRA 在 Llama 7B 上提高了 +3.7 分，在 Llama 3 8B 上提高了 +4.4 分。此外，DoRA 在多轮基准测试、图像/视频-文本理解和视觉指导调优任务中也表现更好。

这一创新方法已被 ICML 2024 接受为口头报告，标志着其在机器学习领域的可信度和潜在影响。

DoRA 通过将预训练权重分解为大小和方向分量来运行，并对两者进行微调。该方法利用 LoRA 进行方向适应，从而确保有效的微调。在训练过程中，DoRA 将微调后的分量重新合并到预训练权重中，从而避免了推理期间的任何额外延迟。

视觉化的 DoRA 和预训练权重之间的大小和方向差异显示，DoRA 进行了一些实质性的方向调整，而大小变化很小，类似于全微调（FT）学习模式。

在各种性能基准测试中，DoRA 始终优于 LoRA。例如，在大型语言模型中，DoRA 显著增强了常识推理能力和对话/指令跟随能力。在视觉语言模型中，DoRA 在图像-文本和视频-文本理解以及视觉指导调优任务中表现出色。

比较研究表明，DoRA 在常识推理基准测试和多轮基准测试中超过了 LoRA。在测试中，DoRA 在各种数据集上取得了更高的平均分，表明其具有强大的性能。

DoRA 也在视觉语言模型中表现出色，在图像-文本理解、视频-文本理解和视觉指导调优任务中优于 LoRA。该方法在多个基准测试中获得了更高的平均分，展现了其有效性。

DoRA 可以集成到 QLoRA 框架中，提高低比特预训练模型的准确性。与 Answer.AI 合作的 QDoRA 项目显示，QDoRA 在 Llama 2 和 Llama 3 模型上优于 FT 和 QLoRA。

DoRA 的应用还扩展到使用 DreamBooth 进行文本-图像个性化，在 3D Icon 和 Lego 集等具有挑战性的数据集上表现出显著优于 LoRA 的结果。

DoRA 有望成为 AI 模型微调的默认选择，与 LoRA 及其变体兼容。其高效性和有效性使其成为适应基础模型到各种应用的有价值工具，包括 NVIDIA Metropolis、NVIDIA NeMo、NVIDIA NIM 和 NVIDIA TensorRT。

欲了解更多详细信息，请访问 NVIDIA 技术博客。