Paper: DoRA: Weight-Decomposed Low-Rank Adaptation

Apr 8, 2026

一句话概括

DoRA将预训练权重矩阵分解为幅度（magnitude）和方向（direction）两个独立分量，在方向分量上应用LoRA更新，实现了比标准LoRA更接近全量微调的优秀效果。

核心思想

DoRA的灵感来源于对全量微调与LoRA微调行为差异的深入分析研究。研究者发现，全量微调倾向于同时灵活调整权重的幅度和方向两个维度，而标准LoRA主要改变方向分量、对幅度的调整能力严重不足。DoRA的解决方案是：将权重矩阵W分解为幅度向量m和单位方向矩阵V（即W = m · V/

V

），然后仅对方向V应用LoRA低秩更新，同时让幅度m作为独立的可训练参数自由优化。这种分解使得两个维度可以各自以最优的方式进行学习。

关键创新

1) 深入揭示了LoRA与全量微调在幅度-方向分解空间中的学习模式本质差异；2) 权重分解使得幅度和方向可以完全独立地优化，显著增加了模型的表达能力；3) 相比标准LoRA仅增加极少量参数开销，但性能提升显著且稳定。

深远影响

DoRA进一步缩小了参数高效微调与全量微调之间的性能差距。它的分析方法论——从幅度和方向两个正交维度来理解权重更新行为——为后续的PEFT方法设计提供了新的理论分析工具和设计指导原则。

启发与思考

DoRA的成功有力说明了”深入理解问题往往比直接尝试解决问题更重要”。通过深入分析LoRA的具体不足之处和根本原因，改进方案几乎自然而然地浮现。这种先精准诊断后对症下药的研究方法，比盲目尝试各种新架构更加高效也更有说服力。