Paper: LoRA: Low-Rank Adaptation of Large Language Models


一句话概括

LoRA通过在冻结的预训练权重矩阵旁边添加可训练的低秩分解矩阵,以极少量的可训练参数实现了接近全量微调的下游任务适配效果。

核心思想

LoRA的核心假设是:模型在微调过程中权重的实际变化量具有内在的低秩结构——即真正有效的更新维度远小于权重矩阵的完整维度。基于这一洞察,LoRA将权重更新矩阵ΔW分解为两个低秩矩阵的乘积:ΔW = BA,其中B的维度为d×r,A的维度为r×k,秩r远小于d和k。训练时完全冻结原始预训练权重W,只训练低秩矩阵A和B。推理时将BA的乘积合并回W,不引入任何额外的推理延迟。

关键创新

1) 低秩分解假设优雅地将可训练参数量从O(dk)降低到O((d+k)r),降低了数个数量级;2) 训练完成后LoRA权重可直接合并回原始模型,推理时完全没有额外开销;3) 不同任务的LoRA模块可以即插即用地灵活切换,实现高效的多任务服务。

深远影响

LoRA彻底改变了大模型微调的范式和技术门槛。它使得在消费级GPU上微调数十亿甚至上百亿参数的模型成为现实,极大推动了开源模型的定制化应用生态发展。后续的QLoRA、DoRA等工作在其基础上持续改进。

启发与思考

LoRA的成功揭示了一个深刻的现象:虽然大模型拥有数十亿参数,但微调的有效自由度可能只有几千维。这暗示模型的”任务适配空间”远小于”完整参数空间”,也为我们理解大模型的泛化能力和内部结构提供了全新视角。