Paper: LoRA: Low-Rank Adaptation of Large Language Models

Apr 6, 2026

一句话概括

LoRA通过在冻结的预训练权重矩阵旁边添加可训练的低秩分解矩阵，以极少量的可训练参数实现了接近全量微调的下游任务适配效果。

核心思想

LoRA的核心假设是：模型在微调过程中权重的实际变化量具有内在的低秩结构——即真正有效的更新维度远小于权重矩阵的完整维度。基于这一洞察，LoRA将权重更新矩阵ΔW分解为两个低秩矩阵的乘积：ΔW = BA，其中B的维度为d×r，A的维度为r×k，秩r远小于d和k。训练时完全冻结原始预训练权重W，只训练低秩矩阵A和B。推理时将BA的乘积合并回W，不引入任何额外的推理延迟。

关键创新

1) 低秩分解假设优雅地将可训练参数量从O(dk)降低到O((d+k)r)，降低了数个数量级；2) 训练完成后LoRA权重可直接合并回原始模型，推理时完全没有额外开销；3) 不同任务的LoRA模块可以即插即用地灵活切换，实现高效的多任务服务。

深远影响

LoRA彻底改变了大模型微调的范式和技术门槛。它使得在消费级GPU上微调数十亿甚至上百亿参数的模型成为现实，极大推动了开源模型的定制化应用生态发展。后续的QLoRA、DoRA等工作在其基础上持续改进。

启发与思考

LoRA的成功揭示了一个深刻的现象：虽然大模型拥有数十亿参数，但微调的有效自由度可能只有几千维。这暗示模型的”任务适配空间”远小于”完整参数空间”，也为我们理解大模型的泛化能力和内部结构提供了全新视角。