Full Fine-tuning vs LoRA对比

Apr 3, 2026

一句话总结

全参微调和LoRA各有适用场景：前者在数据充足时性能更优但资源需求高，后者在资源有限时是最佳实践。

核心概念

全参微调(Full Fine-tuning)更新模型所有参数，理论上拟合能力最强，适合大规模数据和需要深度改变模型行为的场景。LoRA冻结原始权重只训练低秩增量，参数效率高但表达能力受限于秩的大小。性能对比：在相同数据量下全参微调通常略优(1-3%)；但在小数据量时LoRA反而可能更好(正则化效果)。显存对比：全参微调需要存储完整梯度和优化器状态(约模型大小的4-8倍)，LoRA仅需约1/4。

为什么重要

选择微调策略直接影响项目的成本、周期和最终效果。错误的选择可能导致资源浪费或性能不达标。随着模型规模增大，全参微调的成本增长远快于LoRA，在100B+规模模型上LoRA几乎是唯一可行的选择。

实践要点

选型建议：数据量<10K且任务简单选LoRA(r=16-32)；数据量10K-100K选LoRA(r=64)或全参；数据量>100K且需学习新知识选全参微调。折中方案：先用LoRA快速实验确定数据配比和超参数，再用全参微调做最终训练。也可用LoRA+方案(解冻embedding层和LM head层)获得接近全参的效果。多任务场景LoRA优势明显：一个基座+多个LoRA适配器。

常见误区

误区一：一味追求全参微调。资源有限时LoRA的性价比远高于全参。误区二：认为LoRA无法学习新知识。合理设置rank和数据量，LoRA能学到相当多的新知识。误区三：不考虑推理部署。全参微调产生完整新模型，LoRA可热插拔切换，部署策略完全不同。