Paper: QLoRA: Efficient Finetuning of Quantized Language Models

Apr 7, 2026

一句话概括

QLoRA将预训练模型量化到4-bit精度后再应用LoRA进行微调，使得在单张48GB显存的GPU上微调65B参数模型成为可能，且最终性能几乎无损。

核心思想

QLoRA的关键创新是将模型量化与LoRA微调进行了巧妙结合：将预训练模型的全部权重量化为4-bit NormalFloat（NF4）格式进行紧凑存储，在前向传播计算时按需反量化为BFloat16精度进行运算，而LoRA的低秩适配矩阵始终保持BFloat16全精度进行梯度更新训练。此外还引入了”双重量化”技术——对量化过程中产生的量化常数本身也进行二次量化，进一步压缩内存占用。分页优化器则巧妙地利用CPU内存来处理训练中的GPU显存溢出峰值。

关键创新

1) NF4数据类型——针对神经网络权重的正态分布特性专门优化的4-bit量化格式，在理论上是信息最优的；2) 双重量化技术将量化常数的内存开销从每参数0.5bit降低到仅0.127bit；3) 分页优化器智能利用CPU内存来处理GPU显存使用峰值问题。

深远影响

QLoRA将大模型微调的硬件门槛从多张昂贵的A100降低到单张消费级GPU，真正实现了大模型微调的”民主化”。它直接催生了社区中大量高质量的微调模型，是Guanaco等重要开源模型背后的关键技术。

启发与思考

QLoRA令人信服地证明了量化不仅是推理阶段的优化技术，也可以有效地应用于训练阶段。4-bit的”低精度存储加高精度计算”范式深刻暗示，模型权重中的有效信息密度可能远低于我们此前的假设。如何在更极端的压缩比下依然保持训练效果，是值得持续深入探索的方向。