QLoRA：4bit量化微调

Apr 2, 2026

一句话总结

QLoRA通过4bit NF4量化基座模型配合LoRA微调，在单张消费级GPU上实现65B模型的微调，且性能接近全精度。

核心概念

QLoRA结合三项技术创新：(1)NF4(NormalFloat 4-bit)量化——一种信息论最优的4bit数据类型，根据正态分布的分位数设计量化区间，比传统INT4更适合神经网络权重的分布；(2)双重量化(Double Quantization)——对量化常数本身再做一次量化，将量化开销从每个参数0.5bit降到0.127bit；(3)分页优化器(Paged Optimizer)——利用CPU内存处理GPU显存不足时的优化器状态溢出。基座模型以4bit加载并冻结，LoRA部分在bf16下训练。

为什么重要

QLoRA使得在单张24GB显存的GPU(如RTX 3090/4090)上微调33B甚至65B模型成为可能。研究表明QLoRA在Vicuna基准上达到了ChatGPT性能的99.3%，证明4bit量化几乎不损失微调效果。这极大地降低了大模型微调的硬件门槛。

实践要点

使用bitsandbytes库加载4bit模型：model = AutoModelForCausalLM.from_pretrained(path, load_in_4bit=True, bnb_4bit_quant_type=’nf4’)。建议配合bf16的LoRA计算和分页AdamW优化器。训练时梯度通过量化权重反传(dequantize-compute-quantize)。注意4bit推理速度可能不如fp16(量化/反量化开销)，QLoRA主要优势在于降低显存而非加速。

常见误区

误区一：认为4bit量化会严重损害性能。NF4针对正态分布权重设计，量化误差极小。误区二：混淆QLoRA训练和4bit推理的目的。QLoRA是为了降低训练显存，推理时通常合并后用fp16。误区三：对所有层使用相同量化策略，实际上embedding层和输出层对量化更敏感，建议保持较高精度。