知识蒸馏(Distillation)


一句话总结

知识蒸馏通过让小模型(学生)学习大模型(教师)的输出分布来获得接近大模型的能力,是实现模型压缩和知识迁移的核心技术。

核心概念

传统蒸馏使用教师模型的soft label(softmax概率分布)训练学生模型,软标签比硬标签包含更丰富的类间关系信息。LLM蒸馏的常见方式:输出蒸馏——用教师模型生成高质量数据训练学生(如Alpaca用GPT-3.5生成数据训练LLaMA);logits蒸馏——让学生模型逼近教师的输出概率分布;特征蒸馏——对齐中间层的表征。温度参数T控制概率分布的平滑程度,较高温度能暴露更多的知识信号。

为什么重要

大模型推理成本高昂,蒸馏可以在保留大部分能力的同时大幅降低部署成本和推理延迟。7B的蒸馏模型可能接近70B教师模型在特定任务上的效果。这是实际生产部署中最常用的模型压缩技术之一。

实践要点

蒸馏数据的多样性和质量决定学生模型的能力上限;学生模型与教师模型的能力差距不宜过大(建议不超过4-8倍参数量差距);结合任务特定数据蒸馏效果更好;温度T通常设为2-5。白盒蒸馏(可获取logits)效果显著优于黑盒蒸馏(只有文本输出)。

常见误区

误区一:蒸馏能完全保留教师模型的能力——存在不可避免的能力损失,尤其在复杂推理和长尾知识任务上。误区二:用GPT-4蒸馏就能得到迷你GPT-4——学生的架构和参数规模限制了其能力上限。