Chinchilla定律:最优训练配置
一句话总结
Chinchilla定律指出在固定计算预算下,模型参数量和训练数据量应同比例增长,推翻了此前偏重堆参数的做法。
核心概念
DeepMind在2022年通过大规模实验发现:给定计算预算C,最优配置应满足参数量N和训练token数D大致按1:20的比例分配。即一个10B参数的模型应训练约200B token才能达到计算最优。这与OpenAI早期Scaling Laws的建议不同——后者倾向于用更大模型配较少数据。Chinchilla(70B参数,1.4T token)以更少参数超越了Gopher(280B参数,300B token)。
为什么重要
Chinchilla定律彻底改变了大模型训练的资源分配策略。之前社区倾向于训练超大参数模型但数据不足(under-trained),如GPT-3用175B参数仅训练300B token。按Chinchilla定律,这些模型的计算预算本应用于训练更小但更充分的模型。LLaMA系列正是遵循此定律的成功案例。
实践要点
计算预算有限时优先保证训练数据充足,而非盲目增大模型。当前实践中,由于推理成本的考量,很多团队选择过度训练(over-train)较小模型(如用远超20倍的数据训练),以换取更低的推理开销。LLaMA-2的7B模型训练了2T token,远超Chinchilla最优比例,但推理效率更高。
常见误区
误区一:把Chinchilla定律当作绝对准则。实际部署中还需考虑推理成本,小模型多训是合理选择。误区二:忽视数据质量,Chinchilla假设数据质量均匀,但实际中后期数据质量往往下降。误区三:忽视Chinchilla定律是在特定实验条件下得出的,不同架构和数据分布可能有不同的最优比例。