Chinchilla定律：最优训练配置

Mar 22, 2026

一句话总结

Chinchilla定律指出在固定计算预算下，模型参数量和训练数据量应同比例增长，推翻了此前偏重堆参数的做法。

核心概念

DeepMind在2022年通过大规模实验发现：给定计算预算C，最优配置应满足参数量N和训练token数D大致按1:20的比例分配。即一个10B参数的模型应训练约200B token才能达到计算最优。这与OpenAI早期Scaling Laws的建议不同——后者倾向于用更大模型配较少数据。Chinchilla(70B参数,1.4T token)以更少参数超越了Gopher(280B参数,300B token)。

为什么重要

Chinchilla定律彻底改变了大模型训练的资源分配策略。之前社区倾向于训练超大参数模型但数据不足(under-trained)，如GPT-3用175B参数仅训练300B token。按Chinchilla定律，这些模型的计算预算本应用于训练更小但更充分的模型。LLaMA系列正是遵循此定律的成功案例。

实践要点

计算预算有限时优先保证训练数据充足，而非盲目增大模型。当前实践中，由于推理成本的考量，很多团队选择过度训练(over-train)较小模型(如用远超20倍的数据训练)，以换取更低的推理开销。LLaMA-2的7B模型训练了2T token，远超Chinchilla最优比例，但推理效率更高。

常见误区

误区一：把Chinchilla定律当作绝对准则。实际部署中还需考虑推理成本，小模型多训是合理选择。误区二：忽视数据质量，Chinchilla假设数据质量均匀，但实际中后期数据质量往往下降。误区三：忽视Chinchilla定律是在特定实验条件下得出的，不同架构和数据分布可能有不同的最优比例。