Paper: Training Compute-Optimal Large Language Models


Authors: Hoffmann et al., 2022

arxiv: 2203.15556


一句话概括

Chinchilla论文通过训练400多个模型,发现当前大模型普遍训练不足,提出模型参数量和训练数据量应等比例扩展的计算最优缩放定律。

核心思想

通过系统训练400多个不同规模(从70M到16B参数)的语言模型,发现给定固定计算预算时,模型参数量和训练token数应大致按1:20的比例分配才是最优的。这意味着当时的许多大模型(如Gopher 280B)都存在参数过多而训练数据不足的问题。Chinchilla仅用700亿参数配合1.4T token的充分训练,性能全面超越了四倍参数量的Gopher。

关键创新

修正了Kaplan等人提出的缩放定律中对数据重要性的低估;提出了计算最优的参数-数据分配比例公式;以更小参数量实现更优性能的反直觉结果;从根本上改变了大模型训练的资源分配策略和行业认知。

深远影响

直接影响了LLaMA等后续开源模型的核心设计理念——用更小的模型配合更充分的训练达到更好效果。推动了高质量训练数据的收集、清洗和去重工作,使整个行业充分认识到数据质量和数量的关键重要性。

启发与思考

更大的模型并不总是更好的——关键在于找到计算资源分配的最优平衡点。这深刻提醒我们在工程实践中要重视效率优化,而不是一味追求参数规模。数据是被严重低估的关键因素,好的数据可能比更多的参数更有价值。