Paper: Scaling Data-Constrained Language Models

Apr 5, 2026

一句话概括

本文系统研究了当高质量训练数据供给不足时，如何通过数据重复使用和混合策略最大化模型性能，将Chinchilla Scaling Law扩展到了数据受限的现实场景。

核心思想

经典的Chinchilla Scaling Law假设训练数据可以无限供给，但现实中高质量数据是有限且稀缺的。本文系统研究了数据受限场景下的一个关键问题：重复使用训练数据会带来多少性能损失？核心发现是：数据重复在4个epoch以内时性能损失很小且可以接受，但超过这个阈值后损失会加速增长。论文进一步提出了包含”数据重复次数”这一额外因素的修正Scaling Law公式，帮助在计算预算固定的约束下找到最优的模型大小和数据重复次数组合。

关键创新

1) 首次系统量化了数据重复对LLM预训练性能的影响曲线和阈值；2) 提出了考虑数据约束的修正Scaling Law数学公式，具有实际指导意义；3) 发现了代码和数学数据比自然语言文本更耐重复训练的有趣现象。

深远影响

本文为数据受限的实际训练场景提供了宝贵的理论和实践指导。它清醒地提醒业界：随着模型规模的持续增长，高质量训练数据很可能成为真正的瓶颈。这推动了数据效率研究和合成数据生成方向的快速发展。

启发与思考

“数据墙”可能是比”计算墙”更难以突破的根本性挑战。当所有高质量的互联网文本都被用尽后，下一步的训练数据从哪里来？合成数据生成、多模态数据融合、交互式在线学习，可能是突破数据瓶颈的三个最有希望的方向。