Interview: Scaling Laws说loss随计算量呈幂律下降，但这个规律有没有失效的时候？

Mar 14, 2026

题目解析

Kaplan等人（2020）提出的Neural Scaling Laws是LLM发展的理论基石，指出test loss与模型参数量N、数据量D、计算量C呈幂律关系：L∝C^(-α)。但任何经验规律都有适用边界。这道题考察候选人对Scaling Laws的深入理解以及批判性思考能力。

解答思路

Scaling Laws可能失效的情况：(1)数据质量瓶颈——幂律假设数据分布稳定，但当高质量数据耗尽时，继续增加数据量可能引入噪声，偏离幂律曲线；(2)任务能力的非连续涌现——某些能力（如思维链推理）在特定规模突然出现，不符合平滑的幂律下降；(3)数据重复——多epoch训练时loss下降速率低于单epoch的幂律预测；(4)接近数据分布的熵下限时——loss不可能无限下降。

关键要点

关键失效场景：(1)能力评估vs loss——Scaling Laws描述的是loss的下降，但下游任务的准确率可能呈现阶梯状变化（突然掌握某种能力），用loss的平滑下降无法预测具体能力的涌现点；(2)架构敏感性——Scaling Laws的幂律指数α依赖于架构和数据分布，不同架构（如MoE vs Dense）有不同的scaling curve；(3)实际中的diminishing returns——在非常大的规模上，每个数量级的计算量投入获得的loss改善越来越小。

加分回答

深入讨论：Scaling Laws是在特定设置下拟合的经验规律，而非物理定律。Chinchilla对Kaplan的原始结论做了重要修正（数据和参数的最优比例）。近期有研究表明，某些看似涌现的能力可能只是评价指标的阶跃效应（如选择题的准确率是离散的），如果用连续指标衡量可能仍遵循幂律。可以引用Schaeffer等人的涌现是度量的幻觉的观点。

常见踩坑

最大的坑是把Scaling Laws当作永远成立的定律——它是有条件的经验规律。另一个错误是不区分loss-based和capability-based的Scaling Laws，两者的行为可能完全不同。也有人混淆compute-optimal（Chinchilla）和实际工业部署中的over-training策略（用更多数据训练较小模型以降低推理成本），后者有意偏离Scaling Laws的最优比例。