Interview: Scaling Laws说loss随计算量呈幂律下降,但这个规律有没有失效的时候?


题目解析

Kaplan等人(2020)提出的Neural Scaling Laws是LLM发展的理论基石,指出test loss与模型参数量N、数据量D、计算量C呈幂律关系:L∝C^(-α)。但任何经验规律都有适用边界。这道题考察候选人对Scaling Laws的深入理解以及批判性思考能力。

解答思路

Scaling Laws可能失效的情况:(1)数据质量瓶颈——幂律假设数据分布稳定,但当高质量数据耗尽时,继续增加数据量可能引入噪声,偏离幂律曲线;(2)任务能力的非连续涌现——某些能力(如思维链推理)在特定规模突然出现,不符合平滑的幂律下降;(3)数据重复——多epoch训练时loss下降速率低于单epoch的幂律预测;(4)接近数据分布的熵下限时——loss不可能无限下降。

关键要点

关键失效场景:(1)能力评估vs loss——Scaling Laws描述的是loss的下降,但下游任务的准确率可能呈现阶梯状变化(突然掌握某种能力),用loss的平滑下降无法预测具体能力的涌现点;(2)架构敏感性——Scaling Laws的幂律指数α依赖于架构和数据分布,不同架构(如MoE vs Dense)有不同的scaling curve;(3)实际中的diminishing returns——在非常大的规模上,每个数量级的计算量投入获得的loss改善越来越小。

加分回答

深入讨论:Scaling Laws是在特定设置下拟合的经验规律,而非物理定律。Chinchilla对Kaplan的原始结论做了重要修正(数据和参数的最优比例)。近期有研究表明,某些看似涌现的能力可能只是评价指标的阶跃效应(如选择题的准确率是离散的),如果用连续指标衡量可能仍遵循幂律。可以引用Schaeffer等人的涌现是度量的幻觉的观点。

常见踩坑

最大的坑是把Scaling Laws当作永远成立的定律——它是有条件的经验规律。另一个错误是不区分loss-based和capability-based的Scaling Laws,两者的行为可能完全不同。也有人混淆compute-optimal(Chinchilla)和实际工业部署中的over-training策略(用更多数据训练较小模型以降低推理成本),后者有意偏离Scaling Laws的最优比例。