Scaling Laws：模型规模的科学

Mar 21, 2026

一句话总结

Scaling Laws揭示了模型性能与参数量、数据量、计算量之间的幂律关系，为大模型训练提供了科学指导。

核心概念

OpenAI在2020年提出的Scaling Laws表明，模型的交叉熵损失L与参数量N、数据量D、计算量C之间满足幂律关系：L(N) ~ N^(-0.076)，L(D) ~ D^(-0.095)，L(C) ~ C^(-0.050)。这意味着每个因素单独增长时，损失以幂律方式平滑下降。三个因素中任何一个成为瓶颈都会限制最终性能。关键发现是：模型架构细节(宽度/深度比、注意力头数)对性能影响相对较小，规模才是主导因素。

为什么重要

Scaling Laws让大模型训练从经验驱动变为科学驱动。可以用小规模实验预测大规模训练的最终性能，避免在大规模训练上盲目试错。它解释了为什么GPT-3能涌现出GPT-2没有的能力：规模的量变带来质变。

实践要点

先在小规模上做充分实验，拟合Scaling曲线，再外推预测大规模效果。注意Scaling Laws针对的是预训练loss，与下游任务性能不完全等价。不同任务和领域的幂律指数可能不同，需要重新拟合。计算预算固定时，需要在模型大小和数据量之间做权衡。

常见误区

误区一：认为Scaling Laws意味着只需堆规模就行，忽视数据质量和训练策略的影响。误区二：将预训练loss的Scaling直接等同于下游任务性能的Scaling，实际上两者关系更复杂。误区三：忽视Scaling Laws有其适用范围，在极端规模或特殊数据分布下可能偏离。