RMSNorm：更高效的归一化

Mar 28, 2026

一句话总结

RMSNorm通过省略均值中心化步骤，仅用均方根进行归一化，在保持性能的同时减少了计算开销。

核心概念

LayerNorm的计算包含两步：减去均值(中心化)和除以标准差(缩放)。RMSNorm去掉了减均值的步骤，直接用均方根(RMS)进行归一化：y = x / RMS(x) * gamma，其中RMS(x) = sqrt(mean(x^2))。数学上这等价于假设均值为零，只做方差归一化。作者Zhang和Sennrich在2019年的实验表明，LayerNorm中的中心化操作对最终性能的贡献很小，而缩放操作才是核心。

为什么重要

RMSNorm减少了约30%的归一化计算量(省去均值计算和减法操作)。在Transformer中归一化操作非常频繁(每层2次)，累积起来的节省相当可观。LLaMA、Mistral、Qwen等主流模型均采用RMSNorm，已成为现代大模型的标准配置。

实践要点

RMSNorm通常配合Pre-Norm结构使用(归一化在注意力/FFN之前而非之后)，这种组合比Post-Norm训练更稳定。实现时注意数值精度：RMS计算建议在float32下进行再转回bf16，避免精度损失。gamma参数初始化为1。部分实现会加一个小的epsilon(如1e-6)防止除零。

常见误区

误区一：认为RMSNorm是性能更差的简化版LayerNorm。实际上大量实验证明两者性能基本一致。误区二：忽视Pre-Norm和Post-Norm的区别，RMSNorm的效果与其放置位置密切相关。误区三：在混合精度训练中忘记对归一化进行高精度计算，导致训练不稳定。