Interview: 为什么现代LLM都用Pre-Norm而不是Post-Norm？Post-Norm有没有优势？

Feb 24, 2026

题目解析

这道题考察候选人对Transformer训练动态的理解。Pre-Norm和Post-Norm的区别看似微小（LayerNorm放在残差连接之前还是之后），但对训练稳定性和模型性能有深远影响。面试官想知道你是否理解这两种方案的trade-off。

解答思路

Pre-Norm将LayerNorm放在子层输入处：x+SubLayer(Norm(x))。Post-Norm放在子层输出后：Norm(x+SubLayer(x))。Pre-Norm的优势在于残差路径上没有归一化操作，梯度可以无损地从最后一层直接回传到第一层，类似于ResNet的恒等映射路径。这使得深层模型训练更稳定，不需要精心设计的warmup策略。

关键要点

Pre-Norm的核心优势是训练稳定性：梯度通过残差连接直接回传，不受Norm层的缩放影响，允许使用更大的学习率和更深的网络。但Post-Norm有一个被忽视的优势：它在收敛后的表征质量更好。研究表明，相同设置下Post-Norm模型的最终性能往往略优于Pre-Norm，但训练更困难，容易在初期发散。

加分回答

深入讨论：Pre-Norm存在表征坍缩风险——随着层数增加，残差分支的贡献越来越小，深层几乎退化为恒等映射。这也是为什么DeepNorm等工作试图融合两者优势。还可以提到Sandwich-Norm等变体的尝试，以及GPT系列和PaLM都使用Pre-Norm的工程考量。

常见踩坑

常见错误：笼统地说Pre-Norm更好而不提Post-Norm的性能优势。另一个坑是无法解释为什么Pre-Norm训练更稳定的数学原因——关键在于残差路径上的梯度范数保持稳定。也有人混淆Norm层的位置和类型（LayerNorm vs RMSNorm），这是两个正交的问题。