过拟合与正则化策略

Mar 9, 2026

一句话总结

过拟合是模型在训练集上表现好但在新数据上表现差的现象，正则化通过限制模型复杂度或增加随机性来提升泛化能力。

核心概念

过拟合的本质是模型记住了训练数据中的噪声而非真正的模式。判断标准：训练损失持续下降但验证损失开始上升。常见正则化方法：(1)Dropout——训练时随机将一定比例的神经元输出置零，迫使网络学习冗余表示，BERT使用0.1的Dropout率；(2)Weight Decay——惩罚大权重值，鼓励模型使用较小的参数；(3)数据增强——增加训练数据多样性；(4)Early Stopping——在验证损失最低时停止训练。有趣的是，现代大规模LLM预训练通常不使用Dropout，因为数据量足够大，一般只训练1个epoch，过拟合并非主要问题。

为什么重要

LLM训练成本极高，一次训练可能花费数百万美元。如果模型过拟合导致泛化能力差，这些算力就被浪费了。在微调(Fine-tuning)阶段，由于数据量小，过拟合风险显著增加，正则化策略变得尤为关键。

实践要点

预训练阶段：数据去重是最重要的防过拟合手段，重复数据会加剧记忆；微调阶段：使用LoRA等参数高效方法本身就是一种正则化；监控train/eval loss曲线是判断过拟合的最直接方法；大模型的double descent现象表明，超参数化反而可以改善泛化。

常见误区

误区一：大模型不会过拟合——在小数据集微调时大模型反而更容易过拟合。误区二：Dropout越大越好——过大的Dropout率会欠拟合，0.1是LLM中常用的值。误区三：训练loss低就是好事——需要同时关注验证集loss，训练loss低但验证loss高是典型的过拟合信号。