过拟合与正则化策略


一句话总结

过拟合是模型在训练集上表现好但在新数据上表现差的现象,正则化通过限制模型复杂度或增加随机性来提升泛化能力。

核心概念

过拟合的本质是模型记住了训练数据中的噪声而非真正的模式。判断标准:训练损失持续下降但验证损失开始上升。常见正则化方法:(1)Dropout——训练时随机将一定比例的神经元输出置零,迫使网络学习冗余表示,BERT使用0.1的Dropout率;(2)Weight Decay——惩罚大权重值,鼓励模型使用较小的参数;(3)数据增强——增加训练数据多样性;(4)Early Stopping——在验证损失最低时停止训练。有趣的是,现代大规模LLM预训练通常不使用Dropout,因为数据量足够大,一般只训练1个epoch,过拟合并非主要问题。

为什么重要

LLM训练成本极高,一次训练可能花费数百万美元。如果模型过拟合导致泛化能力差,这些算力就被浪费了。在微调(Fine-tuning)阶段,由于数据量小,过拟合风险显著增加,正则化策略变得尤为关键。

实践要点

预训练阶段:数据去重是最重要的防过拟合手段,重复数据会加剧记忆;微调阶段:使用LoRA等参数高效方法本身就是一种正则化;监控train/eval loss曲线是判断过拟合的最直接方法;大模型的double descent现象表明,超参数化反而可以改善泛化。

常见误区

误区一:大模型不会过拟合——在小数据集微调时大模型反而更容易过拟合。误区二:Dropout越大越好——过大的Dropout率会欠拟合,0.1是LLM中常用的值。误区三:训练loss低就是好事——需要同时关注验证集loss,训练loss低但验证loss高是典型的过拟合信号。