Interview: 灾难性遗忘的本质原因与经典方法在LLM场景的局限

Mar 19, 2026

题目解析

灾难性遗忘是神经网络持续学习的核心挑战。理解其本质原因以及为何经典方法在LLM规模上失效，能体现对深度学习优化本质的深刻理解。

解答思路

灾难性遗忘的本质在于：共享参数空间中，新任务的梯度更新会覆盖旧任务学到的特征表示。具体来说，梯度下降沿新任务loss下降方向移动参数，但这个方向可能与旧任务的loss上升方向重合。EWC通过Fisher信息矩阵对重要参数施加正则约束，LwF通过知识蒸馏保留旧模型输出。但在LLM场景中，参数量达数十亿，Fisher矩阵的计算和存储代价极高且近似误差大；LwF需要在每步计算旧模型前向传播，内存和计算开销翻倍。

关键要点

遗忘的根源是参数空间的干扰，非参数空间不足；2. EWC的Fisher矩阵在高维空间中是对角近似，丢失了参数间的关联信息；3. LwF的计算开销随模型增大线性增长；4. LLM的预训练知识分布在整个网络中，难以定位”重要参数”。

加分回答

目前LLM场景更实用的做法是：数据重放(混合旧数据)、LoRA等参数高效微调(限制参数更新范围)、以及架构层面的MoE方法(不同专家负责不同知识)。梯度正交投影方法(如OGD)理论上可行但计算代价仍然较高。近期研究表明，适当调整学习率调度(如使用较小的峰值学习率配合较长的warmup)也能有效缓解遗忘，这暗示遗忘可能部分源于优化过程中的不稳定性。

常见踩坑

常见误解是认为模型越大遗忘越严重——实际上大模型由于参数冗余，遗忘程度反而可能更轻。另一个错误是将遗忘等同于欠拟合，二者机制完全不同。