Interview: 灾难性遗忘的本质原因与经典方法在LLM场景的局限
题目解析
灾难性遗忘是神经网络持续学习的核心挑战。理解其本质原因以及为何经典方法在LLM规模上失效,能体现对深度学习优化本质的深刻理解。
解答思路
灾难性遗忘的本质在于:共享参数空间中,新任务的梯度更新会覆盖旧任务学到的特征表示。具体来说,梯度下降沿新任务loss下降方向移动参数,但这个方向可能与旧任务的loss上升方向重合。EWC通过Fisher信息矩阵对重要参数施加正则约束,LwF通过知识蒸馏保留旧模型输出。但在LLM场景中,参数量达数十亿,Fisher矩阵的计算和存储代价极高且近似误差大;LwF需要在每步计算旧模型前向传播,内存和计算开销翻倍。
关键要点
- 遗忘的根源是参数空间的干扰,非参数空间不足;2. EWC的Fisher矩阵在高维空间中是对角近似,丢失了参数间的关联信息;3. LwF的计算开销随模型增大线性增长;4. LLM的预训练知识分布在整个网络中,难以定位”重要参数”。
加分回答
目前LLM场景更实用的做法是:数据重放(混合旧数据)、LoRA等参数高效微调(限制参数更新范围)、以及架构层面的MoE方法(不同专家负责不同知识)。梯度正交投影方法(如OGD)理论上可行但计算代价仍然较高。近期研究表明,适当调整学习率调度(如使用较小的峰值学习率配合较长的warmup)也能有效缓解遗忘,这暗示遗忘可能部分源于优化过程中的不稳定性。
常见踩坑
常见误解是认为模型越大遗忘越严重——实际上大模型由于参数冗余,遗忘程度反而可能更轻。另一个错误是将遗忘等同于欠拟合,二者机制完全不同。