Interview: 持续预训练(CPT)时领域数据与通用数据的配比策略


题目解析

持续预训练需要在领域能力和通用能力之间取得平衡。配比选择直接影响模型是否会遗忘通用知识或无法充分学习领域知识,这是工程实践中的核心问题。

解答思路

常见经验配比为领域数据占20%-50%,通用数据占50%-80%。理论上可参考数据混合定律(Data Mixing Law),通过小规模实验拟合不同配比下的loss曲线来预测最优比例。实践中还需考虑领域数据的稀缺程度——如果领域数据量远小于通用数据,需要对领域数据做上采样,但过度重复会导致过拟合。此外配比还受数据领域相似度影响:如果领域与预训练数据分布较近(如新闻领域),可适当降低通用数据比例;若领域差异大(如生物信息学),则需要更多通用数据做桥梁过渡。

关键要点

  1. 没有万能配比,需根据具体任务和数据量做小规模消融实验;2. 数据混合定律提供了理论框架但外推能力有限;3. 领域数据重复超过3-4个epoch通常效果递减;4. 通用数据起到正则化作用,防止灾难性遗忘。

加分回答

可以引入课程学习策略,先以较高通用数据比例热身,逐步提高领域数据占比。也可借鉴DoReMi等方法,用小模型的loss信号动态调整各领域数据的采样权重。Google的Scaling Data-Constrained Language Models研究也提供了关于数据重复与模型规模关系的重要参考。

常见踩坑

直接用100%领域数据做CPT是最常见的错误,会严重损害通用能力。另一个误区是认为配比固定不变,实际上训练不同阶段的最优配比可能不同。