Paper: Deduplication与数据质量


一句话概括

本文系统性地研究了训练数据中的重复问题,发现有效的去重处理可以显著减少模型的逐字记忆行为,同时不损害甚至提升最终模型性能。

核心思想

大规模网络爬取的数据中存在大量不同程度的重复:从完全相同的文档副本到高度相似的文本段落。Lee等人的系统分析发现,C4数据集中约3.04%的样本在训练集和测试集之间存在重叠,而模型对这些重复出现的内容会产生近乎逐字逐句的机械记忆。论文提出了基于MinHash局部敏感哈希和后缀数组的两种高效去重方法,分别在近似文档去重和精确子串去重两个层面清理数据。实验清楚表明,去重后模型的困惑度更低,生成文本也更加多样和自然。

关键创新

1) 首次系统量化了大规模预训练数据集中的重复程度及其对模型行为的具体影响;2) 提出了可扩展到万亿token级别的高效去重算法方案;3) 证明了去重是”免费的午餐”——在减少训练数据量的同时反而提升了模型性能。

深远影响

去重已成为所有预训练数据处理管线中的标准必要步骤。后续的近似去重方法(如SimHash、基于embedding的语义去重)进一步提升了去重的效率和精度。这项工作也引发了对模型记忆带来的隐私和版权问题的广泛关注。

启发与思考

重复数据的危害不仅是浪费宝贵的计算资源,更会导致模型过度记忆特定内容而非学习可泛化的通用模式。这就像学生如果总是反复做同一道题,记住的只是答案而非解题方法。”少而不重复”比”多而充满重复”更具训练价值。