数据去重与质量过滤技术
一句话总结
通过去重和质量过滤确保预训练数据的多样性和高质量,是决定模型能力上限的关键步骤。
核心概念
去重分为精确去重和模糊去重两类。精确去重使用哈希(如MD5/SHA)匹配完全相同的文档;模糊去重使用MinHash+LSH或SimHash检测近似重复内容,通常设置Jaccard相似度阈值(如0.8)进行过滤。质量过滤包括:基于规则的过滤(长度、特殊字符比例、语言检测)、基于分类器的过滤(训练质量分类模型打分)、以及基于困惑度的过滤(用小型语言模型计算PPL,去除异常文本)。
为什么重要
重复数据会导致模型记忆特定文本而非学习通用模式,严重影响泛化能力。研究表明去重后即使数据量减少,模型性能反而更好。低质量数据(乱码、广告、模板文本)会污染模型输出,降低生成质量。
实践要点
推荐流程:先URL去重,再精确去重,最后MinHash模糊去重。质量过滤建议多阶段级联:先用快速规则过滤明显垃圾,再用分类器精细筛选。去重粒度可选文档级或段落级,段落级去重更彻底但计算开销更大。大规模数据建议用Spark或Ray分布式处理。
常见误区
误区一:认为数据越多越好,忽视质量。实际上1T高质量数据往往优于10T低质量数据。误区二:只做精确去重不做模糊去重,实际上互联网数据中大量是近似重复(如转载、洗稿)。误区三:过滤阈值设置过严导致数据多样性不足。