数据去重与质量过滤技术

Mar 19, 2026

一句话总结

通过去重和质量过滤确保预训练数据的多样性和高质量，是决定模型能力上限的关键步骤。

核心概念

去重分为精确去重和模糊去重两类。精确去重使用哈希(如MD5/SHA)匹配完全相同的文档；模糊去重使用MinHash+LSH或SimHash检测近似重复内容，通常设置Jaccard相似度阈值(如0.8)进行过滤。质量过滤包括：基于规则的过滤(长度、特殊字符比例、语言检测)、基于分类器的过滤(训练质量分类模型打分)、以及基于困惑度的过滤(用小型语言模型计算PPL，去除异常文本)。

为什么重要

重复数据会导致模型记忆特定文本而非学习通用模式，严重影响泛化能力。研究表明去重后即使数据量减少，模型性能反而更好。低质量数据(乱码、广告、模板文本)会污染模型输出，降低生成质量。

实践要点

推荐流程：先URL去重，再精确去重，最后MinHash模糊去重。质量过滤建议多阶段级联：先用快速规则过滤明显垃圾，再用分类器精细筛选。去重粒度可选文档级或段落级，段落级去重更彻底但计算开销更大。大规模数据建议用Spark或Ray分布式处理。

常见误区

误区一：认为数据越多越好，忽视质量。实际上1T高质量数据往往优于10T低质量数据。误区二：只做精确去重不做模糊去重，实际上互联网数据中大量是近似重复(如转载、洗稿)。误区三：过滤阈值设置过严导致数据多样性不足。