数据质量vs数据数量的权衡


一句话总结

在微调阶段,高质量少量数据往往优于低质量大量数据,LIMA论文用仅1000条精选数据即可训出效果出众的对话模型。

核心概念

LIMA(Less Is More for Alignment)研究表明,预训练已赋予模型大部分知识,微调主要是教模型以正确格式和风格输出。因此数据质量的关键维度包括:指令多样性、回答准确性、格式规范性、难度梯度分布。数据筛选方法包括:基于规则过滤(长度、格式、语言质量)、基于模型打分(用GPT-4评分)、基于聚类的去重和多样性采样、基于IFD(Instruction Following Difficulty)的难度筛选。

为什么重要

低质量数据不仅浪费计算资源,还会引入噪声甚至有害模式,导致模型学到错误的行为。实践中1万条高质量数据的效果常优于100万条低质量数据。数据质量直接决定微调模型的上限,是投入产出比最高的优化方向。

实践要点

建议流程:先小规模人工标注高质量种子集,再通过模型辅助扩展并严格筛选。数据去重是必做步骤,近似重复会导致模型过拟合到特定模式。保持类别分布均衡,避免某一类型数据主导。定期抽样人工审核质量,建立持续的质量监控机制。

常见误区

误区一:数据越多越好——微调不同于预训练,数据量不是核心瓶颈,质量才是。误区二:只要用GPT-4生成就是高质量——模型生成数据仍需人工审核和过滤,可能包含幻觉和格式问题。