Interview: 指令数据的多样性与质量权衡及数据质量量化方法
题目解析
SFT数据工程中,多样性和质量的权衡是核心问题。如何量化”数据质量”这个模糊概念,是数据驱动优化的前提。
解答思路
质量优先于多样性,但二者不可偏废。质量维度包括:正确性(答案无误)、完整性(覆盖关键要点)、一致性(格式和风格统一)、难度适当(不能太简单也不能超出模型能力范围)。多样性维度包括:任务类型分布、话题覆盖、长度分布、难度梯度、语言风格变化。量化数据质量的方法:1. 用强模型(GPT-4)多维度打分;2. IFD(Instruction-Following Difficulty)分数——用基座模型的困惑度衡量指令的学习难度;3. 通过对比有无某条数据的模型表现差异来计算数据价值(影响函数)。
关键要点
- 低质量数据的毒性大于缺失数据——不如不用;2. 多样性不足会导致模型在分布外任务上表现差;3. 质量筛选后再做多样性采样是推荐流程;4. 人工审核仍是质量把关的金标准。
加分回答
可以用Deita等框架结合复杂度和质量两个维度做数据选择。另一个先进方法是Self-Instruct的迭代优化:用模型生成数据→人工筛选→微调→用更好的模型生成更好的数据,形成数据飞轮。还可以构建数据质量评估pipeline:自动过滤→模型打分→人工抽检,形成半自动化的质量控制流程。
常见踩坑
常见错误是用GPT-4打分作为唯一的质量指标——GPT-4的评分存在偏好偏差(倾向冗长回答)。另一个坑是只追求任务类型多样性而忽略每个类型内部的深度覆盖。