Interview: 指令数据的多样性与质量权衡及数据质量量化方法

Mar 27, 2026

题目解析

SFT数据工程中，多样性和质量的权衡是核心问题。如何量化”数据质量”这个模糊概念，是数据驱动优化的前提。

解答思路

质量优先于多样性，但二者不可偏废。质量维度包括：正确性(答案无误)、完整性(覆盖关键要点)、一致性(格式和风格统一)、难度适当(不能太简单也不能超出模型能力范围)。多样性维度包括：任务类型分布、话题覆盖、长度分布、难度梯度、语言风格变化。量化数据质量的方法：1. 用强模型(GPT-4)多维度打分；2. IFD(Instruction-Following Difficulty)分数——用基座模型的困惑度衡量指令的学习难度；3. 通过对比有无某条数据的模型表现差异来计算数据价值(影响函数)。

关键要点

低质量数据的毒性大于缺失数据——不如不用；2. 多样性不足会导致模型在分布外任务上表现差；3. 质量筛选后再做多样性采样是推荐流程；4. 人工审核仍是质量把关的金标准。

加分回答

可以用Deita等框架结合复杂度和质量两个维度做数据选择。另一个先进方法是Self-Instruct的迭代优化：用模型生成数据→人工筛选→微调→用更好的模型生成更好的数据，形成数据飞轮。还可以构建数据质量评估pipeline：自动过滤→模型打分→人工抽检，形成半自动化的质量控制流程。

常见踩坑

常见错误是用GPT-4打分作为唯一的质量指标——GPT-4的评分存在偏好偏差(倾向冗长回答)。另一个坑是只追求任务类型多样性而忽略每个类型内部的深度覆盖。