Paper: Textbooks Are All You Need II: phi-1.5


一句话概括

phi-1.5仅有1.3B参数,通过在精心筛选的”教科书质量”合成数据上训练,在常识推理和语言理解任务上达到了5到10倍大模型的性能水平。

核心思想

phi系列模型的核心论点是:数据质量可以大幅补偿模型规模的不足。phi-1.5在约300亿token的高质量数据上训练,这些数据分为两类:从互联网上用分类器筛选出的”教科书质量”文本,以及用GPT-3.5大规模生成的合成”教科书”数据。筛选和生成的核心标准是内容是否具有教育价值——像优秀的教科书一样循序渐进、解释清晰透彻、系统覆盖核心概念和推理模式。

关键创新

1) 提出”教科书质量”作为数据筛选的核心标准,训练分类器从海量网络数据中自动提取最具教育价值的内容;2) 大规模使用LLM合成教科书风格的结构化训练文本;3) 仅1.3B参数在多个权威基准上超越了LLaMA-7B等大模型。

深远影响

phi系列从根本上挑战了”大力出奇迹”的粗放缩放范式,有力证明了小而精的模型在合适的高质量数据上可以展现非常强大的能力。这一发现推动了业界对数据质量的重新高度关注,也直接启发了FineWeb-Edu等后续数据质量研究。

启发与思考

phi-1.5的深层哲学是”与其给模型灌输所有的知识碎片,不如精心教会它如何系统性地思考”。高质量的教科书式数据教会模型推理模式和思维方法,而不只是事实记忆。这与人类教育的核心理念完全一致——精读几本经典好书,胜过泛读百本平庸之作。