Paper: Orca: Progressive Learning from Complex Explanation Traces


Authors: Mukherjee et al., 2023

arxiv: 2306.02707


一句话概括

Orca通过让小模型系统性地学习大模型生成的详细推理过程和解释轨迹(而非仅仅模仿最终答案),显著缩小了小模型与GPT-4之间的性能差距。

核心思想

传统的知识蒸馏方法让学生模型模仿教师模型的最终输出,但完全忽略了中间推理过程。Orca的关键创新在于让GPT-4生成包含详细解释和推理链的回答——解释为什么选择这个答案、中间的推理步骤是什么。小模型不仅学习最终答案,更重要的是学习完整的思维过程。同时采用渐进式学习策略:先从ChatGPT学习基础通用能力,再从GPT-4学习高级复杂推理。

关键创新

1) 提出解释调优(explanation tuning)范式:让教师模型生成详细的推理轨迹作为高质量训练数据;2) 渐进学习策略:从简单教师到复杂教师分阶段逐步学习;3) 系统性的提示工程设计,有效引导教师模型生成高质量的解释内容。

深远影响

Orca有力地证明了”过程监督”比”结果监督”更有效的知识蒸馏理念。后续的Orca 2进一步让小模型学会根据任务特点选择不同的推理策略。这一系列工作显著推动了小模型能力边界的提升。

启发与思考

“授人以鱼不如授人以渔”——教会模型如何推理远比教它记忆答案更重要、更持久。这也呼应了教育学中的元认知理论:真正理解”如何思考”的方法论,比”知道正确答案”更具有迁移价值和长远意义。