Paper: Curriculum Learning for LLMs


一句话概括

课程学习(Curriculum Learning)通过精心控制训练数据的呈现顺序——典型地从简单样本逐步过渡到复杂样本,可以有效提升LLM的训练效率和最终性能。

核心思想

人类的教育学习遵循由易到难的课程设置,LLM训练是否也能从类似的策略中受益?课程学习在LLM中的应用主要有几种形式:1) 按数据难度排序(用困惑度或序列长度衡量难度),先学习简单样本建立基础再挑战复杂样本;2) 按数据质量排序,先学习高质量数据建立良好的学习基础;3) 按领域排序,如先学习通用文本建立广泛基础再学习专业技术文本。多项实证研究表明,合理的数据呈现顺序确实可以加速模型收敛并提升最终性能。

关键创新

1) 将经典的课程学习理论框架成功适配到大规模语言模型的预训练场景;2) 探索了多种难度度量方法:基于困惑度、文本长度、词汇稀有度等;3) 动态课程策略——根据模型当前实际能力自适应地调整所呈现数据的难度水平。

深远影响

虽然课程学习在LLM中的效果仍有争议(一些大规模对照实验未观察到显著收益),但数据调度的核心思想已被业界广泛接受。Llama的训练就在后期阶段上采样了高质量数据来提升性能,这本质上就是一种隐式的课程策略。

启发与思考

课程学习提出了一个深刻的基础问题:训练数据的”呈现顺序”本身是否蕴含了可利用的信息?直觉上应该是的——没有人会让小学生直接阅读前沿研究论文。但LLM的”学习机制”与人类学习存在本质差异,简单的类比可能产生误导。需要更多严格控制的实验来深入理解这个问题。