Paper: ORPO: Monolithic Preference Optimization without Reference Model


Authors: Hong et al., 2024

arxiv: 2403.07691


一句话概括

ORPO将SFT和偏好优化统一到同一个训练阶段,通过在标准语言模型交叉熵损失上添加一个基于odds ratio的对比项,无需参考模型即可完成高质量的对齐训练。

核心思想

ORPO首先观察到一个关键问题:SFT阶段虽然提升了偏好回答的生成质量,但同时也不可避免地增大了非偏好回答的生成概率。为解决这个矛盾,ORPO在交叉熵损失的基础上引入了一个基于odds ratio的偏好惩罚项,使模型在学习指令遵循能力的同时自然地拉开偏好与非偏好回答之间的差距。整个训练过程不需要预先训练的参考模型,也不需要独立的对齐阶段。

关键创新

1) 深入揭示了SFT会同时提升偏好和非偏好回答概率这一被忽视的问题;2) 使用odds ratio替代简单的概率比作为偏好度量指标,在数值上更加稳定可靠;3) 将SFT和偏好对齐融为单一训练阶段,大幅简化了整个训练流程和超参数调优。

深远影响

ORPO展示了对齐训练可以进一步简化——不仅移除了奖励模型,还消除了对参考模型的依赖。这种一体化训练范式显著减少了计算成本和工程复杂度,为资源受限的研究团队和应用场景提供了极其实用的方案。

启发与思考

ORPO的设计哲学是”能合则合”——如果两个训练阶段的优化目标在本质上并不矛盾,就应该积极尝试统一它们。这种追求简化的思路在系统设计中同样适用:减少组件间的依赖关系往往能显著提升整体系统的鲁棒性和可维护性。