Paper: Direct Preference Optimization (DPO)
Authors: Rafailov et al., 2023
arxiv: 2305.18290
一句话概括
DPO将RLHF中的奖励建模和策略优化合并为一个简单的分类损失函数,直接从人类偏好数据优化语言模型策略,完全不需要训练单独的奖励模型。
核心思想
DPO的核心洞察是:在Bradley-Terry偏好模型下,最优策略可以用一个封闭形式的表达式与奖励函数关联起来。通过巧妙的数学推导,将奖励函数代入偏好优化目标后,得到一个仅依赖策略本身的损失函数。该损失本质上是让模型增大偏好回答的对数概率、减小非偏好回答的对数概率,同时通过参考模型的KL散度约束防止策略过度偏离原始分布。整个训练过程就像一个二分类问题一样简洁明了。
关键创新
1) 严格证明了RLHF目标可以转化为无需显式奖励模型的等价优化问题;2) 最终的损失函数极其简洁:只需计算策略在偏好与非偏好样本上的对数概率比值;3) 隐式奖励可以从训练好的策略中恢复出来,用于后续的评估和深入分析。
深远影响
DPO极大降低了对齐训练的技术门槛和计算成本,使得小团队和个人也能进行高质量的偏好优化训练。它催生了一系列后续工作(IPO、KTO、ORPO等),形成了直接对齐算法的研究热潮。目前几乎所有开源模型的对齐流程都采用了DPO或其变体。
启发与思考
DPO深刻地告诉我们,看似复杂的多阶段优化问题,通过巧妙的数学变换可能存在更简洁的等价形式。这种化繁为简的思路在机器学习中反复出现,值得我们在设计新算法时始终追求简洁与优雅的统一。