Paper: Direct Preference Optimization (DPO)

Mar 19, 2026

Authors: Rafailov et al., 2023

arxiv: 2305.18290

一句话概括

DPO将RLHF中的奖励建模和策略优化合并为一个简单的分类损失函数，直接从人类偏好数据优化语言模型策略，完全不需要训练单独的奖励模型。

核心思想

DPO的核心洞察是：在Bradley-Terry偏好模型下，最优策略可以用一个封闭形式的表达式与奖励函数关联起来。通过巧妙的数学推导，将奖励函数代入偏好优化目标后，得到一个仅依赖策略本身的损失函数。该损失本质上是让模型增大偏好回答的对数概率、减小非偏好回答的对数概率，同时通过参考模型的KL散度约束防止策略过度偏离原始分布。整个训练过程就像一个二分类问题一样简洁明了。

关键创新

1) 严格证明了RLHF目标可以转化为无需显式奖励模型的等价优化问题；2) 最终的损失函数极其简洁：只需计算策略在偏好与非偏好样本上的对数概率比值；3) 隐式奖励可以从训练好的策略中恢复出来，用于后续的评估和深入分析。

深远影响

DPO极大降低了对齐训练的技术门槛和计算成本，使得小团队和个人也能进行高质量的偏好优化训练。它催生了一系列后续工作（IPO、KTO、ORPO等），形成了直接对齐算法的研究热潮。目前几乎所有开源模型的对齐流程都采用了DPO或其变体。

启发与思考

DPO深刻地告诉我们，看似复杂的多阶段优化问题，通过巧妙的数学变换可能存在更简洁的等价形式。这种化繁为简的思路在机器学习中反复出现，值得我们在设计新算法时始终追求简洁与优雅的统一。