Interview: DPO与PPO的真正优劣势对比及DeepSeek-R1回归PPO的原因


题目解析

DPO作为PPO的替代方案广受欢迎,但DeepSeek-R1等实践表明PPO在某些场景不可替代。深入理解两者的本质差异,是选择对齐方法的前提。

解答思路

DPO的优势:1. 无需训练独立的RM,直接从偏好数据学习;2. 训练稳定性远好于PPO,超参数少;3. 计算资源需求低(只需2个模型而非4个)。DPO的劣势:1. 是离线算法,无法利用在线探索发现更好的策略;2. 偏好数据的质量天花板决定了DPO的效果上限;3. 对分布外样本的泛化能力弱。DeepSeek-R1选择PPO的原因:推理能力的提升需要在线探索——模型需要尝试不同的推理路径并获得反馈,这是离线的DPO无法做到的。PPO的在线学习能力使模型能发现训练数据中不存在的推理策略。

关键要点

  1. DPO本质是有监督学习的变体,PPO是真正的强化学习;2. 在线vs离线是核心区别——复杂推理任务需要在线探索;3. DPO在对话质量和安全性等”已知模式”任务上表现好;4. PPO在需要”发现新策略”的任务上不可替代。

加分回答

Online DPO和Iterative DPO试图弥合这个差距:用当前策略生成新数据并迭代训练。ORPO、SimPO等方法也在简化偏好学习。但对于需要长链推理的场景(如数学证明),PPO的过程奖励(Process Reward Model)机制仍是最有效的训练信号。

常见踩坑

最大误解是认为DPO严格劣于PPO——在大部分通用对齐任务中DPO的性价比更高。另一个坑是用DPO的效果来评判PPO的潜力,两者适用场景不同不应简单对比。