Interview: DPO与PPO的真正优劣势对比及DeepSeek-R1回归PPO的原因

Mar 31, 2026

题目解析

DPO作为PPO的替代方案广受欢迎，但DeepSeek-R1等实践表明PPO在某些场景不可替代。深入理解两者的本质差异，是选择对齐方法的前提。

解答思路

DPO的优势：1. 无需训练独立的RM，直接从偏好数据学习；2. 训练稳定性远好于PPO，超参数少；3. 计算资源需求低(只需2个模型而非4个)。DPO的劣势：1. 是离线算法，无法利用在线探索发现更好的策略；2. 偏好数据的质量天花板决定了DPO的效果上限；3. 对分布外样本的泛化能力弱。DeepSeek-R1选择PPO的原因：推理能力的提升需要在线探索——模型需要尝试不同的推理路径并获得反馈，这是离线的DPO无法做到的。PPO的在线学习能力使模型能发现训练数据中不存在的推理策略。

关键要点

DPO本质是有监督学习的变体，PPO是真正的强化学习；2. 在线vs离线是核心区别——复杂推理任务需要在线探索；3. DPO在对话质量和安全性等”已知模式”任务上表现好；4. PPO在需要”发现新策略”的任务上不可替代。

加分回答

Online DPO和Iterative DPO试图弥合这个差距：用当前策略生成新数据并迭代训练。ORPO、SimPO等方法也在简化偏好学习。但对于需要长链推理的场景(如数学证明)，PPO的过程奖励(Process Reward Model)机制仍是最有效的训练信号。

常见踩坑

最大误解是认为DPO严格劣于PPO——在大部分通用对齐任务中DPO的性价比更高。另一个坑是用DPO的效果来评判PPO的潜力，两者适用场景不同不应简单对比。