Paper: Proximal Policy Optimization Algorithms (PPO)

Mar 22, 2026

Authors: Schulman et al., 2017

arxiv: 1707.06347

一句话概括

PPO通过在目标函数中对新旧策略的概率比施加裁剪约束，实现了稳定高效的策略梯度优化，后来成为RLHF中最常用的强化学习算法。

核心思想

策略梯度方法的核心难题在于步长选择：更新幅度太大会导致策略突然崩溃，太小则收敛极其缓慢。PPO的解决方案优雅而直接——在目标函数中对新旧策略的概率比进行裁剪操作（clip），当这个比率偏离1太远时自动停止梯度传播。这在效果上等价于在一个信任区域内进行优化，但实现上比TRPO简单得多，核心代码只需要几行即可完成。

关键创新

1) 通过裁剪概率比率的目标函数设计，隐式地约束了策略变化幅度，避免灾难性更新；2) 可以在同一批数据上进行多个epoch的反复优化，显著提高了样本使用效率；3) 实现极其简洁直观，兼容各种不同的神经网络架构。

深远影响

PPO迅速成为深度强化学习领域的默认算法选择，在游戏AI、机器人控制、LLM对齐等广泛领域得到了成功应用。在RLHF训练管线中，PPO负责根据奖励模型提供的信号来优化语言模型策略，是InstructGPT和ChatGPT训练的核心组件。

启发与思考

PPO的巨大成功在于找到了理论严谨性与工程实用性之间的最佳平衡点。它不是理论上最优的算法，但却是实践中最好用的算法。在工程实践中，”足够好且容易实现调试”的方案往往比”理论最优但难以工程化”的方案更有长远价值。