Paper: Proximal Policy Optimization Algorithms (PPO)
Authors: Schulman et al., 2017
arxiv: 1707.06347
一句话概括
PPO通过在目标函数中对新旧策略的概率比施加裁剪约束,实现了稳定高效的策略梯度优化,后来成为RLHF中最常用的强化学习算法。
核心思想
策略梯度方法的核心难题在于步长选择:更新幅度太大会导致策略突然崩溃,太小则收敛极其缓慢。PPO的解决方案优雅而直接——在目标函数中对新旧策略的概率比进行裁剪操作(clip),当这个比率偏离1太远时自动停止梯度传播。这在效果上等价于在一个信任区域内进行优化,但实现上比TRPO简单得多,核心代码只需要几行即可完成。
关键创新
1) 通过裁剪概率比率的目标函数设计,隐式地约束了策略变化幅度,避免灾难性更新;2) 可以在同一批数据上进行多个epoch的反复优化,显著提高了样本使用效率;3) 实现极其简洁直观,兼容各种不同的神经网络架构。
深远影响
PPO迅速成为深度强化学习领域的默认算法选择,在游戏AI、机器人控制、LLM对齐等广泛领域得到了成功应用。在RLHF训练管线中,PPO负责根据奖励模型提供的信号来优化语言模型策略,是InstructGPT和ChatGPT训练的核心组件。
启发与思考
PPO的巨大成功在于找到了理论严谨性与工程实用性之间的最佳平衡点。它不是理论上最优的算法,但却是实践中最好用的算法。在工程实践中,”足够好且容易实现调试”的方案往往比”理论最优但难以工程化”的方案更有长远价值。