Interview: PPO在LLM对齐中的训练难度分析与KL散度惩罚的核心作用


题目解析

PPO是RLHF中最主流的RL算法,但在LLM场景中训练极不稳定。理解其难点和KL惩罚的必要性,是做好RLHF的关键。

解答思路

PPO难训练的原因:1. 状态空间(token序列)和动作空间(词表)都极大,探索效率低;2. Reward Model本身有噪声和分布外问题,信号质量不高;3. 需要同时维护4个模型(Actor、Critic、Reference、RM),显存和工程复杂度高;4. 超参数敏感——学习率、clip ratio、KL系数等需要精细调整。KL散度惩罚(β*KL(π   π_ref))的作用是约束策略不要偏离SFT模型太远。不加KL惩罚会导致:RM被exploit——模型生成高RM分数但人类看来无意义的输出(reward hacking);语言质量退化;多样性崩溃。

关键要点

  1. KL惩罚本质上是正则化,防止过度优化RM;2. KL系数β需要动态调整:太大限制学习,太小无法防止reward hacking;3. PPO的clip ratio通常设为0.2,比游戏场景更保守;4. Critic模型的训练质量直接影响方差估计。

加分回答

可以用Adaptive KL Controller动态调整β,使KL散度维持在目标值附近。另外GRPO(Group Relative Policy Optimization)去掉了Critic模型,用组内相对排序代替绝对值估计,简化了训练。ReMax等方法也在尝试用更简单的策略梯度替代PPO。

常见踩坑

最常见的失败模式是reward hacking:RM分数持续上升但生成质量下降。监控指标应包括KL散度、生成长度分布、人工抽样评估,而不能只看reward分数。