Interview: PPO在LLM对齐中的训练难度分析与KL散度惩罚的核心作用

Mar 31, 2026

题目解析

PPO是RLHF中最主流的RL算法，但在LLM场景中训练极不稳定。理解其难点和KL惩罚的必要性，是做好RLHF的关键。

解答思路

PPO难训练的原因：1. 状态空间(token序列)和动作空间(词表)都极大，探索效率低；2. Reward Model本身有噪声和分布外问题，信号质量不高；3. 需要同时维护4个模型(Actor、Critic、Reference、RM)，显存和工程复杂度高；4. 超参数敏感——学习率、clip ratio、KL系数等需要精细调整。KL散度惩罚(β*KL(π

π_ref))的作用是约束策略不要偏离SFT模型太远。不加KL惩罚会导致：RM被exploit——模型生成高RM分数但人类看来无意义的输出(reward hacking)；语言质量退化；多样性崩溃。

关键要点

KL惩罚本质上是正则化，防止过度优化RM；2. KL系数β需要动态调整：太大限制学习，太小无法防止reward hacking；3. PPO的clip ratio通常设为0.2，比游戏场景更保守；4. Critic模型的训练质量直接影响方差估计。

加分回答

可以用Adaptive KL Controller动态调整β，使KL散度维持在目标值附近。另外GRPO(Group Relative Policy Optimization)去掉了Critic模型，用组内相对排序代替绝对值估计，简化了训练。ReMax等方法也在尝试用更简单的策略梯度替代PPO。

常见踩坑

最常见的失败模式是reward hacking：RM分数持续上升但生成质量下降。监控指标应包括KL散度、生成长度分布、人工抽样评估，而不能只看reward分数。