Interview: 拒绝采样与Best-of-N在对齐中的优劣势对比
题目解析
拒绝采样(Rejection Sampling)和Best-of-N都是利用RM在推理时提升输出质量的方法,也常用于对齐训练数据的构造。理解两者的区别和适用场景是对齐工程实践的基础。
解答思路
Best-of-N:生成N个回复,用RM选最高分的。简单直接但计算量线性增长。效果提升约随log(N)增长,即N=16比N=4的提升远小于N=4比N=1。拒绝采样:设定一个RM分数阈值,不断生成直到有回复超过阈值。期望采样次数取决于阈值高低。拒绝采样常用于生成高质量SFT/RLHF训练数据(如Llama 2的做法)。关键区别:Best-of-N有固定计算预算,拒绝采样的计算预算不确定但可以保证最低质量。
关键要点
- Best-of-N的效果上界受限于单次采样分布的支撑集;2. 拒绝采样的效率取决于策略分布与RM阈值的匹配;3. 两者都强烈依赖RM质量——RM有偏会导致选出的回复有偏;4. 计算成本是核心劣势,尤其在推理部署时。
加分回答
RAFT(Reward rAnked FineTuning)使用拒绝采样生成高质量数据再做SFT,相当于蒸馏了RM的知识到生成模型中,避免了推理时的额外开销。理论上Best-of-N等价于对KL散度施加约束的优化,且N越大KL预算越大。
常见踩坑
最大的坑是过度依赖RM分数——当RM存在reward hacking漏洞时,Best-of-N会系统性地选出RM高分但人类低评的回复。建议配合长度惩罚和多样性约束一起使用。