Paper: Rejection Sampling与Best-of-N在对齐中的应用


一句话概括

拒绝采样(Rejection Sampling)和Best-of-N是概念上最简单的对齐方法:让模型生成多个候选回答,用奖励模型选出最好的一个,既可用于推理时对齐也可用于生成高质量训练数据。

核心思想

核心思路极其直观简洁:对于一个给定的提示,让语言模型生成N个候选回答,用奖励模型对每个回答进行打分评估,选择得分最高的作为最终输出结果。在训练数据生成场景中,这些被选中的高质量回答可以作为SFT数据进一步训练模型,即所谓的拒绝采样微调(Rejection Sampling Fine-Tuning, RFT)。Meta的Llama 2在其对齐训练中就大量使用了这一方法,将拒绝采样与PPO有机结合。

关键创新

1) 作为一种极其强大的基线方法,在很多实际情况下性能接近甚至超过复杂的PPO训练;2) Best-of-N的输出质量随N增大而呈对数增长,提供了可预测可控的质量提升曲线;3) 可以与其他对齐方法灵活组合,例如作为DPO训练的偏好数据来源。

深远影响

拒绝采样因其简单有效的特性,被广泛集成在各种主流对齐训练管线中。Llama 2、DeepSeek等多个业界重要模型都在训练中使用了拒绝采样策略。它也是评估和理解其他复杂对齐方法效果的重要参考基线。

启发与思考

最简单的方法往往被严重低估。拒绝采样清楚地告诉我们:在盲目追求复杂算法创新之前,先确保简单方法已经被充分利用和优化。”用推理时的额外计算来换取输出质量”是一种朴素但极其有效的策略,Test-time Compute Scaling的核心思想与此一脉相承。