Paper: Rejection Sampling与Best-of-N在对齐中的应用

Mar 28, 2026

一句话概括

拒绝采样（Rejection Sampling）和Best-of-N是概念上最简单的对齐方法：让模型生成多个候选回答，用奖励模型选出最好的一个，既可用于推理时对齐也可用于生成高质量训练数据。

核心思想

核心思路极其直观简洁：对于一个给定的提示，让语言模型生成N个候选回答，用奖励模型对每个回答进行打分评估，选择得分最高的作为最终输出结果。在训练数据生成场景中，这些被选中的高质量回答可以作为SFT数据进一步训练模型，即所谓的拒绝采样微调（Rejection Sampling Fine-Tuning, RFT）。Meta的Llama 2在其对齐训练中就大量使用了这一方法，将拒绝采样与PPO有机结合。

关键创新

1) 作为一种极其强大的基线方法，在很多实际情况下性能接近甚至超过复杂的PPO训练；2) Best-of-N的输出质量随N增大而呈对数增长，提供了可预测可控的质量提升曲线；3) 可以与其他对齐方法灵活组合，例如作为DPO训练的偏好数据来源。

深远影响

拒绝采样因其简单有效的特性，被广泛集成在各种主流对齐训练管线中。Llama 2、DeepSeek等多个业界重要模型都在训练中使用了拒绝采样策略。它也是评估和理解其他复杂对齐方法效果的重要参考基线。

启发与思考

最简单的方法往往被严重低估。拒绝采样清楚地告诉我们：在盲目追求复杂算法创新之前，先确保简单方法已经被充分利用和优化。”用推理时的额外计算来换取输出质量”是一种朴素但极其有效的策略，Test-time Compute Scaling的核心思想与此一脉相承。