RLHF概述：从人类反馈中学习

Apr 4, 2026

一句话总结

RLHF通过人类偏好数据训练奖励模型，再用强化学习优化语言模型使其生成符合人类期望的输出，是当前主流的对齐方法。

核心概念

RLHF包含三个阶段：(1)SFT阶段——在指令数据上监督微调获得初始对话能力；(2)奖励模型(RM)训练——收集人类对模型输出的偏好排序(chosen vs rejected)，训练一个能预测人类偏好的打分模型；(3)RL优化——用PPO等算法，以RM分数为奖励信号优化策略模型(语言模型)，同时用KL散度约束防止模型偏离初始SFT模型太远。整个流程的目标是让模型输出既有用(helpful)又安全(harmless)且诚实(honest)。

为什么重要

纯SFT模型虽能遵循指令但无法区分好坏回答的细微差异。RLHF能捕捉人类偏好中难以用规则表达的微妙标准(如语气恰当、逻辑连贯、承认不确定性)。ChatGPT的成功在很大程度上归功于RLHF带来的对齐提升。

实践要点

偏好数据质量至关重要：标注一致性(多人标注的一致率)应在70%以上。RM和策略模型的规模比例建议为1:1到1:2。KL惩罚系数(beta)需仔细调整：太小导致reward hacking，太大则模型无法有效优化。建议先从小规模实验开始，确认RM质量后再做大规模RL训练。

常见误区

误区一：跳过SFT直接做RLHF。没有SFT基础的模型生成质量太差，RM和RL都难以有效训练。误区二：认为RLHF总是能提升性能。RM质量差或RL训练不稳定时反而会降低模型能力(alignment tax)。误区三：忽视reward hacking——模型可能找到欺骗RM获得高分但实际质量低的捷径。