RLHF概述:从人类反馈中学习
一句话总结
RLHF通过人类偏好数据训练奖励模型,再用强化学习优化语言模型使其生成符合人类期望的输出,是当前主流的对齐方法。
核心概念
RLHF包含三个阶段:(1)SFT阶段——在指令数据上监督微调获得初始对话能力;(2)奖励模型(RM)训练——收集人类对模型输出的偏好排序(chosen vs rejected),训练一个能预测人类偏好的打分模型;(3)RL优化——用PPO等算法,以RM分数为奖励信号优化策略模型(语言模型),同时用KL散度约束防止模型偏离初始SFT模型太远。整个流程的目标是让模型输出既有用(helpful)又安全(harmless)且诚实(honest)。
为什么重要
纯SFT模型虽能遵循指令但无法区分好坏回答的细微差异。RLHF能捕捉人类偏好中难以用规则表达的微妙标准(如语气恰当、逻辑连贯、承认不确定性)。ChatGPT的成功在很大程度上归功于RLHF带来的对齐提升。
实践要点
偏好数据质量至关重要:标注一致性(多人标注的一致率)应在70%以上。RM和策略模型的规模比例建议为1:1到1:2。KL惩罚系数(beta)需仔细调整:太小导致reward hacking,太大则模型无法有效优化。建议先从小规模实验开始,确认RM质量后再做大规模RL训练。
常见误区
误区一:跳过SFT直接做RLHF。没有SFT基础的模型生成质量太差,RM和RL都难以有效训练。误区二:认为RLHF总是能提升性能。RM质量差或RL训练不稳定时反而会降低模型能力(alignment tax)。误区三:忽视reward hacking——模型可能找到欺骗RM获得高分但实际质量低的捷径。