Paper: Training language models to follow instructions with human feedback

Mar 14, 2026

Authors: Ouyang et al., 2022

arxiv: 2203.02155

一句话概括

InstructGPT通过RLHF三阶段训练流程将语言模型与人类意图深度对齐，使1.3B小模型的输出质量被用户评为优于175B参数的GPT-3。

核心思想

设计了系统化的三阶段对齐训练流程：第一阶段，收集人类标注员撰写的高质量指令-回答示例对，进行有监督微调（SFT）；第二阶段，让标注员对模型多个回答进行偏好排序比较，训练一个奖励模型（RM）学习人类偏好；第三阶段，使用近端策略优化（PPO）算法以奖励模型为信号优化策略模型，同时引入KL散度约束防止过度偏离原始模型。最终模型学会了准确遵循指令、诚实作答、拒绝有害请求。

关键创新

建立了系统完整的三阶段RLHF训练流程和方法论；以实验证明对齐训练可以让1.3B小模型在用户偏好上超越175B大模型；引入KL散度正则化约束有效防止奖励模型过度优化；明确定义了有帮助、真实、无害的三维对齐目标框架。

深远影响

直接催生了ChatGPT这一划时代产品，全面开启了大语言模型的产品化和商业化时代。RLHF成为大模型对齐训练的标准方法被全行业广泛采用。人类反馈驱动的训练范式深刻改变了模型开发流程，对齐研究也因此成为AI安全的核心议题。

启发与思考

原始预训练语言模型的输出和真正有用的人类助手之间存在显著鸿沟。对齐不是简单的指令微调，而是深层次地教会模型理解和遵循人类意图。小模型经过精心对齐后可能比未对齐的大模型实际更有用，说明对齐质量对用户体验的影响可能超过原始模型能力。