Paper: Constitutional AI: Harmlessness from AI Feedback


Authors: Bai et al., 2022

arxiv: 2212.08073


一句话概括

Constitutional AI提出用AI自身的反馈来替代大量人类标注实现安全对齐,通过一组明确的行为原则(宪法)系统化地引导模型行为。

核心思想

分为两个核心阶段:1)自我批评与修正阶段——让模型先生成初始回答,然后根据预定义的一组行为原则(宪法规则)对自己的回答进行批评审视,识别问题后自主修正生成改进版本;2)RLAIF阶段——用AI模型(而非人类标注员)依据原则规则对回答对进行偏好排序判断,据此训练奖励模型,再用强化学习进一步优化策略模型。宪法规则包含”不要帮助从事犯罪活动”“保持诚实透明”等明确可审计的行为准则。这大幅减少了对昂贵人类偏好标注的依赖,同时使对齐标准变得透明、可讨论、可修正。

关键创新

用明确可审计的书面原则替代隐式的人类偏好判断,使对齐过程高度透明化;开创RLAIF范式用AI反馈系统替代大部分人类反馈标注;自我批评-修正的迭代改进机制实现了自动化的安全增强;大幅降低了安全对齐训练对人类标注资源的依赖。

深远影响

开创了AI反馈(RLAIF)这一重要训练范式,深刻影响了后续Llama-2、Gemini等主流模型的安全训练方法论。原则导向的对齐方法使安全标准变得可公开讨论、可迭代修改。Anthropic的Claude系列模型的安全设计和行为特性深受此工作的核心理念影响。

启发与思考

优秀的AI系统需要明确成文的行为准则,正如良好的法治社会需要清晰的宪法。用AI系统来监督和改善AI行为是可行且高效的,但最底层的基础原则仍然必须由人类审慎制定。透明公开的对齐原则比黑箱化的人类偏好学习更容易被审计、验证和持续改进。这是迈向可扩展AI安全治理的重要里程碑。