Paper: Constitutional AI: Harmlessness from AI Feedback

Mar 18, 2026

Authors: Bai et al., 2022

arxiv: 2212.08073

一句话概括

Constitutional AI提出用AI自身的反馈来替代大量人类标注实现安全对齐，通过一组明确的行为原则（宪法）系统化地引导模型行为。

核心思想

分为两个核心阶段：1）自我批评与修正阶段——让模型先生成初始回答，然后根据预定义的一组行为原则（宪法规则）对自己的回答进行批评审视，识别问题后自主修正生成改进版本；2）RLAIF阶段——用AI模型（而非人类标注员）依据原则规则对回答对进行偏好排序判断，据此训练奖励模型，再用强化学习进一步优化策略模型。宪法规则包含”不要帮助从事犯罪活动”“保持诚实透明”等明确可审计的行为准则。这大幅减少了对昂贵人类偏好标注的依赖，同时使对齐标准变得透明、可讨论、可修正。

关键创新

用明确可审计的书面原则替代隐式的人类偏好判断，使对齐过程高度透明化；开创RLAIF范式用AI反馈系统替代大部分人类反馈标注；自我批评-修正的迭代改进机制实现了自动化的安全增强；大幅降低了安全对齐训练对人类标注资源的依赖。

深远影响

开创了AI反馈（RLAIF）这一重要训练范式，深刻影响了后续Llama-2、Gemini等主流模型的安全训练方法论。原则导向的对齐方法使安全标准变得可公开讨论、可迭代修改。Anthropic的Claude系列模型的安全设计和行为特性深受此工作的核心理念影响。

启发与思考

优秀的AI系统需要明确成文的行为准则，正如良好的法治社会需要清晰的宪法。用AI系统来监督和改善AI行为是可行且高效的，但最底层的基础原则仍然必须由人类审慎制定。透明公开的对齐原则比黑箱化的人类偏好学习更容易被审计、验证和持续改进。这是迈向可扩展AI安全治理的重要里程碑。