Interview: Constitutional AI的自我批评机制原理与局限性


题目解析

Constitutional AI(CAI)是Anthropic提出的用AI反馈替代人类反馈的对齐方法。理解其自我批评机制为何有效以及固有局限性,对安全对齐研究至关重要。

解答思路

CAI的工作流程:1. 制定宪法原则(如”回答不应有害”、”回答应当诚实”);2. 让模型生成回答后,再让模型根据宪法原则批评并修改自己的回答(自我批评);3. 用(原始回答, 修改后回答)作为偏好对训练RM(RLAIF)。自我批评有效的原因:模型已具备判断能力但生成时可能”选择”不安全的输出;批评阶段给了模型”反思”的机会,激活了其已有的安全知识。这类似于人类”三思而后行”——将System 2的慢思考引入生成过程中。

关键要点

  1. CAI的前提是模型已具备足够的判断能力(需要强基座模型);2. 宪法原则的质量和覆盖范围直接决定对齐效果;3. 自我批评可以多轮迭代,但收益递减且计算成本线性增长;4. CAI大幅降低了人类标注成本,适合快速迭代。

加分回答

CAI还可以和人类反馈结合使用,让AI处理简单的安全问题,人类专注于困难的边界情况。最新的研究尝试让模型自动发现和更新宪法原则,实现更自适应的对齐。

常见踩坑

最大局限是自我批评无法超越模型自身的认知边界——如果模型本身对某个伦理问题有盲区,它的自我批评也会有同样的盲区。另外CAI可能导致过度保守,因为模型会倾向于”宁可拒绝也不冒险”。宪法原则之间也可能存在冲突(如”诚实”和”无害”在某些场景下矛盾),需要设定优先级。