Paper: KTO: Model Alignment as Prospect Theoretic Optimization


Authors: Ethayarajh et al., 2024

arxiv: 2402.01306


一句话概括

KTO借鉴行为经济学中的前景理论(Prospect Theory),提出了一种仅需要标注”好/坏”二元标签而不需要成对偏好比较数据的模型对齐方法。

核心思想

KTO的理论基础是Kahneman和Tversky的前景理论:人类对损失的心理感知比对等额收益更为强烈,即所谓的损失厌恶(loss aversion)。KTO将这一深刻的心理学洞察引入模型对齐领域,设计了一个非对称的损失函数——模型生成非偏好回答所受到的惩罚大于生成偏好回答所获得的奖励。其关键实用优势是只需要单独标注每个回答的好坏,完全不需要将回答配对进行比较。

关键创新

1) 首次将人类决策行为理论系统性地引入AI对齐,提供了全新的理论视角和优化框架;2) 只需二元反馈信号(好/坏),大幅降低了数据标注的成本和难度;3) 损失厌恶机制使模型更加积极地避免产生有害或低质量的输出内容。

深远影响

KTO有力地证明了配对偏好数据并非对齐训练的必要条件,打开了利用更丰富、更廉价的单点反馈信号进行有效对齐的大门。它也深刻启示我们,人类认知科学中的理论可以直接指导AI系统的优化设计。

启发与思考

KTO的成功有力地提醒我们跨学科思维的巨大价值。行为经济学研究的是人类的非理性决策模式,而AI对齐的根本目标正是让模型符合人类偏好——包括那些”非理性”的部分。深入理解人类认知偏差,反而能帮助我们设计出更好的AI系统。