Paper: Zephyr: Direct Distillation of LM Alignment


Authors: Tunstall et al., 2023

arxiv: 2310.16944


一句话概括

Zephyr通过蒸馏SFT数据加DPO对齐的完整训练管线,成功展示了一个7B参数的模型可以在对话聊天能力上全面超越更大规模的开源模型。

核心思想

Zephyr的完整训练管线包含三个清晰步骤:1) 在从UltraChat蒸馏得到的SFT数据上微调Mistral-7B基座模型;2) 使用GPT-4对模型的多个输出进行系统化偏好评分,构建UltraFeedback偏好数据集;3) 在偏好数据上用DPO进行对齐训练。整个流程完全基于AI反馈(AIHF)而非人类反馈(RLHF),充分证明了AI反馈在对齐训练中的有效性。一个关键发现是DPO阶段对最终性能的提升贡献至关重要。

关键创新

1) 设计了端到端的蒸馏对齐训练管线,完全不依赖任何人类标注数据;2) 实验验证了AI反馈可以有效替代人类反馈进行高质量对齐;3) 在MT-Bench基准上,7B参数模型首次达到了与70B模型可比的对话水平。

深远影响

Zephyr提供了一个完整的、完全可复现的对齐训练配方,成为开源社区的重要参考模板。它有力地证明了小模型通过精心设计的训练流程可以达到令人惊讶的对话质量。

启发与思考

Zephyr的成功清楚说明,在对齐训练中,数据质量和训练流程的设计远比模型参数规模更重要。一个精心训练的7B模型可以全面超越粗糙训练的70B模型,这为计算资源有限的团队带来了巨大希望。