Paper: Stanford Alpaca: An Instruction-following LLaMA Model
Authors: Taori et al., 2023
一句话概括
Alpaca用不到600美元的总成本,通过GPT-3.5生成的52K指令数据微调LLaMA-7B,获得了在定性评估中接近GPT-3.5的指令跟随能力。
核心思想
基于Self-Instruct方法框架,使用OpenAI的text-davinci-003(GPT-3.5级别)API自动生成52K条多样化的指令-回答训练对,然后用这些数据对开源的LLaMA-7B模型进行指令微调。整个数据生成过程的API调用成本不到500美元,模型微调训练的计算成本约100美元。Alpaca在人类盲评测试中展现了与GPT-3.5定性相当的指令跟随和对话能力,首次证明了极低成本复现强大对齐模型的现实可行性。
关键创新
以不到600美元的极低总成本复现了类ChatGPT级别的对话能力;完整开源了数据生成流程、训练代码和模型权重;实践验证了从强模型到弱模型的知识蒸馏在对齐场景中的高效性;点燃了开源社区指令微调模型的研发热潮。
深远影响
全面引爆了开源社区对指令微调的热情和参与度,Vicuna、WizardLM、Orca、OpenChat等大量有影响力的工作接连涌现。从根本上降低了大模型对齐训练的技术和资金门槛,使学术研究者和独立开发者也能训练出实用的对话模型。有力推动了大模型技术的民主化进程。
启发与思考
技术民主化的关键杠杆在于降低参与门槛。用强模型的高质量输出训练弱模型的知识蒸馏是一种极为高效的能力传递方式。但这种方法也引发了关于模型输出数据版权归属以及表面模仿与真正深度学习之间区别的重要学术和法律讨论。