Paper: Language Models are Few-Shot Learners


Authors: Brown et al., 2020

arxiv: 2005.14165


一句话概括

GPT-3以1750亿参数首次大规模展示了上下文学习(in-context learning)能力,仅通过提示中的少量示例即可适配新任务。

核心思想

将语言模型规模扩大到1750亿参数,发现模型获得了一种全新的学习范式:上下文学习。通过在提示中提供少量任务示例(few-shot),模型无需任何梯度更新就能理解任务并生成正确回答。这种能力随模型规模增大而显著增强,在零样本、单样本和少样本三种设定下均表现出与微调模型可比的性能。

关键创新

发现并系统验证了上下文学习这一全新能力;证明了规模扩展带来质变式的能力涌现;在无需微调的条件下接近甚至超越了精心微调的专用模型;开创了prompt engineering这一全新研究方向和应用范式。

深远影响

彻底改变了NLP的研究和应用范式,从微调时代进入提示时代。直接催生了ChatGPT等革命性产品,开启了大语言模型的商业化浪潮。证明了足够大的模型可以成为通用任务求解器,深刻改变了AI行业的发展方向和投资逻辑。

启发与思考

上下文学习是一种全新的学习范式——不更新参数就能适配新任务,这在传统机器学习中是不可想象的。规模效应存在关键临界点,跨过后能力会发生质变。这启示我们:也许智能的涌现更依赖于规模和丰富的数据,而非精巧的算法设计。