Paper: Language Models are Few-Shot Learners
Authors: Brown et al., 2020
arxiv: 2005.14165
一句话概括
GPT-3以1750亿参数首次大规模展示了上下文学习(in-context learning)能力,仅通过提示中的少量示例即可适配新任务。
核心思想
将语言模型规模扩大到1750亿参数,发现模型获得了一种全新的学习范式:上下文学习。通过在提示中提供少量任务示例(few-shot),模型无需任何梯度更新就能理解任务并生成正确回答。这种能力随模型规模增大而显著增强,在零样本、单样本和少样本三种设定下均表现出与微调模型可比的性能。
关键创新
发现并系统验证了上下文学习这一全新能力;证明了规模扩展带来质变式的能力涌现;在无需微调的条件下接近甚至超越了精心微调的专用模型;开创了prompt engineering这一全新研究方向和应用范式。
深远影响
彻底改变了NLP的研究和应用范式,从微调时代进入提示时代。直接催生了ChatGPT等革命性产品,开启了大语言模型的商业化浪潮。证明了足够大的模型可以成为通用任务求解器,深刻改变了AI行业的发展方向和投资逻辑。
启发与思考
上下文学习是一种全新的学习范式——不更新参数就能适配新任务,这在传统机器学习中是不可想象的。规模效应存在关键临界点,跨过后能力会发生质变。这启示我们:也许智能的涌现更依赖于规模和丰富的数据,而非精巧的算法设计。