Paper: Language Models are Few-Shot Learners

Feb 26, 2026

Authors: Brown et al., 2020

arxiv: 2005.14165

一句话概括

GPT-3以1750亿参数首次大规模展示了上下文学习（in-context learning）能力，仅通过提示中的少量示例即可适配新任务。

核心思想

将语言模型规模扩大到1750亿参数，发现模型获得了一种全新的学习范式：上下文学习。通过在提示中提供少量任务示例（few-shot），模型无需任何梯度更新就能理解任务并生成正确回答。这种能力随模型规模增大而显著增强，在零样本、单样本和少样本三种设定下均表现出与微调模型可比的性能。

关键创新

发现并系统验证了上下文学习这一全新能力；证明了规模扩展带来质变式的能力涌现；在无需微调的条件下接近甚至超越了精心微调的专用模型；开创了prompt engineering这一全新研究方向和应用范式。

深远影响

彻底改变了NLP的研究和应用范式，从微调时代进入提示时代。直接催生了ChatGPT等革命性产品，开启了大语言模型的商业化浪潮。证明了足够大的模型可以成为通用任务求解器，深刻改变了AI行业的发展方向和投资逻辑。

启发与思考

上下文学习是一种全新的学习范式——不更新参数就能适配新任务，这在传统机器学习中是不可想象的。规模效应存在关键临界点，跨过后能力会发生质变。这启示我们：也许智能的涌现更依赖于规模和丰富的数据，而非精巧的算法设计。