Paper: Language Models are Unsupervised Multitask Learners

Feb 25, 2026

Authors: Radford et al., 2019

一句话概括

GPT-2以15亿参数展示了大规模语言模型无需任何微调即可完成多种NLP任务的零样本能力，首次揭示了模型规模扩展带来的惊人涌现潜力。

核心思想

将模型规模扩大到15亿参数，在精心构建的WebText数据集（约800万高质量网页文档）上进行语言模型训练。核心发现是：足够大的语言模型在预训练过程中隐式地学会了翻译、问答、摘要等多种任务的处理模式，无需针对特定任务进行微调就能展现出色的零样本表现。本质上，任何NLP任务都可以被重新表述为条件文本生成问题。

关键创新

首次系统发现并验证了语言模型在无微调条件下的零样本任务迁移能力；构建了高质量的WebText数据集，强调数据来源的可靠性和内容多样性；改进的字节对编码（BPE）分词器使模型能灵活处理任意输入文本；展示了规模扩展带来的意想不到的涌现能力。

深远影响

首次向世界揭示了语言模型的涌现能力这一重要现象，为GPT-3的少样本学习能力奠定了坚实基础。根本改变了NLP社区对模型规模价值的认知和研究优先级，直接推动了大模型研究浪潮的兴起。其文本生成质量之高也引发了AI安全和虚假信息防范的广泛深入讨论。

启发与思考

规模本身就是一种强大的算法——足够大的模型会自然涌现出训练目标中未明确要求的新能力。数据质量和内容多样性与模型规模同样不可忽视。这一发现预示着通用人工智能可能通过简单目标函数的大规模学习来逐步实现，而非依赖复杂精巧的任务特定设计。