Paper: Improving Language Understanding by Generative Pre-Training

Feb 24, 2026

Authors: Radford et al., 2018

一句话概括

GPT-1首次系统验证了生成式预训练加判别式微调的有效性，开创了GPT系列的自回归语言模型技术路线，影响深远。

核心思想

采用12层Transformer解码器进行自回归语言建模预训练，在BookCorpus等大规模无标注文本上学习通用语言表示。然后通过有监督微调将预训练模型适配到分类、推理、问答等具体下游任务。核心洞察是：预测下一个词这个看似简单的目标函数，实际上能让模型隐式地学到丰富的语法知识、深层语义理解以及广泛的世界常识。

关键创新

确立了基于Transformer解码器的生成式预训练路线，这一选择影响了整个后续发展；设计了统一的输入格式使不同类型任务共享同一模型架构；微调时同时优化语言建模辅助损失和任务主损失来提升泛化能力；证明了大规模无监督预训练对有监督任务的显著增益。

深远影响

奠定了GPT系列从GPT-2到GPT-4的技术基础和核心发展方向。生成式预训练路线最终被证明比BERT的掩码路线更具规模扩展潜力和通用性，成为大语言模型的绝对主流范式，深刻改变了整个AI领域的发展轨迹。

启发与思考

简单的目标函数（预测下一个token）中蕴含着惊人丰富的学习信号。生成能力和理解能力并不矛盾——能够生成高质量文本的模型必然也深度理解了语言的内在结构和语义。选对正确的技术路线比短期在基准测试上刷分更为重要。