Paper: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
Authors: Devlin et al., 2018
arxiv: 1810.04805
一句话概括
通过掩码语言模型(MLM)和下一句预测(NSP)任务,实现了深度双向Transformer预训练,开启了NLP的预训练微调范式。
核心思想
不同于GPT的单向从左到右建模,BERT通过随机掩码输入中15%的token,迫使模型同时利用左右上下文来预测被掩码的词,从而实现真正的深度双向语言理解。配合下一句预测(NSP)任务学习句子间的逻辑关系。预训练完成后,只需添加一个简单的输出层并微调,即可适配情感分析、命名实体识别、问答等各种下游任务。
关键创新
掩码语言模型实现了深度双向预训练,每一层都能同时看到完整上下文;统一的预训练-微调框架适配多种NLU任务;WordPiece分词配合[CLS]和[SEP]特殊标记的灵活输入设计;在大规模无监督文本上的预训练证明了自监督学习的巨大价值。
深远影响
在11项NLP基准任务上全面刷新纪录,确立了预训练-微调的主流范式。催生了RoBERTa、ALBERT、ELECTRA、DeBERTa等大量后续工作。至今仍是许多NLU任务的重要基线,其核心思想深刻影响了整个NLP领域的研究方向和工程实践。
启发与思考
双向上下文理解是语言理解的关键能力。预训练任务的设计直接决定了模型学到什么能力——MLM教会理解,自回归教会生成。BERT的巨大成功证明了海量无标注文本中蕴含着丰富的语言知识,无监督学习的潜力远超之前的预期。