掩码语言模型(Masked LM)

Mar 16, 2026

一句话总结

掩码语言模型随机遮盖输入中部分Token，让模型利用双向上下文来预测被遮盖的内容，以BERT为代表，擅长语言理解和表示学习任务。

核心概念

MLM的训练流程：(1)随机选择15%的Token进行处理——其中80%替换为[MASK]标记，10%替换为随机Token，10%保持不变(缓解训练与推理的不一致)；(2)模型利用双向上下文(可以看到被遮盖位置的前后文)来预测被遮盖的Token；(3)只在被遮盖的位置计算损失。代表模型BERT开创了’预训练+微调’范式：先在大规模语料上预训练，再在下游任务上微调。双向编码使BERT的表示特别适合需要理解完整语义的任务：文本分类、命名实体识别、语义相似度等。

为什么重要

MLM让模型获得了真正的双向理解能力，每个Token的表示融合了前后文信息。这使得BERT类模型在语义表示上优于单向模型。在文本检索(Embedding)、语义匹配、序列标注等场景，Encoder模型仍是主流选择。BERT的预训练+微调范式深刻影响了整个NLP领域的研究方向。

实践要点

MLM的训练效率低于自回归模型——每个batch只有15%的Token参与损失计算；Whole Word Masking(整词掩码)比随机字符掩码效果更好，特别对中文；BERT的[CLS] Token表示可用于句子级分类任务；现代Embedding模型(如BGE、E5)仍基于Encoder架构并使用MLM预训练。

常见误区

误区一：MLM模型可以直接做文本生成——MLM不具备自然的生成能力，因为它不建模Token间的自回归概率。误区二：MLM已被自回归模型完全取代——在Embedding、检索和理解任务上，MLM模型仍有不可替代的优势。误区三：15%的掩码率是最优的——后续研究(如ELECTRA)发现使用全部Token计算损失能显著提升样本效率。