掩码语言模型(Masked LM)


一句话总结

掩码语言模型随机遮盖输入中部分Token,让模型利用双向上下文来预测被遮盖的内容,以BERT为代表,擅长语言理解和表示学习任务。

核心概念

MLM的训练流程:(1)随机选择15%的Token进行处理——其中80%替换为[MASK]标记,10%替换为随机Token,10%保持不变(缓解训练与推理的不一致);(2)模型利用双向上下文(可以看到被遮盖位置的前后文)来预测被遮盖的Token;(3)只在被遮盖的位置计算损失。代表模型BERT开创了’预训练+微调’范式:先在大规模语料上预训练,再在下游任务上微调。双向编码使BERT的表示特别适合需要理解完整语义的任务:文本分类、命名实体识别、语义相似度等。

为什么重要

MLM让模型获得了真正的双向理解能力,每个Token的表示融合了前后文信息。这使得BERT类模型在语义表示上优于单向模型。在文本检索(Embedding)、语义匹配、序列标注等场景,Encoder模型仍是主流选择。BERT的预训练+微调范式深刻影响了整个NLP领域的研究方向。

实践要点

MLM的训练效率低于自回归模型——每个batch只有15%的Token参与损失计算;Whole Word Masking(整词掩码)比随机字符掩码效果更好,特别对中文;BERT的[CLS] Token表示可用于句子级分类任务;现代Embedding模型(如BGE、E5)仍基于Encoder架构并使用MLM预训练。

常见误区

误区一:MLM模型可以直接做文本生成——MLM不具备自然的生成能力,因为它不建模Token间的自回归概率。误区二:MLM已被自回归模型完全取代——在Embedding、检索和理解任务上,MLM模型仍有不可替代的优势。误区三:15%的掩码率是最优的——后续研究(如ELECTRA)发现使用全部Token计算损失能显著提升样本效率。