Paper: REALM: Retrieval-Augmented Language Model Pre-Training

Apr 15, 2026

一句话概括

REALM在语言模型预训练阶段就引入检索增强机制，让模型学会在预训练过程中主动检索和利用外部知识。

核心思想

将知识检索器作为语言模型的一个可学习组件，在掩码语言建模的预训练目标中端到端地训练检索器和语言模型。模型在预测被掩码的token时，先检索可能有用的文档，再基于检索结果进行预测。通过MIPS实现高效检索，并异步更新文档索引。

关键创新

首次在预训练阶段引入可学习的检索机制；知识检索器与语言模型端到端联合训练；提出异步索引刷新策略解决训练效率问题；在开放域问答上取得显著提升。

深远影响

REALM证明了检索增强不仅可以在推理时使用，更可以深度融入预训练过程。这一思想影响了后续RETRO等工作，推动了检索增强从推理技巧向训练范式的演进。

启发与思考

REALM揭示了一个深刻观点：语言模型的知识获取方式可以是多元的，不仅通过参数记忆，还可以通过学会检索。这为构建更可解释、可更新的AI系统提供了重要思路。