Paper: REALM: Retrieval-Augmented Language Model Pre-Training
一句话概括
REALM在语言模型预训练阶段就引入检索增强机制,让模型学会在预训练过程中主动检索和利用外部知识。
核心思想
将知识检索器作为语言模型的一个可学习组件,在掩码语言建模的预训练目标中端到端地训练检索器和语言模型。模型在预测被掩码的token时,先检索可能有用的文档,再基于检索结果进行预测。通过MIPS实现高效检索,并异步更新文档索引。
关键创新
首次在预训练阶段引入可学习的检索机制;知识检索器与语言模型端到端联合训练;提出异步索引刷新策略解决训练效率问题;在开放域问答上取得显著提升。
深远影响
REALM证明了检索增强不仅可以在推理时使用,更可以深度融入预训练过程。这一思想影响了后续RETRO等工作,推动了检索增强从推理技巧向训练范式的演进。
启发与思考
REALM揭示了一个深刻观点:语言模型的知识获取方式可以是多元的,不仅通过参数记忆,还可以通过学会检索。这为构建更可解释、可更新的AI系统提供了重要思路。