Paper: RETRO: Improving Language Models by Retrieving from Trillions of Tokens

Apr 11, 2026

一句话概括

RETRO通过从万亿级token数据库中检索相关文本片段来增强语言模型，以极低的参数量实现与大模型相当的性能。

核心思想

在语言模型生成过程中，将输入分成固定长度的块，对每个块从外部数据库检索最近邻文本。通过分块交叉注意力机制（Chunked Cross-Attention）将检索结果融合到模型中，使模型能动态利用外部知识而无需将所有知识存储在参数中。

关键创新

提出分块交叉注意力机制高效融合检索信息；构建了包含万亿token的大规模检索数据库；检索增强可以在预训练阶段就引入而非仅在推理时使用；以7B参数量达到接近25B模型的性能水平。

深远影响

证明了检索增强是一种比单纯扩大模型参数更高效的知识注入方式，为构建知识密集型但参数高效的语言模型指明了方向，深刻影响了后续RAG系统的设计哲学。

启发与思考

RETRO启示我们：模型不必将所有知识记忆在参数中，外部检索是一种更灵活、可更新的知识管理方式。这种思路对企业级AI应用尤为重要——知识库可以随时更新而无需重新训练模型。