Paper: RETRO: Improving Language Models by Retrieving from Trillions of Tokens
一句话概括
RETRO通过从万亿级token数据库中检索相关文本片段来增强语言模型,以极低的参数量实现与大模型相当的性能。
核心思想
在语言模型生成过程中,将输入分成固定长度的块,对每个块从外部数据库检索最近邻文本。通过分块交叉注意力机制(Chunked Cross-Attention)将检索结果融合到模型中,使模型能动态利用外部知识而无需将所有知识存储在参数中。
关键创新
提出分块交叉注意力机制高效融合检索信息;构建了包含万亿token的大规模检索数据库;检索增强可以在预训练阶段就引入而非仅在推理时使用;以7B参数量达到接近25B模型的性能水平。
深远影响
证明了检索增强是一种比单纯扩大模型参数更高效的知识注入方式,为构建知识密集型但参数高效的语言模型指明了方向,深刻影响了后续RAG系统的设计哲学。
启发与思考
RETRO启示我们:模型不必将所有知识记忆在参数中,外部检索是一种更灵活、可更新的知识管理方式。这种思路对企业级AI应用尤为重要——知识库可以随时更新而无需重新训练模型。