Paper: Dense Passage Retrieval for Open-Domain Question Answering


一句话概括

DPR使用双塔BERT编码器进行密集向量检索,在开放域问答任务中大幅超越传统的BM25稀疏检索方法。

核心思想

用两个独立的BERT编码器分别编码问题和段落为密集向量,通过向量内积计算相似度进行检索。训练时使用对比学习,将正样本段落拉近、负样本段落推远。通过高效的近似最近邻搜索实现大规模段落库的快速检索。

关键创新

证明了简单的密集检索可以超越精心调优的稀疏检索;提出有效的困难负样本采样策略(BM25负样本和批内负样本);建立了开放域问答的标准检索流水线;双塔架构允许离线索引大幅提升效率。

深远影响

DPR确立了密集检索在信息检索领域的地位,推动了从传统TF-IDF/BM25到神经网络检索的范式转变。其双编码器架构成为后续几乎所有密集检索系统的基础模板。

启发与思考

DPR表明语义理解能力可以显著提升检索质量。在实际RAG系统中,检索质量往往是整个系统效果的瓶颈,投资改进检索器往往比改进生成器更有效。