Paper: Dense Passage Retrieval for Open-Domain Question Answering

Apr 13, 2026

一句话概括

DPR使用双塔BERT编码器进行密集向量检索，在开放域问答任务中大幅超越传统的BM25稀疏检索方法。

核心思想

用两个独立的BERT编码器分别编码问题和段落为密集向量，通过向量内积计算相似度进行检索。训练时使用对比学习，将正样本段落拉近、负样本段落推远。通过高效的近似最近邻搜索实现大规模段落库的快速检索。

关键创新

证明了简单的密集检索可以超越精心调优的稀疏检索；提出有效的困难负样本采样策略（BM25负样本和批内负样本）；建立了开放域问答的标准检索流水线；双塔架构允许离线索引大幅提升效率。

深远影响

DPR确立了密集检索在信息检索领域的地位，推动了从传统TF-IDF/BM25到神经网络检索的范式转变。其双编码器架构成为后续几乎所有密集检索系统的基础模板。

启发与思考

DPR表明语义理解能力可以显著提升检索质量。在实际RAG系统中，检索质量往往是整个系统效果的瓶颈，投资改进检索器往往比改进生成器更有效。