Paper: Precise Zero-Shot Dense Retrieval without Relevance Labels (HyDE)
一句话概括
HyDE让LLM先生成一个假设性回答文档,再用该文档的嵌入向量进行检索,巧妙解决了查询与文档之间的语义鸿沟问题。
核心思想
传统检索中查询通常很短而文档较长,两者在语义空间中存在较大差异。HyDE利用LLM根据查询生成一个假设性文档(可能包含错误信息),然后用无监督编码器将该文档编码为向量进行检索。假设文档虽然可能事实错误,但其语义模式更接近真实文档,从而提升检索精度。
关键创新
利用LLM的生成能力弥合查询-文档语义鸿沟;完全零样本无需相关性标签;假设文档中的事实错误不影响语义层面的检索效果;与任何密集检索器兼容。
深远影响
HyDE开创了用生成辅助检索的新范式,证明了LLM的生成能力可以反哺检索系统。其思想启发了大量查询扩展和改写方法的研究。
启发与思考
HyDE的巧妙之处在于,即使生成的文档事实上不准确,它在语义空间中仍然是有价值的。这启发我们:在系统设计中,中间产物不需要完美,只需要在特定维度上有用即可。