**TL; DR**: 利用大模型的强大生成能力推动信息检索技术的革命。 # 背景:生成式信息检索 利用生成模型(语言模型、扩散模型),直接根据请求 (query) 语义生成对应文档的哈希字符串,从而找到最为相关的内容。 - 传统方法(基于关键词匹配、基于向量相似度对比)需要查找整个数据库所有项目。 - 2021年以来发展迅速 **优点** - 生成模型只需存储较少信息,激活特定参数,高精度定位相关页面。 - 请求直接“翻译”为文档,端到端学习,高精度。 **瓶颈:**模型需要记忆“语义 --> 文档”的映射,存在记忆上限约束。 ![[GDR.png#pic_center|600]] # Bottleneck-Minimal Indexing: 生成式检索的信息论模型 提出了基于信息瓶颈(Information Bottleneck)理论的索引模型: ![[BMI.png#pic_center|400]] 针对文档$X$,索引$T$,请求$Q$,求解以下最优化问题: $ \begin{align} &\min_{T} ~~ I(X; T) \\ &\text{s.t.} ~~~~ I(T; Q) \le \varepsilon \end{align} $ 即:在尽量保证索引精度的前提下,尽量少地记忆文档的具体信息。 # 效果:在容量受限模型上最大提升91%检索精度。 通过设计算法求解上述模型,模型参数效率实现巨大提升,在较小容量约束下显著提升检索精度。 ![[BMI-result.png#pic_center|400]] # 参考文献 \[1\] Tay et al. Transformer memory as a differentiable search index. NeurIPS 2022. \[2\] Wang et al. A neural corpus indexer for document retrieval. NeurIPS 2022 (outstanding paper). \[3\] Xin Du, Lixin Xiu, and Kumiko Tanaka-Ishii. Bottleneck-Minimal Indexing for Generative Document Retrieval. [_ICML 2024 (Oral)_](https://dl.acm.org/doi/abs/10.5555/3692070.3692542) [\[arXiv\]](https://arxiv.org/abs/2405.10974)