**TL; DR**:
利用大模型的强大生成能力推动信息检索技术的革命。
# 背景:生成式信息检索
利用生成模型(语言模型、扩散模型),直接根据请求 (query) 语义生成对应文档的哈希字符串,从而找到最为相关的内容。
- 传统方法(基于关键词匹配、基于向量相似度对比)需要查找整个数据库所有项目。
- 2021年以来发展迅速
**优点**
- 生成模型只需存储较少信息,激活特定参数,高精度定位相关页面。
- 请求直接“翻译”为文档,端到端学习,高精度。
**瓶颈:**模型需要记忆“语义 --> 文档”的映射,存在记忆上限约束。
![[GDR.png#pic_center|600]]
# Bottleneck-Minimal Indexing: 生成式检索的信息论模型
提出了基于信息瓶颈(Information Bottleneck)理论的索引模型:
![[BMI.png#pic_center|400]]
针对文档$X$,索引$T$,请求$Q$,求解以下最优化问题:
$
\begin{align}
&\min_{T} ~~ I(X; T) \\
&\text{s.t.} ~~~~ I(T; Q) \le \varepsilon
\end{align}
$
即:在尽量保证索引精度的前提下,尽量少地记忆文档的具体信息。
# 效果:在容量受限模型上最大提升91%检索精度。
通过设计算法求解上述模型,模型参数效率实现巨大提升,在较小容量约束下显著提升检索精度。
![[BMI-result.png#pic_center|400]]
# 参考文献
\[1\] Tay et al. Transformer memory as a differentiable search index. NeurIPS 2022.
\[2\] Wang et al. A neural corpus indexer for document retrieval. NeurIPS 2022 (outstanding paper).
\[3\] Xin Du, Lixin Xiu, and Kumiko Tanaka-Ishii. Bottleneck-Minimal Indexing for Generative Document Retrieval. [_ICML 2024 (Oral)_](https://dl.acm.org/doi/abs/10.5555/3692070.3692542) [\[arXiv\]](https://arxiv.org/abs/2405.10974)