生成式信息检索 - Attractor Lab

**TL; DR**: 利用大模型的强大生成能力推动信息检索技术的革命。 # 背景：生成式信息检索利用生成模型（语言模型、扩散模型），直接根据请求 (query) 语义生成对应文档的哈希字符串，从而找到最为相关的内容。 - 传统方法（基于关键词匹配、基于向量相似度对比）需要查找整个数据库所有项目。 - 2021年以来发展迅速 **优点** - 生成模型只需存储较少信息，激活特定参数，高精度定位相关页面。 - 请求直接“翻译”为文档，端到端学习，高精度。 **瓶颈：**模型需要记忆“语义 --> 文档”的映射，存在记忆上限约束。 ![[GDR.png#pic_center|600]] # Bottleneck-Minimal Indexing: 生成式检索的信息论模型提出了基于信息瓶颈（Information Bottleneck）理论的索引模型： ![[BMI.png#pic_center|400]] 针对文档$X$，索引$T$，请求$Q$，求解以下最优化问题： $ \begin{align} &\min_{T} ~~ I(X; T) \\ &\text{s.t.} ~~~~ I(T; Q) \le \varepsilon \end{align} $ 即：在尽量保证索引精度的前提下，尽量少地记忆文档的具体信息。 # 效果：在容量受限模型上最大提升91%检索精度。通过设计算法求解上述模型，模型参数效率实现巨大提升，在较小容量约束下显著提升检索精度。 ![[BMI-result.png#pic_center|400]] # 参考文献 \[1\] Tay et al. Transformer memory as a differentiable search index. NeurIPS 2022. \[2\] Wang et al. A neural corpus indexer for document retrieval. NeurIPS 2022 (outstanding paper). \[3\] Xin Du, Lixin Xiu, and Kumiko Tanaka-Ishii. Bottleneck-Minimal Indexing for Generative Document Retrieval. [_ICML 2024 (Oral)_](https://dl.acm.org/doi/abs/10.5555/3692070.3692542) [\[arXiv\]](https://arxiv.org/abs/2405.10974)