论文 #2: Q-RAG - 阅读报告
论文 #2: Q-RAG - 阅读报告
基本信息
- 标题: Q-RAG: Long Context Multi‑Step Retrieval via Value‑Based Embedder Training
- 作者: Artyom Sorokin, Nazar Buzun, Aleksandr Anokhin, Egor Konstantinovich Vedernikov, Petr Anokhin, Mikhail Burtsev, Evgeny Burnaev
- 发表日期: 2026 年 1 月 26 日
- 主要领域: reinforcement learning
- Submission Number: 25302
关键词
Reinforcement Learning, RL, QA, Long-context, RAG, NLP
TL;DR
通过强化学习微调 Embedder 模型进行多步检索,在长达 10M tokens 的上下文上达到 SOTA
摘要
检索增强生成(RAG)方法通过为 LLM 高效过滤相关上下文来增强 LLM 性能,减少幻觉和推理成本。然而,大多数现有 RAG 方法专注于单步检索,这通常不足以回答需要多步搜索的复杂问题。
最近,多步检索方法已经出现,通常涉及微调小型 LLM 来执行多步检索。这种微调非常耗费资源,并且无法使用更大的 LLM。
在这项工作中,我们提出了 Q-RAG,一种使用强化学习(RL)微调 Embedder 模型进行多步检索的新方法。Q-RAG 为开放域问答提供了一种具有竞争力的、资源高效的多步检索替代方案,并在流行的长上下文基准测试 BabiLong 和 RULER 上实现了最先进的结果(上下文长达 10M tokens)。
代码地址:https://github.com/griver/Q-RAG
核心贡献
- Q-RAG 方法: 使用 RL 微调 Embedder 而非 LLM,更加资源高效
- 多步检索能力: 能够处理需要多步搜索的复杂问题
- 超长上下文支持: 在长达 10M tokens 的上下文上有效工作
- SOTA 性能: 在 BabiLong 和 RULER 基准上达到最先进结果
- 开源代码: 提供完整的代码实现
研究意义
- 解决了现有 RAG 方法在复杂问题上单步检索不足的问题
- 避免了微调大 LLM 的高资源成本
- 为长上下文问答提供了实用解决方案
- 对需要处理长文档的 applications 有重要价值
阅读笔记
- 核心创新点是用 RL 训练 Embedder 而不是训练 LLM 本身
- 10M tokens 的上下文长度非常惊人,远超常规 RAG 系统
- 方法对于开放域问答特别有效
- 资源效率高是主要优势,适合实际应用部署
报告生成时间: 2026-04-13 OpenReview 链接: https://openreview.net/forum?id=MS9nWFY7LG