论文 #2: Q-RAG - 阅读报告

基本信息

标题: Q-RAG: Long Context Multi‑Step Retrieval via Value‑Based Embedder Training
作者: Artyom Sorokin, Nazar Buzun, Aleksandr Anokhin, Egor Konstantinovich Vedernikov, Petr Anokhin, Mikhail Burtsev, Evgeny Burnaev
发表日期: 2026 年 1 月 26 日
主要领域: reinforcement learning
Submission Number: 25302

关键词

Reinforcement Learning, RL, QA, Long-context, RAG, NLP

TL;DR

通过强化学习微调 Embedder 模型进行多步检索，在长达 10M tokens 的上下文上达到 SOTA

摘要

检索增强生成（RAG）方法通过为 LLM 高效过滤相关上下文来增强 LLM 性能，减少幻觉和推理成本。然而，大多数现有 RAG 方法专注于单步检索，这通常不足以回答需要多步搜索的复杂问题。

最近，多步检索方法已经出现，通常涉及微调小型 LLM 来执行多步检索。这种微调非常耗费资源，并且无法使用更大的 LLM。

在这项工作中，我们提出了 Q-RAG，一种使用强化学习（RL）微调 Embedder 模型进行多步检索的新方法。Q-RAG 为开放域问答提供了一种具有竞争力的、资源高效的多步检索替代方案，并在流行的长上下文基准测试 BabiLong 和 RULER 上实现了最先进的结果（上下文长达 10M tokens）。

代码地址：https://github.com/griver/Q-RAG

核心贡献

Q-RAG 方法: 使用 RL 微调 Embedder 而非 LLM，更加资源高效
多步检索能力: 能够处理需要多步搜索的复杂问题
超长上下文支持: 在长达 10M tokens 的上下文上有效工作
SOTA 性能: 在 BabiLong 和 RULER 基准上达到最先进结果
开源代码: 提供完整的代码实现

研究意义

解决了现有 RAG 方法在复杂问题上单步检索不足的问题
避免了微调大 LLM 的高资源成本
为长上下文问答提供了实用解决方案
对需要处理长文档的 applications 有重要价值

阅读笔记

核心创新点是用 RL 训练 Embedder 而不是训练 LLM 本身
10M tokens 的上下文长度非常惊人，远超常规 RAG 系统
方法对于开放域问答特别有效
资源效率高是主要优势，适合实际应用部署

报告生成时间: 2026-04-13 OpenReview 链接: https://openreview.net/forum?id=MS9nWFY7LG