ICLR 2026 Oral | Q-RAG:当大家都在训练大模型学会搜索,它却选择训练检索器

张开发
2026/4/11 22:37:25 15 分钟阅读

分享文章

ICLR 2026 Oral | Q-RAG:当大家都在训练大模型学会搜索,它却选择训练检索器
最近看到一篇很有意思的工作:Q-RAG: Long Context Multi-Step Retrieval via Value-Based Embedder Training。这篇论文最吸引我的地方,不是它又做了一个“更复杂的 Agent RAG”,而是它提出了一个非常反直觉、但又非常实用的思路:当很多工作都在强化学习微调 LLM,让大模型学会搜索时,Q-RAG 选择不训练 LLM,而是直接训练检索器本身。换句话说,它把“多步检索”这件事,当成一个强化学习问题来做,但优化对象不是生成模型,而是embedder / retriever。这使得它在训练成本、推理效率和超长上下文扩展性上,都展现出很强的优势。论文:Q-RAG: Long Context Multi-Step Retrieval via Value-Based Embedder Training论文地址:https://arxiv.org/pdf/2511.07328代码仓库:https://github.com/griver/Q-RAG一、为什么还需要多步检索?传统 RAG 的典型流程是:给定问题从知识库里检索 top-k 文档或片段把检索结果拼接给 LLM由 LLM 生成答案这个范式在很多任务上都很有效,但它有一个明显前提:一次检索就能把关键证据找齐。问题在于,现实中的很多复杂问题并不是这样。比如:多跳问答:需要先找到 A,再根据 A 找到 B,最后由 B 推出答案时间推理:不仅要找相关事实,还要判断哪个事件在前、哪个事件在后超长叙事理解:在几百万甚至上千万 token 的长上下文中,单次 top-k 检索很容易漏掉关键链条也就是说,很多问题其实需要的不是“单步命中”,而是:先找第一条线索,再根据当前证据继续找下一条线索。这就是multi-step retrieval(多步检索)的意义。二、现有多步 RAG 主要有哪几条路?论文把现有方法大致分成了几类。1. 图结构 / 知识图谱路线有些方法会先从文档里构图,再在图上推理。这类方法的优点是结构化强,但缺点也明显:构图成本高推理时慢长上下文下很难高效扩展2. Agent + LLM 路线这类方法会让 LLM 像 Agent 一样,一步步生成中间查询,再不断调用检索器。这种方式很灵活,但它有一个问题:一旦前面某一步检索错了,后面生成的查询也可能被带偏。也就是说,系统对噪声检索结果比较敏感。3. 强化学习微调 LLM 路线最近一些工作会直接训练 LLM,让它在推理过程中学会更好地调用搜索工具。这种方法效果通常不错,但代价也高:训练成本高依赖大规模算力很难让普通研究者或中小团队复现不利于和更大的闭源模型灵活组合三、Q-RAG 的核心思路:不训练 LLM,训练检索器Q-RAG 的关键思想非常明确:既然多步检索本质上是一个序列决策问题,那就直接把“检索”建模成强化学习。但强化学习训练的不是 LLM,而是 embedder。这一步很巧。因为它回避了大模型 RL 微调最昂贵的部分,把复杂度转移到了更轻量的检索器上。这带来三个非常现实的好处:1. 训练成本低相比 RL 微调大模型,只训练 embedder 要便宜得多。2. 可以搭配任意 LLM由于它不依赖特定 LLM 的微调,所以训练好的检索器可以和各种模型配合:开源模型商业闭源模型大模型 API3. 推理速度更快它不是让一个大型 reranker 或生成模型反复处理轨迹,而是尽量把多步决策建立在 embedding 空间里完成。这点对长上下文尤其重要。四、Q-RAG 到底是怎么工作的?如果用一句最直白的话概括:Q-RAG 把“从长文档中逐步找证据”这件事,看成一个智能体在环境中逐步选动作。1. 状态是什么?在第 (t) 步,状态由两部分组成:初始 query之前已经检索到的 chunk而且这些 chunk 会按照它们在原文中的顺序重新排列,避免顺序歧义。所以状态不是“模型脑海中的隐藏状态”,而是一个非常具体的证据集合:st=[q,a0,a1,…,at−1] s_t = [q, a_0, a_1, \dots, a_{t-1}]st​=[q,

更多文章