ICLR 2026 Oral | Q-RAG：当大家都在训练大模型学会搜索，它却选择训练检索器

张开发

• 2026/6/1 3:20:42 • 15 分钟阅读

分享文章

ICLR 2026 Oral | Q-RAG：当大家都在训练大模型学会搜索，它却选择训练检索器

最近看到一篇很有意思的工作：Q-RAG: Long Context Multi-Step Retrieval via Value-Based Embedder Training。这篇论文最吸引我的地方，不是它又做了一个“更复杂的 Agent RAG”，而是它提出了一个非常反直觉、但又非常实用的思路：当很多工作都在强化学习微调 LLM，让大模型学会搜索时，Q-RAG 选择不训练 LLM，而是直接训练检索器本身。换句话说，它把“多步检索”这件事，当成一个强化学习问题来做，但优化对象不是生成模型，而是embedder / retriever。这使得它在训练成本、推理效率和超长上下文扩展性上，都展现出很强的优势。论文：Q-RAG: Long Context Multi-Step Retrieval via Value-Based Embedder Training论文地址：https://arxiv.org/pdf/2511.07328代码仓库：https://github.com/griver/Q-RAG一、为什么还需要多步检索？传统 RAG 的典型流程是：给定问题从知识库里检索 top-k 文档或片段把检索结果拼接给 LLM由 LLM 生成答案这个范式在很多任务上都很有效，但它有一个明显前提：一次检索就能把关键证据找齐。问题在于，现实中的很多复杂问题并不是这样。比如：多跳问答：需要先找到 A，再根据 A 找到 B，最后由 B 推出答案时间推理：不仅要找相关事实，还要判断哪个事件在前、哪个事件在后超长叙事理解：在几百万甚至上千万 token 的长上下文中，单次 top-k 检索很容易漏掉关键链条也就是说，很多问题其实需要的不是“单步命中”，而是：先找第一条线索，再根据当前证据继续找下一条线索。这就是multi-step retrieval（多步检索）的意义。二、现有多步 RAG 主要有哪几条路？论文把现有方法大致分成了几类。1. 图结构 / 知识图谱路线有些方法会先从文档里构图，再在图上推理。这类方法的优点是结构化强，但缺点也明显：构图成本高推理时慢长上下文下很难高效扩展2. Agent + LLM 路线这类方法会让 LLM 像 Agent 一样，一步步生成中间查询，再不断调用检索器。这种方式很灵活，但它有一个问题：一旦前面某一步检索错了，后面生成的查询也可能被带偏。也就是说，系统对噪声检索结果比较敏感。3. 强化学习微调 LLM 路线最近一些工作会直接训练 LLM，让它在推理过程中学会更好地调用搜索工具。这种方法效果通常不错，但代价也高：训练成本高依赖大规模算力很难让普通研究者或中小团队复现不利于和更大的闭源模型灵活组合三、Q-RAG 的核心思路：不训练 LLM，训练检索器Q-RAG 的关键思想非常明确：既然多步检索本质上是一个序列决策问题，那就直接把“检索”建模成强化学习。但强化学习训练的不是 LLM，而是 embedder。这一步很巧。因为它回避了大模型 RL 微调最昂贵的部分，把复杂度转移到了更轻量的检索器上。这带来三个非常现实的好处：1. 训练成本低相比 RL 微调大模型，只训练 embedder 要便宜得多。2. 可以搭配任意 LLM由于它不依赖特定 LLM 的微调，所以训练好的检索器可以和各种模型配合：开源模型商业闭源模型大模型 API3. 推理速度更快它不是让一个大型 reranker 或生成模型反复处理轨迹，而是尽量把多步决策建立在 embedding 空间里完成。这点对长上下文尤其重要。四、Q-RAG 到底是怎么工作的？如果用一句最直白的话概括：Q-RAG 把“从长文档中逐步找证据”这件事，看成一个智能体在环境中逐步选动作。1. 状态是什么？在第 (t) 步，状态由两部分组成：初始 query之前已经检索到的 chunk而且这些 chunk 会按照它们在原文中的顺序重新排列，避免顺序歧义。所以状态不是“模型脑海中的隐藏状态”，而是一个非常具体的证据集合：st=[q,a0,a1,…,at−1] s_t = [q, a_0, a_1, \dots, a_{t-1}]st=[q,

更多文章

前端开发 2026/5/30 21:50:46

10分钟训练高质量AI音色：RVC变声器实战指南

10分钟训练高质量AI音色：RVC变声器实战指南【免费下载链接】Retrieval-based-Voice-Conversion-WebUI Easily train a good VC model with voice data < 10 mins! 项目地址: https://gitcode.com/GitHub_Trending/re/Retrieval-based-Voice-Conversion-WebUI …

基础示例：单工作表 Excel 转 TXT 以下是将一个 Excel 文件中的第一个工作表转换为 TXT 的完整步骤： 1. 加载并读取Excel文件 from spire.xls import * from spire.xls.common import * workbook Workbook() workbook.LoadFromFile("示例.xlsx"…

张开发

前端开发 2026/5/31 18:15:57

性能优化实战：Vue3 + Cesium加载天地图时，如何解决图层闪烁、内存暴增问题？

Vue3 Cesium天地图性能优化实战：解决图层闪烁与内存泄漏难题当Vue3遇上Cesium和天地图，这个技术组合能构建出令人惊艳的三维地理应用。但当你真正投入生产环境时，图层闪烁、内存暴增这些"高级"问题就会找上门来。今天我们就来解剖…

张开发

ICLR 2026 Oral | Q-RAG：当大家都在训练大模型学会搜索，它却选择训练检索器

最新文章

从芯片制造到电路设计：为什么CMOS工艺偏爱P型衬底？聊聊背后的历史与技术选择

【GraalVM静态镜像内存优化终极指南】：20年JVM专家亲授，从启动内存暴增300%到稳定＜25MB的7大实战压测技巧

TVA技术在洗煤车间检测中的场景适配与工艺优化

别只当数据搬运工了！深入STM32H7的DMA FIFO与突发传输，提升你的系统带宽（内存位宽不匹配怎么办）

大数据应用开发赛项备赛指南：从零开始掌握电商与工业互联网数据集处理

别再全局改MyBatis-Plus的maxLimit了！3.4版本后这样按需突破分页限制更安全

推荐文章

相关文章

分享文章

更多文章

10分钟训练高质量AI音色：RVC变声器实战指南

自适应图像分辨率：为Ultralytics YOLO检测框引入动态线宽策略

从根本上解决C盘空间问题：系统文件夹转移的必要性与操作方法

终极电路设计解决方案：如何用Draw.io ECE库高效绘制专业电路图

金蝶云星辰标准版：财务模块操作指南

不只是安装：用RAGFlow+Ollama在Mac本地打造一个私人AI知识库，我的工作流分享

硬件工程师常用网站

GKD订阅管理终极指南：如何用3步轻松解决订阅混乱难题

网络排错不求人：用Wireshark解码TCP三次握手失败、DNS解析慢等5个常见问题

使用小龙虾来操作猿编程的遥控车居

值类型与引用类型：别再只背“栈和堆”了，看这个实际影响恼

性能优化实战：Vue3 + Cesium加载天地图时，如何解决图层闪烁、内存暴增问题？