加州大学圣地亚哥分校等:让AI学会“如何给出恰到好处的提示“

张开发
2026/4/18 12:00:25 15 分钟阅读

分享文章

加州大学圣地亚哥分校等:让AI学会“如何给出恰到好处的提示“
这项由加州大学圣地亚哥分校与Snowflake AI Research联合开展的研究于2026年4月以预印本形式发布论文编号为arXiv:2604.00698。研究团队提出了一个名为HiLLHint Learning for Reinforcement Learning面向强化学习的提示学习的全新框架致力于解决当前AI推理训练中一个棘手的根本性困境。一、训练最难的那道题往往学不到任何东西教过孩子的家长都有这样的体验如果一道题太难孩子完全不知从何下手那无论反复做多少遍这道题对孩子的帮助都几乎为零。而如果题目太简单孩子每次都能轻松做对同样也学不到什么新东西。真正有价值的练习题是那些处于能做对一部分、做错一部分的难度区间里的题目——这类题才能让孩子感受到努力的方向也才能产生真正的进步。AI的强化学习训练面临着一模一样的困境。当前训练大型语言模型推理能力的主流方法叫做GRPOGroup Relative Policy Optimization组相对策略优化。它的工作原理可以用一个简单的比喻来理解老师出一道题让学生做八遍然后根据这八次答题的相对表现来给出指导——答对的那些答法比答错的更值得鼓励答错的则要避免。然而问题来了如果这八次全都答错了呢老师完全无法分辨哪种错法更接近正确答案因此什么指导也给不出去这道题就白做了。反过来如果这八次全都答对了同样无法区分好坏也白白浪费了一次训练机会。这就是所谓的优势崩塌advantage collapse当一组练习的所有结果都一样时学习信号彻底消失训练陷入停滞。而偏偏那些AI最需要突破的难题全错的概率最高也最容易陷入这种困境。为了解决这一问题学界已经发展出几种不同的思路。一种是让AI对同一道题反复做更多次希望偶然能做对几次另一种是跳过那些全对或全错的无效题目把算力集中到有价值的练习上还有一种是给难题附上提示让AI在有提示的帮助下有机会做对从而恢复学习信号。这最后一种思路就是HiLL框架所深耕的方向。二、提示的问题固定且不管用给难题加提示听起来是个直觉上合理的解法。但现有的提示方法存在两个明显的短板而这正是HiLL所要正面解决的核心问题。第一个短板是提示是固定的不会随着AI的成长而调整。现有方法通常在训练开始前就预先生成好提示或者从外部固定模板里拉取。但AI在训练过程中不断进步今天卡住它的地方和上周卡住它的地方往往已经不同。用固定的提示去应对一个持续变化的学习者就像用同一套辅导材料辅导一个从小学到高中的孩子——早晚会脱节。第二个短板更微妙也更根本一个提示让AI在有提示的情况下做对了题并不意味着AI真的学到了什么。考试的时候是没有提示的。如果提示直接把关键步骤都告诉了AI那AI在有提示时的正确解法其实是靠着提示才能走通的路一旦提示消失这条路就不存在了。训练在有提示的情境下却期待在没提示的测试中表现提升中间有一道很深的鸿沟。打个比方一个孩子不会解方程x?-5x60。有两种提示可以给他。第一种提示说可以试着把左边分解成两个括号相乘的形式。第二种提示直接告诉他注意x?-5x6(x-2)(x-3)。两种提示都可能让孩子最终答对这道题但第一种提示给的是方向孩子还需要自己动脑完成分解第二种提示直接替他完成了最难的步骤孩子下次遇到类似题目未必真的会了。现有的提示方法对这两种提示没有区分它们只关心有没有让AI做对题不关心做对的方式能不能在没有提示时复现。这就是HiLL要弥补的关键缺口。三、HiLL框架让出提示本身成为一门学问HiLL的核心创新在于它不只是给难题加提示而是训练一个专门负责出提示的AI称为提示者让它和负责解题的AI称为推理者同步成长、相互配合。整个训练过程像这样运作推理者先对每道题独立做八遍找出那些全部做错的无效题。针对每一道无效题提示者会根据三个输入来生成提示这道题本身的内容、推理者这次具体是怎么出错的、以及这道题的参考答案参考答案只有提示者能看到推理者在测试时永远看不到。提示者会为每道无效题生成四个候选提示推理者在每个候选提示的帮助下再做八遍看看哪个提示能让结果从全错变成有对有错同时还要评估在有提示时做对的答法在没有提示时是否依然可能出现。最终表现最好的提示被选中用于本次训练更新所有候选提示的评分则反过来用于训练提示者让它下次出更好的提示。这个过程有两个关键的精妙设计值得单独展开。其一是失败条件化生成提示者看到的不只是题目还有推理者具体是怎么出错的。这让提示者能够针对推理者当前的弱点来设计提示而不是给出一个通用的方向。随着推理者不断进步它出错的方式会变化提示者也因此得到新的信息从而持续调整提示策略。这就好比一个好的家教老师不是拿着固定讲义照本宣科而是先看学生的作业找到这次具体错在哪里再有针对性地点拨。其二是对提示有效性的双重评分一个提示不仅要能让推理者从全错变成有对有错这叫做信号创造还要让做对时的解法尽可能不依赖提示本身这叫做信号迁移。四、提示依赖度衡量提示是帮忙还是帮倒忙为了量化做对的解法有多依赖提示研究团队引入了一个叫做提示依赖度hint reliance的指标。它的计算方式直觉上很清晰对于推理者在有提示情况下产生的每一个正确解法分别计算这个解法在有提示时和没有提示时出现的概率取对数之后相减。如果差值接近零说明这个解法在没有提示时同样有可能出现提示依赖度低如果差值很大说明这个解法在没有提示时几乎不可能出现提示依赖度高。研究团队进一步推导出了一个数学上严格的迁移界transferability bound没有提示时的正确率至少等于有提示时的正确率乘以exp(-ρc)其中ρc就是提示依赖度。这个式子告诉我们提示依赖度越低有提示时的学习成果就越能迁移到没提示的测试场景中。这不是一个直觉上的猜测而是有数学证明支撑的结论。基于这个发现提示者的奖励函数被设计为两部分的乘积第一部分衡量提示是否把全错变成了有对有错第二部分根据提示依赖度对奖励进行折扣——依赖度越高折扣越大奖励越少。这样提示者学到的不只是出一个让AI做对题的提示而是出一个让AI用自己本来就有可能走通的方式做对题的提示。这两者之间有着本质的差别。提示依赖度还有一个现实中的衡量指标提示的长度和数学表达式的密度。研究观察到没有迁移权重时提示者倾向于给出很长的提示里面充满了具体的公式、坐标设定和中间步骤计算——因为这样的提示最容易让推理者做对题。而加入迁移权重之后提示者学会了给更短、更概念性的提示比如可以用参数化方法然后消去参数找规律而不是直接把参数方程写出来。因为给出关键步骤会导致正确解法高度依赖提示受到惩罚而给出策略方向推理者还需要自己完成大量推导做对时的解法更有可能在没有提示时也能实现。五、实验结果量化的进步与可视化的规律研究团队在两个规模不同的推理模型上测试了HiLL一个是较小的Llama-3.2-3B-Instruct30亿参数一个是较大的Qwen2.5-7B-Instruct70亿参数。提示者固定使用Qwen3-4B-Instruct。所有模型在包含15000道数学题的同一份数据集上训练500步测试时提示者完全退出只评估推理者的表现。测试范围涵盖六个数学推理基准包括难度颇高的AIME竞赛题、AMC竞赛题、MATH-500、Minerva Math、以及奥林匹克级别的OlympiadBench和两个通用推理基准研究生水平的GPQA以及知识广度测试MMLU-Pro。在较小的Llama模型上标准GRPO训练后平均得分约为21.9分加入外部固定提示的Scaf-GRPO约为21.5分加入自生成提示的SAGE约为23.9分而HiLL达到了24.6分在没有迁移权重的HiLL变体HiLL w/o TW则为23.7分。在较大的Qwen模型上标准GRPO约为41.1分SAGE约为42.3分而HiLL达到了44.2分同样高于没有迁移权重的变体42.7分。这些数字背后有一个值得关注的细节在两个与数学完全无关的通用推理基准上HiLL同样超过了所有基准方法。这说明更有效的学习信号带来的不只是数学能力的提升而是推理能力本身的提升并且能够迁移到其他领域。训练过程中的动态曲线揭示了更多规律。研究团队记录了训练过程中全错比例即无效题占所有训练题的比例的变化。在Llama模型上标准GRPO全程保持在约60%-70%的全错比例意味着大多数训练题浪费在了无学习信号的无效组上。两个HiLL变体都大幅降低了这一比例说明提示有效地把许多全错题变成了有对有错的有效学习素材。而在提示依赖度的曲线上没有迁移权重的HiLL变体呈现出稳定上升的趋势——随着推理者越来越强提示者为了继续制造有效信号开始越来越多地直接给出答案步骤导致依赖度攀升。有了迁移权重的HiLL则将提示依赖度稳定压在低位与更高的最终准确率形成了清晰的对应关系。温度参数T控制着迁移权重对提示依赖度的惩罚力度。T越小惩罚越重提示依赖度更低但可能过度约束提示者导致有效信号也减少T越大惩罚越轻提示者更自由但依赖度上升。在实验中T0.3取得了信号创造和信号迁移之间最好的平衡但即便是T0.2或T0.4也依然比完全没有迁移权重的版本表现更好说明这一机制的有效性相当稳健。六、一点额外的观察提示的风格也在学习除了上述量化指标研究团队还做了一个有趣的定性分析对比HiLL和HiLL w/o TW生成的实际提示内容。以一道几何题为例题目要求找一条移动线段上某个交点的轨迹方程。没有迁移权重的版本给出的提示直接定义了参数、写出了点A和点B的坐标形式、以及直线PA和QB的方程该怎么建立几乎把整个解题框架都搭好了——提示长达108个词包含大量数学表达式有提示时的正确率达到38%。有迁移权重的版本则给出了一句话可以用参数来表达交点然后消去参数找隐藏的轨迹。仅18个词没有具体数学表达式有提示时正确率只有13%——但这13%的正确解法在没有提示时也有更大的可能性自发出现。这个对比清晰展示了迁移权重究竟在塑造什么它不只是一个数值上的调节旋钮而是在改变提示者教学哲学——从帮AI做题转向给AI指方向。计算成本方面HiLL在Llama模型上每步约需标准GRPO的3.8倍时间在Qwen模型上约需2.6倍与同类的SAGE方法2.3倍处于同一数量级。由于额外计算只在全错题上触发随着推理者变强、全错比例下降开销也会自然降低。研究团队将这视为一个合理的代价权衡额外时间全部花在了标准GRPO完全无法从中学到任何东西的那些训练样本上把原本的浪费转化成了有价值的学习信号。归根结底HiLL解决的是一个好学生也有天花板的问题。当一个AI模型足够强大能轻松解决大多数题目时剩下那些真正难的题目反而成了最大的障碍——因为它们产生不了任何学习信号。HiLL给了这些题目一个出口不是绕开它们也不是暴力多做几遍而是训练出一个懂得怎么给提示的伙伴专门针对当前推理者的具体弱点给出恰到好处的点拨——既能让推理者在这道题上找到方向又不会让推理者形成依赖确保学到的东西在考试时真的能用上。这或许也给人类教育带来一点启发真正好的教学不在于把答案告诉学生而在于找到学生能接住的那个提示让他们自己走完剩下的路。有兴趣深入了解这项研究所有技术细节的读者可以通过论文编号arXiv:2604.00698查阅完整论文。QAQ1HiLL框架和普通GRPO训练有什么本质区别A标准GRPO在遇到AI全部答错的难题时完全无法给出学习信号相当于白做了这道题。HiLL通过训练一个独立的提示者AI专门针对这些难题生成有针对性的提示把全错变成有对有错从而恢复学习信号。更关键的是HiLL还会评估提示产生的正确答法是否在没有提示时也能复现避免AI只是靠提示作弊通过而没有真正学到东西。Q2提示依赖度hint reliance具体是怎么计算的A对于推理者在有提示情况下产生的每个正确解法分别计算这个解法在有提示和没有提示两种条件下出现的概率取对数后相减。差值越接近零说明这个解法不依赖提示差值越大说明这个解法离开提示就很难出现。研究团队还从数学上证明提示依赖度越低在有提示时学到的东西就越能迁移到没有提示的测试场景中。Q3HiLL框架训练出来的提示者测试时会用到吗A不会。提示者只在训练阶段参与工作帮助推理者从难题中获得学习信号。测试时提示者完全退出只有推理者独立面对题目。这意味着HiLL带来的能力提升是推理者自身真实能力的提升而不是靠提示者在测试时辅助得来的。实验中所有评测分数都是在没有提示者参与的条件下取得的。

更多文章