论文简读:Embarrassingly Simple Self-Distillation Improves Code Generation

张开发
2026/4/13 16:12:36 15 分钟阅读

分享文章

论文简读:Embarrassingly Simple Self-Distillation Improves Code Generation
发表时间2026.4.1论文地址https://arxiv.org/html/2604.01193v1测试代码https://github.com/apple/ml-ssd/tree/main研究背景与核心问题论文研究了一个基本问题大型语言模型能否仅使用自身的原始输出来改进代码生成能力而不需要验证器、教师模型或强化学习结论与意义主要贡献方法创新证明了仅使用模型自身未验证输出就能显著改进代码生成机制发现识别了精度-探索冲突并展示了如何通过分布重塑来解决理论支持提供了完整的理论分析和实证验证核心创新点无需外部监督仅使用模型自身的原始输出标准交叉熵训练不需要复杂的强化学习或奖励机制温度和截断的巧妙组合通过训练时和评估时温度的组合实现性能提升实际意义简化训练流程无需复杂的验证或强化学习基础设施通用性在5个不同模型上均有效跨越两个模型系列、三个规模和两种推理风格可扩展性方法简单易于实现和部署未来方向探索在其他任务领域如数学推理、自然语言理解的应用研究更复杂的温度和截断调度策略分析不同模型架构对SSD效果的敏感性核心方法简单自蒸馏SSD方法流程1. 数据合成使用训练时温度 Ttrain和截断配置 ρtrain 从冻结的预训练模型 pθ 采样候选解决方案关键特性不进行任何形式的处理无执行、无测试用例、无正确性过滤2. 训练使用标准监督微调SFT在合成数据集 DSSDDSSD​ 上进行训练即仅对模型输出值进行监督损失函数温度组合效应论文发现训练时温度 Ttrain和评估时温度 Teval通过有效温度 TeffTtrain⋅Teval 组合无截断情况性能主要由 Teff决定值为1.2时效果最好有截断情况截断提供了额外的性能提升通道理论意义这个分解表明简单自蒸馏不仅仅是模仿而是通过三个明确的机制来改进模型支持压缩改变分布的支持集哪些token被考虑支持内重塑改变支持集内的概率分配对齐约束确保改变是有益的而不是有害的3. 推理使用评估时解码配置 (Teval,ρeval)(Teval​,ρeval​) 部署微调后的模型实验结果来自真实模型的实验证据表明SSD 既能压缩干扰性尾部概率又能让评估温度 Teval​ 在概率头部区域发挥更有效的作用。琥珀色基础模型 Qwen3-30B-Instruct蓝色经过 SSD 优化后的模型(a) 当词元按模型概率排序时SSD 模型的累积概率上升更快说明其概率头部更干净、弥散的尾部更弱。(b) 随着 Teval​ 升高经过截断后SSD 模型保留的有效词元多于基础模型。(c) 截断后的分布熵在 SSD 模型上提升幅度显著更大。(d) 即便两个模型在前 20 个词元上的累积概率相近SSD 截断后的熵依然更高为推理阶段的探索提供了更多可行候选。综上基础模型在解码时会携带更多尾部无效概率而 SSD 为温度调节留出了更有效的空间使概率头部的分布更多样化。主要性能提升在LiveCodeBench v6基准测试上的表现Qwen3-30B-InstructPass1从42.4%提升至55.3%12.9个百分点30.4%相对提升硬题提升最为显著15.3个百分点pass123.0个百分点pass5关键发现1. 难度依赖性简单问题6.5个百分点中等问题14.2个百分点困难问题15.3个百分点结论改进主要集中在更困难的问题上对于thinking模型提升没有instruct模型明显2. 多样性保持Pass5的提升通常大于Pass1的提升表明SSD不仅提高了准确性还保持了生成多样性例如Qwen3-30B-Instruct在硬题上pass5提升23.0个百分点而pass1提升15.3个百分点3. 解码策略无法匹配即使对基础模型进行广泛的解码参数调优温度、topP、topK等解码策略也无法达到SSD的性能最佳调优的基础模型与SSD相比仍有显著差距表明训练改变了模型本身而不仅仅是解码策略理论分析与机制解释精度-探索冲突假说论文提出并验证了一个核心假说代码生成中存在精度-探索冲突锁Lock位置语法和上下文几乎没有歧义语义定义是通用知识需要高精度承诺主导标记并抑制尾部降低温度有助于锁但会限制探索叉Fork位置分布在多个可行的延续之间扩散变量定义等基本功能实现需要探索在可行的替代方案之间分散质量升高温度有助于叉但会破坏锁冲突任何固定的解码配置都必须在这两种需求之间妥协单一的评估温度无法同时满足分叉位置的探索需求与锁定位的精度需求。左侧一个排序算法示例其中算法选择词元为分叉位置锈橙色后续对mid的使用则为锁定位蓝色灰色虚线路径代表在该分叉点可选择的其他有效算法。右侧在低 / 高评估温度下上述两类上下文对应的词元概率分布头部与尾部概率均明确标出。低评估温度能保证锁定位精准但会导致分叉点的有效头部分布坍塌探索能力不足高评估温度能恢复分叉点的探索能力却会让锁定位的干扰尾部概率重新激活精度下降。SSD如何解决冲突1. 支持压缩Support Compression训练时截断移除了低概率尾部在锁位置这使得主导标记更难被取代降低整体熵2. 支持内重塑Within-Support Reshaping温度调整重新分配了保留支持内的质量在叉位置保留多个可行的延续但使它们更加均匀保持条件头部熵用于探索3. 温度组合效应训练时和评估时温度通过有效温度 TeffTtrain⋅Teval组合在无截断情况下性能主要由 Teff决定截断提供了额外的性能提升通道理论分解SSD 会将分叉状态塑造成平缓的平台将锁定状态塑造成尖锐的峰值。图中词元按概率从高到低排序。阴影柱形与虚线曲线代表基础模型实心柱形与实线曲线代表SSD 优化后的模型红色虚线截断线表示 SSD 过程中保留的概率支撑集。(a)类分叉状态弥散的尾部概率被裁剪但多个靠前的合理续存 token 被保留且权重变得更均匀在有效分支上形成宽阔平缓的平台分布。(b)类锁定状态同样的截断规则会更激进地剔除尾部概率并将概率高度集中在主导 token 上形成更尖锐的峰值分布。论文提供了详细的理论分析将SSD损失分解为三个关键项第一项支持压缩Support Compression公式 −log⁡KeptMassθ含义KeptMassθ表示优化中的模型分配给保留集合 SS 的概率质量S是在训练时温度 Ttrain 和截断 ρtrain下从基础模型采样时存活下来的token集合作用机制移除尾部扩散质量通过截断操作低概率的尾部token被移除集中概率质量迫使模型将概率质量集中在更小的可行token集合上降低整体熵使分布更加尖锐减少不确定性实际效果在锁Lock位置语法和上下文几乎没有歧义的地方这使得主导标记更难被取代提高了生成的确定性和准确性第二项支持内重塑Within-Support Reshaping公式 (1−T)H1/T(pθ(⋅∣S))含义H1/T(pθ(⋅∣S))是限制在集合 S上的Rényi熵阶数为 1/TTtrain是训练时温度作用机制重新分配保留支持内的质量在保留的token集合 S 内重新调整概率分布保持条件头部熵在叉Fork位置分布扩散在多个可行延续之间的地方保留多个可行的延续使分布更加均匀在可行的替代方案之间分散质量但使它们更加均匀实际效果在需要探索的位置保持了生成的多样性平衡了精度和探索的需求第三项与基础模型对齐Alignment to the Base Model公式 T⋅KL(q∥pθ,T(⋅∣S))含义KL(q∥pθ,T(⋅∣S))是KL散度衡量分布 qq和模型的温度化分布 pθ,Tpθ,T​ 之间的差异q 是在集合 S 上重新归一化的分布pθ,T(⋅∣S) 是模型在温度 T 下限制在集合 S 上的分布作用机制保持与基础模型的一致性确保重塑后的分布不会偏离基础模型太远正则化效应防止过度拟合合成数据知识保留保留基础模型的有用知识和能力实际效果防止训练过程中的性能退化确保改进是建设性的而不是破坏性的三项的协同作用解决精度-探索冲突这个loss函数的设计巧妙地解决了代码生成中的核心问题精度-探索冲突问题描述锁位置需要高精度降低温度有助于锁定正确标记叉位置需要探索升高温度有助于保持多个可行选项冲突任何固定的解码配置都必须在这两种需求之间妥协解决方案支持压缩第一项通过截断移除尾部解决锁位置的精度需求支持内重塑第二项通过温度调整重新分配质量解决叉位置的探索需求对齐约束第三项确保整体改进不会偏离基础模型太远温度组合效应论文发现训练时温度 Ttrain 和评估时温度 Teval通过有效温度 TeffTtrain⋅Teval 组合无截断情况性能主要由 Teff 决定有截断情况截断提供了额外的性能提升通道理论意义这个分解表明简单自蒸馏不仅仅是模仿而是通过三个明确的机制来改进模型支持压缩改变分布的支持集哪些token被考虑支持内重塑改变支持集内的概率分配对齐约束确保改变是有益的而不是有害的压力测试坏数据好结果论文进行了一项有趣的实验使用 Ttrain2.0且无截断的高温度训练结果合成数据质量极差约62%的输出不含可提取的代码但训练后的模型仍显著改进达到48.1% pass1和64.0% pass5改进集中在困难问题上意义这表明性能提升主要来自分布重塑而非训练数据的正确性相关工作对比与其他方法的区别

更多文章