2025_NIPS_AlphaDecay: Module-wise Weight Decay for Heavy-Tailed Balancing in LLMs

张开发
2026/4/12 7:40:05 15 分钟阅读

分享文章

2025_NIPS_AlphaDecay: Module-wise Weight Decay for Heavy-Tailed Balancing in LLMs
文章核心总结与翻译一、主要内容本文聚焦大型语言模型(LLMs)训练中的权重衰减(weight decay)技术优化,指出传统统一权重衰减方案忽略了LLMs模块间的结构差异和谱特性差异,导致训练效果受限。基于重尾自正则化(HT-SR)理论,提出了模块级权重衰减策略AlphaDecay:通过分析各模块权重相关矩阵的经验谱密度(ESD)量化“重尾性”,对重尾性更强(特征学习能力更强)的模块分配较弱的权重衰减,对轻尾性模块分配更强的权重衰减,从而平衡模块间的谱特性差异。实验验证覆盖60M至1B参数的LLaMa系列模型,在C4数据集预训练中,AlphaDecay在困惑度(perplexity)和泛化能力上持续优于传统统一衰减及AWD、AdaDecay等自适应衰减基线;在零样本常识推理、GLUE微调任务中同样表现突出,且在GPT-nano、ViT等不同架构上验证了跨场景有效性。二、创新点发现核心问题:首次明确LLMs不同模块(注意力模块att.q/k/v/o与MLP模块mlp.gate/up/down)的ESD重尾性存在显著差异,这种差异是导致模型性能下降的关键原因。理论驱动方法:基于HT-SR理论,提出用PL_Alpha_Hill指标量化模块重尾性,构建模块级自适应权重衰减分配机制,实现谱特性对齐。通用高效设计:无需修改模型结构,可适配Adam、AdamW等主流优化器,在不同参数规模、架构和任务中均表现稳定,且计算开销低(每500步

更多文章