斯坦福：优化器「诸神之战」？AdamW 凭「稳定」胜出

文章来源：智汇AI 发布时间：2025-09-13

AdamW依然是预训练的稳健首选，但矩阵型方法在特定数据–模型比例下展现出明显优势。

暂无访问

自2014年提出以来，Adam及其改进版AdamW长期占据开放权重语言模型预训练的主导地位，帮助模型在海量数据下保持稳定并实现较快收敛。

随着模型规模迅速扩大，预训练已成为计算密集型任务的典型代表，在大模型研发中往往是最主要的计算开销。在这种背景下，优化器的设计直接关系到收敛速度与计算成本。

研究者们探索了多种改进方向，其中最快的优化器往往采用矩阵型预条件子（如Muon、Soap、Kron），相较于经过严格调优的AdamW，可以带来约30–40%的迭代级别加速。

斯坦福大学PercyLiang团队的研究指出，尽管存在许多声称能提供显著加速（1.4至2倍）的替代方案，AdamW依然是预训练的稳健首选，但矩阵型方法在特定数据–模型比例下展现出明显优势。

论文标题：FantasticPretrainingOptimizersandWheretoFindThem

论文地址：https://www.arxiv.org/pdf/2509.02046v1

Github：https://github.com/marin-community/marin/issues/1290

博客：https://wandb.ai/marin-community/marin/reports/Fantastic-Optimizers-and-Where-to-Find-Them--VmlldzoxMjgzMzQ2NQ

研究者认为，这种现象可能源于两个关键的方法论缺陷：

问题1：不公平的超参数调优。

基线模型通常调优不足：在常用的AdamW基线中，仅仅是调优学习率这一个参数，就能在1.3亿参数规模的模型上实现2倍的加速。

固定共享的超参数并不能保证比较的公平性：例如，与标准的权重衰减值0.1相比，Lion优化器更偏好较高的权重衰减值（如0.6）。

左：常用的AdamW基线存在调优不足的问题。在Brown等人[2020]提出、并被后续多项研究采用的GPT-3训练方案中，仅仅针对一个1亿参数的模型调整学习率这一个超参数，便可实现高达2倍的加速，这凸显了进行恰当超参数优化的重要性。右：在不同优化器之间固定超参数并不能保证比较的公平性。在以往的研究中，像学习率和权重衰减这类共享超参数通常被设为常量。然而，即使是概念上相似的优化器，其对应的最优超参数也可能大相径庭。

问题2：测试规模不足

大多数测试仅使用小型模型（参数远小于10亿）或遵循Chinchilla论文提出的1倍数据配比。那么，在更大规模的模型或更高的数据配比下，结果会如何呢？

此外，训练早期的检查点也可能产生误导，在学习率衰减阶段，不同方法的损失曲线可能会发生交叉，从而导致最终排名反转。因此，必须在（不同的）设定下进行训练结束时的最终评估。

左：加速效果随模型规模的增大而衰减。尽管一些优化器在参数量小于10亿的模型上相比AdamW能展现出较高的加速比（1.3-1.4倍），但当模型规模增至12亿参数时，其加速比会衰减至仅1.1倍。右：基于矩阵的优化器性能稳定优于基于标量的优化器。该图展示了三种基于标量的优化器（AdamW,NesterovAdamW,Mars）和三种基于矩阵的优化器（Kron,Soap,Muon）在不同Chinchilla数据配比下训练时的损失曲线。基于矩阵的优化器相比基于标量的优化器实现了一致的加速效果。此外，在过训练（overtrained）的情况下，这三种基于矩阵的优化器最终会收敛到相似的损失值。

为了验证这一假设，研究人员进行了系统性的比较研究，涵盖了十一种不同的深度学习优化器。他们在多种模型规模（从1亿到12亿参数）和数据–模型比例（参照Chinchilla最优比例的1倍至8倍）下，为每一种优化器都进行了严谨、独立的超参数调优。

本研究所使用的优化器。

研究发现：

独立调优至关重要：一个优化器的最优超参数配置往往无法直接迁移到另一种优化器上。如果缺乏独立调优，不仅比较结果缺乏公平性，而且新优化器相较于精心调优过的AdamW，实际加速效果远低于其声称的数值。

短期评估具有误导性：仅在短时间训练窗口内评估优化器性能是不可靠的。随着训练的进行和学习率衰减，不同优化器的性能排名可能会发生逆转，其损失曲线甚至会多次交叉。

矩阵方法性能领先：所有速度最快的优化器都采用了基于矩阵的预条件子，而非传统的逐元素标量缩放。Muon、Soap和Kron等方法，相比严格调优后的AdamW，能够实现30–40%的单步训练速度提升。

有趣的是，最优选择也与具体场景相关：在标准Chinchilla数据比例下，Muon表现最佳；而当数据量相对于模型规模的比例提升至8倍以上时，Soap则成为更优的选择。

方法

研究设计了一套严谨的方法论来评估这些优化器，该方法分为三个主要阶段。首先是通用设置阶段，明确了实验环境。研究使用了四种不同规模的Transformer模型，参数量从130M到1.2B，序列长度均为4096，并详细列举了各模型层数、隐藏维度等具体配置。

所研究的各个模型规模的详细架构超参数。

数据方面，研究混合使用了DCLM-baseline、StarCoderV2和ProofPile2数据集，并使用LLaMA-3分词器进行分词，确保了训练数据的丰富性。评估的优化器涵盖了AdamW、NAdamW、Mars、Cautious、Lion、Adam-mini、Muon、Scion、Kron(PSGD)、Soap和Sophia，代表了当前深度学习优化领域的主流和前沿方法。

阶段I:全面参数扫描

研究旨在解决基线优化器超参数调整不当导致其性能被低估的问题。研究采用了坐标下降法，对所有优化器的超参数（包括学习率、权重衰减、预热步数、β₁、β₂、ε、最大梯度范数和批次大小）在预设网格上进行了详尽搜索。

这一阶段的实验设置涵盖了130M、300M和500M模型在1倍Chinchilla数据量下的训练，以及130M模型在2倍、4倍、8倍Chinchilla数据量下的训练。

研究发现，对每个优化器进行严格的超参数调整至关重要，因为不同优化器之间的最优超参数配置差异显著，盲目迁移超参数会导致不公平的比较。

此外，研究也观察到，与经过精心调整的基线AdamW相比，实际的加速效果普遍低于此前一些研究所声称的水平。

阶段II:敏感超参数识别

研究根据第一阶段的结果，识别出那些最优值会随模型规模变化的敏感超参数，例如学习率和预热长度。随后，这些敏感超参数在300M和500M模型以及2倍、4倍、8倍Chinchilla数据量下进行了进一步的网格搜索。

第一阶段与第二阶段的主要结果。上图：我们绘制了第一阶段和第二阶段实验中，模型在C4/EN数据集上的验证集损失。图中的每一个点都对应于每种优化器在相应的Chinchilla数据配比下所能达到的最优损失值。下图：我们针对部分优化器，绘制了它们在HellaSwag基准上的性能。这些优化器包括：AdamW基线、性能排名前2的基于标量的优化器，以及性能排名前3的基于矩阵的优化器。性能数据来自于它们各自最优的运行批次。

通过结合前两个阶段的结果，研究获得了12种不同设置下的近乎最优超参数集及其对应的损失。为了量化不同优化器相对于AdamW的加速效果，研究拟合了AdamW损失随数据预算变化的缩放定律，并以此计算出达到相同损失所需的AdamW数据量与优化器实际所需数据量之比，作为加速比。

研究发现，基于矩阵的优化器虽然表现普遍优于基于标量的优化器，但其加速比在实际测试中均未超过1.4倍。许多替代优化器在小规模模型或有限数据比例下看似具有优势，但随着模型规模扩大，这些加速优势逐渐消失甚至反转，AdamW依然是最稳健的预训练首选。

阶段III:案例研究

该阶段旨在对更大规模的实验进行深入探索。研究首先检验了超参数的拟合程度，通过拟合形式为

的平滑定律，预测了在模型规模N和数据规模D下的最优设置。

为了验证这些缩放定律，研究对1.2B模型在1倍Chinchilla数据量下进行了全面扫描，结果显示预测的配置与实际最优配置之间的性能差异极小，证明了预测的有效性。

随后，研究进行了两项案例研究：一是训练1.2B模型在1至8倍Chinchilla数据量下，以检验优化器加速效果随模型规模扩展的变化；二是在16倍Chinchilla数据量下训练130M和300M模型，以观察在极端数据量与模型比例下的优化器表现。

案例分析。左图：在12亿参数模型上，AdamW、NAdamW、Muon和Soap四种优化器的验证集损失缩放情况。结果显示，Muon和Soap相比AdamW仍有显著的加速效果，但相比NAdamW已无明显加速优势。中图：采用与图3相同的方法估算加速比。我们观察到，Muon和Soap的加速比随模型规模增大而衰减，最终降至仅1.1倍。右图：在3亿参数模型和16倍Chinchilla数据配比的设定下，实验结果表明，当数据与模型的比例进一步增大时，Soap的性能优于Muon。

这一阶段的结果进一步揭示了Muon优化器的潜在局限性：尽管Muon对高达1.2B参数的模型仍有加速效果，但加速比会下降到1.2倍以下。在高数据与模型比例（如16倍Chinchilla）下，NAdamW和Soap在130M模型上超越了Muon，且Soap在300M模型上也超过了Muon。研究推测，在数据与模型比例很高时，Soap和Kron所维持的二阶动量变得更为有效。

本文来自微信公众号“机器之心”（ID：almosthuman2014），作者：关注AI的，经授权发布。