2606.04662-muon-outperforms-adam-curvature

Why Muon Outperforms Adam: A Curvature Perspective

这篇论文给 Muon 相比 Adam 更快训练提供了一个局部曲率解释:在 matched validation loss 下,Muon 和 Adam 的一阶收益相近,差距主要来自二阶 Hessian curvature penalty;进一步分解发现二阶差距主要由 Muon update direction 的 Normalized Directional Sharpness (NDS) 更低造成,step size 对差距的解释力较...

2026-06-08 v1, submitted 2026 06 03 Source OptimizerTheory

Source

作者与关系

  • Shuche Wang: National University of Singapore。Equal contribution。
  • Fengzhuo Zhang: Yale University。Equal contribution;Project Lead;corresponding author email fzzhang@u.nus.edu
  • Jiaxiang Li: University of Minnesota。
  • Dirk Bergemann: Yale University。
  • Zhuoran Yang: Yale University。Corresponding author email zhuoran.yang@yale.edu

关系判断:

  • 同机构作者群:Yale University 是核心作者群,包含 Fengzhuo Zhang、Dirk Bergemann、Zhuoran Yang;National University of Singapore 和 University of Minnesota 各有一位作者。
  • 跨机构桥接:Fengzhuo Zhang 标注 Yale University,但通讯邮箱为 NUS 邮箱,可能连接 Yale 与 NUS;Shuche Wang 与 Fengzhuo Zhang 为 equal contribution,Fengzhuo Zhang 为 project lead。
  • 与已存档作者重叠:未发现与当前 papers-index.md 中已归档论文的作者直接重叠。
  • 与已存档论文的主题或方法关系:与 2501.12948 DeepSeek-R1、2503.14476 DAPO、2606.00135 tool-calling RL 都有训练优化层关系:这些论文关注 post-training / RL 系统,本文关注 pretraining optimizer 的局部几何机制。与 2605.14220 TIM/VeXact 和 2025-09-10 batch-invariant inference 的关系较弱但可互补:它们提示数值路径和 kernel 实现会影响训练信号,本文提示 update direction 与 Hessian curvature 也会改变真实优化进展。与 2510.19315 同属较偏理论/形式解释的论文,但层级不同。
  • 需要后续确认:是否有官方代码、Muon 在更大模型或非 causal LM 上的曲率验证、Fengzhuo Zhang 的机构桥接背景。

一句话结论

这篇论文给 Muon 相比 Adam 更快训练提供了一个局部曲率解释:在 matched validation loss 下,Muon 和 Adam 的一阶收益相近,差距主要来自二阶 Hessian curvature penalty;进一步分解发现二阶差距主要由 Muon update direction 的 Normalized Directional Sharpness (NDS) 更低造成,step size 对差距的解释力较弱。数据越不均衡,Adam 的 NDS 增长越明显,Muon 的优势越大;结构化二次模型进一步说明,Muon 的 spectral normalization 会把 update energy 更均匀地分散到高/低曲率模式,从而降低方向性曲率代价。

阅读目标与判断边界

本笔记关注:

  1. 论文如何用二阶 Taylor expansion 分解 Muon/Adam 的 one-step loss decrease。
  2. NDS 如何把 update scale 与 update direction 的 curvature exposure 分开。
  3. 数据不均衡和 layer-wise Hessian structure 如何影响 Muon 的优势。
  4. 结构化 matrix-block quadratic model 给出的理论解释。
  5. 它与已归档 LLM training / RL system 论文的关系。

判断边界:

  • 论文主要验证 causal LMs;作者明确把 diffusion 等其他模型类型留作 future work。
  • 主实验是 124M NanoGPT + FineWeb-10B;曲率计算受 Hessian-vector product 和参数规模约束,未覆盖 billion-scale production training。
  • 理论部分比较 Muon 与 GD,原因是 Adam 在该 structured quadratic model 中缺少简单 closed-form;Adam 与 GD 的接近主要由合成实验支持。
  • Muon 在真实训练中通常只应用于 matrix parameters,embedding、lm head 和 1D parameters 仍用 Adam;本文结论主要针对 matrix update direction。

论文脉络

1. 问题背景

Muon 近年在 LLM pretraining 中被用作 Adam 的替代或补充,报告中常见约 2x 训练效率收益。Muon 的核心差异在于它利用 matrix structure:对 momentum matrix 做 spectral normalization,把非零 singular values 拉到同一尺度,实际实现通常用 Newton-Schulz 近似 polar factor。

已有解释主要从 associative memory、long-tailed data 或 matrix-norm steepest descent 角度说明 Muon 的优势。本文换一个问题问法:如果在同一局部训练 landscape 上看 optimizer 真实 update,Muon 相比 Adam 到底少付了哪种局部几何代价?

2. 核心假设或切入点

论文的核心切入点是:optimizer 之间的差距不只体现在一阶 gradient alignment,也体现在沿各自 update direction 遇到的 Hessian curvature。

对一次 update WWZW \to W-Z,训练 loss decrease 可用二阶 Taylor approximation 表示:

ΔD(W,Z)G,Z12Z,H[Z] \Delta_{\mathcal{D}}(W,Z) \approx \langle G,Z\rangle-\frac{1}{2}\langle Z,H[Z]\rangle

其中:

  • G,Z\langle G,Z\rangle 是 first-order decrease,表示 update 与 gradient 的对齐收益。
  • 12Z,H[Z]\frac{1}{2}\langle Z,H[Z]\rangle 是 curvature penalty,表示沿这个方向走一步被局部曲率抵消掉的收益。

如果两个 optimizer 的一阶收益类似,但一个 optimizer 沿 update direction 进入更低曲率区域,它就能获得更大的 realized one-step loss decrease。

3. 方法 / 系统 / 理论框架

Adam 与 Muon update

Adam 对每个 coordinate 用一阶/二阶矩估计做 element-wise normalization:

ZtAdam=ηtMtVt+ϵ Z_t^{\mathrm{Adam}} = \eta_t\frac{M'_t}{\sqrt{V'_t}+\epsilon}

Muon 对 matrix parameter 的 momentum BtB_t 做 spectral normalization:

Bt=UtStVt B_t=U_tS_tV_t^\top
Ot=UtVt O_t=U_tV_t^\top
ZtMuon=ηtOt Z_t^{\mathrm{Muon}}=\eta_tO_t

这个 update 是 scale-invariant 的:把 BtB_t 乘上正标量,不改变 update direction。

Curvature penalty 分解

论文定义 Normalized Directional Sharpness (NDS):

SF(W;Z)=Z,H[Z]ZF2 S_F(W;Z)=\frac{\langle Z,H[Z]\rangle}{\lVert Z\rVert_F^2}

于是 curvature penalty 可以分解为:

ID(2)(W,Z)=12ZF2SF(W;Z) I_{\mathcal{D}}^{(2)}(W,Z) = \frac{1}{2}\lVert Z\rVert_F^2 S_F(W;Z)

这让作者能区分两件事:

  • update norm 小,所以二阶 penalty 小。
  • update direction 遇到更低 curvature,所以二阶 penalty 小。

论文发现 Muon 和 Adam 的 update norm 相近,差距主要来自 Muon 的 NDS 更低。

数据不均衡实验

为了控制 data imbalance,作者构造 Zipf-PCFG synthetic corpus:

  • vocabulary 4,411 tokens,加 EOS 共 4,412。
  • 20 个 grammatical classes。
  • 30 个 latent topics。
  • token emission 由 topic-specific base probability 和 rank-based Zipf reweighting 控制。
  • imbalance level s ∈ {0, 0.5, 1}s 越大,token distribution 越集中。

实验使用 9M NanoGPT,4 layers、4 attention heads、hidden dimension 256,训练 10,000 steps。

Layer-wise NDS decomposition

作者把 full Hessian 按 layer block 分解:

  • diagonal blocks HH_{\ell\ell}:within-layer curvature。
  • off-diagonal blocks HH_{\ell\ell'}:cross-layer interactions。

NDS 被拆成:

SF=SFwithin+SFcross S_F = S_F^{\mathrm{within}} + S_F^{\mathrm{cross}}

这样可以看 Muon 的低 NDS 来自层内曲率,还是层间交互。

Structured matrix-block quadratic model

理论部分把局部 loss 近似为一个 matrix-block quadratic model:

Q(Y)=L(W0)G,Y+12Y,H[Y] Q(Y)=L(W_0)-\langle G,Y\rangle+\frac{1}{2}\langle Y,H[Y]\rangle

为模拟 LLM pretraining 中 matrix block 的 Hessian,作者引入四个假设:

  1. Hessian low Kronecker-rank:block Hessian 可由少量 Kronecker products 近似。
  2. Simultaneous diagonalization:Kronecker factors 近似共享 orthogonal eigenbasis。
  3. Curvature heterogeneity:positive paired curvatures 呈高/低两组且长尾。
  4. Gradient alignment:gradient energy 偏向高曲率 modes。

这些假设都通过 attention matrices 的 dense block Hessian 做了经验验证。

4. 结论链条

论文的证据链是:

  1. 二阶 Taylor approximation 能较好预测 one-step loss decrease。
  2. Muon 与 Adam 的 first-order decrease 接近。
  3. Muon 的 realized loss decrease 更大,主要因为 second-order curvature penalty 更小。
  4. curvature penalty 差距由 NDS 差距解释,update norm 差距接近 1。
  5. 数据不均衡会提高两者 NDS,但 Adam 增长更快,因此 Muon 的 NDS advantage 放大。
  6. Muon 的低 NDS 在训练中逐渐更多由 within-layer Hessian blocks 支撑。
  7. 结构化二次模型说明,Muon 的 spectral normalization 均衡高/低曲率 modes 的 update energy,降低 average NDS;曲率异质性足够强时,Muon 还能在同等步数后获得更低 local quadratic loss。

关键实验/定理

结果 1:Muon 的 one-step loss decrease 更大,主因是二阶曲率惩罚更小

  • 设置:124M NanoGPT,12 Transformer layers、12 heads、hidden dimension 768,GPT-2 tokenizer vocab 50,257;FineWeb-10B,sequence length 1024;Adam 与 Muon learning rate 都用 grid search。
  • 指标:realized loss decrease、predicted loss decrease、first-order decrease G,Z\langle G,Z\rangle、curvature penalty 12Z,H[Z]\frac{1}{2}\langle Z,H[Z]\rangle
  • 结果:在 matched validation loss 下,Muon 的 realized one-step loss decrease 更大;Muon 和 Adam 的 first-order decrease 相近;Adam 的 curvature penalty 明显高于 Muon。
  • 解读:Muon 的优势主要出现在二阶项;一阶 gradient alignment 的差距较小。

结果 2:curvature penalty 差距主要来自 NDS

  • 设置:同 124M NanoGPT + FineWeb 主实验;计算 update norm 与 NDS,按 validation loss 对齐。
  • 指标:ZF2\lVert Z\rVert_F^2、NDS、curvature penalty,Adam-to-Muon ratios。
  • 结果:Muon 和 Adam update norm 接近;Adam-to-Muon NDS ratio 在 matched validation loss 下平均为 1.76;curvature penalty ratio 与 NDS ratio 紧密跟随。按 training step 对齐时,NDS ratio 均值为 2.94。
  • 解读:Muon update 的 curvature penalty 更低,主要因为它选到了更低 directional sharpness 的 matrix direction。

结果 3:数据不均衡放大 Adam-Muon 的 NDS gap

  • 设置:Zipf-PCFG corpus,imbalance levels s{0,0.5,1}s\in\{0,0.5,1\};9M NanoGPT,4 layers、4 heads、dimension 256;训练 10,000 steps。
  • 指标:trajectory-averaged NDS,归一化到 Muon 在 s=0s=0 的值;Adam-Muon NDS gap Δ(s)\Delta(s)
  • 结果:Adam normalized NDS 从 1.63 增至 2.38;Muon 从 1.00 增至 1.25;gap 从 0.63 增至 1.13,约 1.8x。
  • 解读:长尾/不均衡数据更容易让 Adam update 暴露在高曲率方向,Muon 的 spectral normalization 对这种集中性更鲁棒。

结果 4:Muon 的 NDS 逐渐更多由 within-layer Hessian blocks 支撑

  • 设置:在 124M NanoGPT 主实验中,对 NDS 做 within-layer / cross-layer decomposition。
  • 指标:SFwithinS_F^{\mathrm{within}}SFcrossS_F^{\mathrm{cross}}、within-layer fraction。
  • 结果:Muon 的 within-layer fraction 从约 14% 增至约 44%;Adam 从约 27% 增至约 34%。Muon 的 within-layer 和 cross-layer NDS 都低于 Adam。Appendix 显示 Adam-Muon within-layer gap 约 70% 来自 L1 与 L12,约 28% 来自 L8-L11,中间层 L2-L7 约 2%。
  • 解读:训练中后期,Muon 的曲率优势更多由层内 matrix blocks 的低 directional sharpness 维持,且边界层和深层贡献最大。

结果 5:structured quadratic model 支持 Muon 的低 NDS 机制

  • 设置:单个 matrix block 的 local quadratic model,假设 Hessian low Kronecker-rank、近似 simultaneous diagonalization、curvature heterogeneity、gradient alignment。
  • 指标:finite-horizon averaged NDS、local quadratic loss。
  • 结果:Theorem 5.5 证明,在这些假设下,对任意 finite horizon T1T\ge 1,Muon 的 average NDS 小于 GD;若 curvature ratio ρ=wH/wL\rho=w_H/w_L 足够大并满足 ρ+1>1/α>1+σH/σL\rho+1>1/\alpha>1+\sigma_H/\sigma_L,Muon 在同样步数后获得更低 local quadratic loss。
  • 解读:Muon 把 update amplitude 均匀分散到 active curvature modes,而 GD/Adam-like gradient-concentrated updates 会把更多能量压到高曲率 modes 上,导致 NDS 更高。

结果 6:理论假设有经验支撑

  • 设置:使用 Zipf-PCFG + Muon 训练后的 checkpoint,对 attention matrices WQ,WK,WV,WOW_Q,W_K,W_V,W_O 计算 dense Hessian;每个 block Hessian 为 65,536×65,53665{,}536\times65{,}536
  • 指标:Kronecker approximation energy、simultaneous diagonalization score、positive curvature heterogeneity、gradient energy in positive paired modes。
  • 结果:rank-4 Kronecker approximation 的 Frobenius energy ratio 对 WQ/WK/WV/WOW_Q/W_K/W_V/W_O 分别为 0.75/0.95/0.87/0.71;joint diagonalization score AkA_k 为 0.892、BkB_k 为 0.845;positive curvature spectrum span 超过 6 orders,w1/w882.59×106w_1/w_{88}\approx 2.59\times10^6;positive subspace 捕获 87.1% gradient energy,paired-diagonal component 贡献 88.0% 的 Hessian quadratic form。
  • 解读:结构化二次模型是强理想化,但有经验支撑;它捕捉了 attention matrix block Hessian 的主要低秩、长尾和 gradient alignment 特征。

证据链强度评估

强证据

  • 二阶 Taylor 分解、NDS 分解、data imbalance、layer decomposition 形成较完整的经验链条。
  • matched validation loss 对齐减少了“Muon 已经训练得更远”带来的比较偏差。
  • update norm ratio 接近 1,使“方向性曲率”解释比“步长更小”解释更有说服力。
  • Zipf-PCFG 实验可控地改变 imbalance,能验证数据分布对 NDS gap 的影响。
  • 理论模型的四个假设都用真实训练 checkpoint 的 attention block Hessian 做了经验验证。

中等强度证据

  • 主实验规模为 124M NanoGPT,虽然对 Hessian 研究已经较大,但距离 frontier pretraining 仍有差距。
  • Adam 在 structured quadratic theory 中被 GD 替代;合成实验支持 Adam/GD 接近,但这仍是一个理论简化。
  • NDS 是局部二阶指标,解释 one-step loss decrease 很强,但长期训练效率还受 optimizer state、lr schedule、regularization、batch noise 和 implementation 影响。
  • 研究集中在 causal LMs;其他模型架构和任务需要复验。

需要谨慎的推论

  • 不能直接从本文推出“所有模型都应使用 Muon”。论文解释的是 Muon 在 matrix parameters 上的局部曲率优势,实际训练仍需要处理 embeddings、1D parameters、fine-tuning compatibility、distributed cost 和 optimizer state。
  • NDS 低说明局部 curvature penalty 小,但不单独保证最终泛化更好。
  • 数据不均衡实验用合成 Zipf-PCFG,可控性强,真实 web-scale corpus 的 topic、syntax、semantic long-tail 更复杂。
  • 理论中的 two-group curvature / gradient structure 用于可解析分析,实际 Hessian spectrum 更连续、含非正曲率和跨层耦合。

本地讨论补充

1. 讨论收敛点

  • 本轮阅读尚未展开进一步讨论;初步判断是,这篇适合作为本地档案中 optimizer geometry 的新节点。
  • 它补充了训练系统论文里较少展开的一层:同样的模型/数据/训练预算下,optimizer update direction 会如何选择局部 Hessian curvature。
  • 对后续阅读 Muon、SOAP、Shampoo、Muon^2、LoRA-Muon 或 RL training optimizer 论文,这篇提供一个可复用指标:NDS。

2. 修正后的理解

  • Muon 的 advantage 在本文语境下应精确表述为:在 matrix-valued parameters 的 update direction 上,它更少暴露于高曲率方向,从而降低二阶 curvature penalty。
  • “Muon 更快”在这篇论文里不能直接归因于更大 update norm;作者专门显示 update norm 与 Adam 接近。
  • 数据不均衡会同时影响 loss distribution,以及 optimizer 沿 update direction 遇到的 Hessian curvature。

3. 后续复验指标

  • training dynamics:matched validation loss 下的 first-order decrease、curvature penalty、realized loss decrease。
  • geometry:NDS、update norm ratio、Adam/Muon curvature penalty ratio。
  • data:token frequency tail exponent、topic/class imbalance、NDS gap vs imbalance level。
  • model structure:within-layer / cross-layer NDS decomposition、layerwise NDS gap localization。
  • scalability:模型规模、sequence length、batch size、Muon Newton-Schulz iterations、distributed overhead。
  • compatibility:Adam-pretrained model fine-tuning、embedding/lm_head optimizer split、LoRA/adapter setting。

4. 优化器横向对比:计算方法、成本来源、性能来源

本节是本地讨论后的分析收敛,用来把 Muon 放进更宽的 optimizer design space。表中“性能为何好”区分论文证据、机制解释和工程评注;工程评注只作为 hypothesis,后续需要按模型规模、batch size、数据分布、implementation 和 learning-rate schedule 复验。

符号约定:参数为 θ\theta,矩阵参数为 WW,梯度为 gtg_tGtG_t,学习率为 η\eta,momentum 为 mtm_t,二阶矩估计为 vtv_t,weight decay 为 λ\lambda

Optimizer 计算方法 为什么代价高 性能为何好 证据与评论
SGD / Momentum SGD:θt+1=θtηgt\theta_{t+1}=\theta_t-\eta g_t。Momentum:mt=βmt1+(1β)gtm_t=\beta m_{t-1}+(1-\beta)g_tθt+1=θtηmt\theta_{t+1}=\theta_t-\eta m_t。Nesterov 类方法会在 look-ahead 位置估计梯度。 单步计算和显存最低;主要高代价来自训练总预算。它缺少 per-coordinate 或 matrix-aware scaling,在 ill-conditioned landscape、稀疏梯度、长尾数据或 Transformer 大规模训练中,往往需要更保守学习率、更多 warmup 和更长训练步数。 简单、低状态、低通信,对视觉任务和理论分析很干净。Momentum 对持续一致的梯度方向做指数累积,能降低 mini-batch 噪声并加速 valley 方向移动。 Polyak heavy-ball / momentum 是优化基础方法。对 LLM pretraining,它更适合作为 baseline 或 memory lower bound;若总训练 token 和 wall-clock 也计入成本,低单步成本未必转化为低总成本。
Adam / AdamW Adam 维护一阶矩和二阶矩:mt=β1mt1+(1β1)gtm_t=\beta_1m_{t-1}+(1-\beta_1)g_tvt=β2vt1+(1β2)gt2v_t=\beta_2v_{t-1}+(1-\beta_2)g_t^2,用 m^t/(v^t+ϵ)\hat m_t/(\sqrt{\hat v_t}+\epsilon) 更新。AdamW 在参数更新外单独做 decoupled weight decay:θ(1ηλ)θηm^t/(v^t+ϵ)\theta\leftarrow (1-\eta\lambda)\theta-\eta\hat m_t/(\sqrt{\hat v_t}+\epsilon) 每个参数至少需要 mtm_tvtv_t 两份 optimizer state,混合精度训练还常保留 FP32 master weights,显存和通信都重。元素级二阶矩只捕获 diagonal curvature,无法直接利用矩阵结构;在本文的 NDS 视角下,Adam 对 matrix update direction 的选择可能更容易落入高曲率方向。 对 noisy、sparse、non-stationary 梯度很稳,调参经验丰富,是 pretraining、fine-tuning 和 RL post-training 的默认基线。AdamW 的 decoupled weight decay 让正则强度和 adaptive update 解耦,改善泛化和可调性。 Adam 原论文强调 lower-order moments、diagonal rescaling、适合 noisy/sparse gradients;AdamW 论文说明 decoupled weight decay 改善 Adam 的 weight decay 行为。Muon 曲率论文进一步指出:在 matched validation loss 下,Adam 与 Muon first-order gain 接近,差距主要来自 second-order curvature penalty / NDS。
Muon 对 2D matrix parameters 先做 SGD-momentum,得到 MtM_t,再用 Newton-Schulz 近似 matrix zeroth power / semi-orthogonalization:若 Mt=USVM_t=USV^\top,理想更新方向近似 UVUV^\top。实际训练通常把 hidden linear matrices 交给 Muon,把 embedding、lm head、norm、bias、1D 参数交给 AdamW。 需要对每个矩阵更新做若干次 matrix-matrix multiplication,Newton-Schulz 的 shape、精度、iteration count 和 sharding 都会影响吞吐。分布式训练中,orthogonalization 和 per-parameter update scale 需要额外工程处理。它的 memory state 通常少于 AdamW,但 compute/kernel/communication 复杂度更高。 Orthogonalized update 会把 singular directions 的能量拉平,减少某些高曲率 mode 上的能量集中。本文把收益解释为 lower NDS:update norm 与 Adam 接近,主要优势来自方向进入更低曲率区域。长尾/不均衡数据会放大这种差异。 Keller Jordan 的 Muon 技术说明把 Muon 描述为 momentum + Newton-Schulz orthogonalization;Muon is Scalable for LLM Training 报告约 2×2\times compute efficiency,并指出 weight decay 和 per-parameter update scale 是扩展关键;本文提供 curvature/NDS 机制解释。工程评注:Muon 更像 pretraining-time optimizer choice,fine-tuning 兼容性和 hybrid 参数分组需要实测。
Shampoo 对矩阵 GtRm×nG_t\in\mathbb{R}^{m\times n} 维护行/列方向 preconditioner,例如 Lt=GtGtL_t=\sum G_tG_t^\topRt=GtGtR_t=\sum G_t^\top G_t,更新近似为 Lt1/4GtRt1/4L_t^{-1/4}G_tR_t^{-1/4}。高阶 tensor 则按每个 mode 维护 preconditioner。 需要存储 m×mm\times mn×nn\times n 等 preconditioner,并周期性计算 inverse root / eigendecomposition。大矩阵、分布式 shard、数值稳定和 preconditioner refresh frequency 都会带来系统成本。 它利用矩阵/张量结构做 second-order preconditioning,比 diagonal Adam 捕获更多 curvature / covariance 信息。对 ill-conditioned 方向,preconditioning 能让 step 更接近自然尺度,从而减少无效震荡和步数。 Shampoo 原论文给出 stochastic convex convergence 分析,并展示在深度模型上更快收敛。工程评注:Shampoo 的科学吸引力在结构化二阶信息,落地难点在 preconditioner memory、inverse root kernel 和分布式实现。
SOAP 在 Shampoo preconditioner 的 eigenbasis 中运行 Adam/Adafactor 式二阶矩。典型形式:周期性得到 QL,QRQ_L,Q_R,把梯度旋转到 G~t=QLGtQR\tilde G_t=Q_L^\top G_tQ_R,在该坐标系维护 Adam-like second moment,再旋回原坐标更新。 比 AdamW 多 preconditioner、basis rotation 和周期性 eigendecomposition;比 Shampoo 更依赖 refresh frequency 和额外实现细节。它减少了频繁 eigendecomposition 的损失,但仍需要高质量矩阵 kernel 和分布式支持。 它保留 Shampoo 的 matrix-aware 坐标系,又用 Adam-style running second moment 在慢变化 basis 中连续更新,缓解 infrequent eigendecomposition 带来的性能退化。 SOAP 论文把 Shampoo 和 Adafactor 联系起来,并报告在 360M/660M LLM large-batch pretraining 中,相比 AdamW 减少超过 40% iterations、超过 35% wall-clock,相比 Shampoo 也有约 20% 改善。工程评注:SOAP 适合 batch 足够大、optimizer step 成本能被收益摊薄的训练。
Adafactor 对矩阵不存完整 vtv_t,只存 row accumulator rtr_t 和 column accumulator ctc_t,用 ricj/rˉr_i c_j/\bar r 近似每个元素的 second moment,再做 Gt/V^tG_t/\sqrt{\hat V_t} 更新。常配合 relative step size、update clipping,并可省略一阶 momentum。 显存代价很低;主要风险来自 factored approximation。它把完整 per-parameter second moment 压缩为行列统计,若梯度方差结构不满足近似假设,scale 会偏。论文也指出 second-moment decay 太慢时可能产生过大更新。 它保留 adaptive scaling 的大部分收益,同时把大矩阵 optimizer state 从 O(mn)O(mn) 降到 O(m+n)O(m+n)。在超大 embedding / FFN matrix 上,memory saving 直接转化为更大 batch 或更大模型可训练性。 Adafactor 论文题目即强调 sublinear memory cost,并提出 row/column sums 估计 second moments。科学评注:Adafactor 是 memory-efficient Adam 的早期代表,适合解释后来 GaLore/APOLLO 等方法的目标函数:保留有用 scale 信息,压缩 optimizer state。
8-bit Adam / 8-bit AdamW 保留 Adam/AdamW 的 mt,vtm_t,v_t 语义,但把 optimizer states 做 block-wise dynamic quantization 到 8-bit。更新时 dequantize / compute / requantize,并对不同 block 使用独立 scale 处理 outliers。 计算上多了 quantize/dequantize 和 block scale 管理;数值上要处理 outlier、small tensor、embedding gradient variance 和 rounding error。系统收益依赖高效 kernel;若量化误差和通信布局处理不好,会损失稳定性。 它最大限度保留 AdamW 的训练行为和超参习惯,同时显著降低 optimizer state 显存。block-wise quantization 避免单个全局 scale 被 outlier 主导。 8-bit optimizers 论文报告在语言建模、GLUE、ImageNet、WMT 等任务上接近 32-bit optimizer 性能,同时显著降低 memory footprint。工程评注:这是“尽量不改变优化语义,只压缩状态表示”的路线。
GaLore 对梯度矩阵做低秩投影。周期性用 SVD 或低秩分解估计梯度子空间,把 GtG_t 投到 rank-rr 空间,在低维坐标上运行 AdamW/Adafactor 等 optimizer states,再把 update lift 回 full parameter space。权重本身仍可 full-parameter 更新。 主要代价来自 SVD / subspace refresh、projection/lifting kernel 和 rank/frequency 超参。若真实梯度包含重要高秩成分,低秩投影会丢失方向;若 refresh 太频繁,计算代价上升;太稀疏,子空间滞后。 LLM 梯度矩阵常呈现可利用的低秩结构,optimizer state 存在低秩坐标中可大幅降显存,同时避免 LoRA 式冻结大部分原权重带来的搜索空间限制。 GaLore 论文报告 optimizer states 最高降低 65.5%,8-bit GaLore 进一步降低 optimizer memory,并展示 7B 模型在 24GB consumer GPU 上预训练的可行性。科学评注:它把“full-parameter learning”和“低秩 optimizer state”解耦,是 memory-efficient training 的关键路线。
APOLLO / APOLLO-Mini 将 AdamW 的 per-coordinate learning-rate adaptation 粗化为 structured learning-rate update。APOLLO 用随机投影得到低秩 auxiliary optimizer state 来近似 gradient scaling;APOLLO-Mini 用 rank-1 / tensor-wise scaling 进一步压缩状态。 相比 GaLore 避免 SVD,但仍有 random projection、scale estimation 和 approximation error。高压缩版本会把很多 per-coordinate 信息合并为粗粒度 scale,风险是局部不均匀曲率或 layer-specific 梯度结构无法充分表达。 如果 AdamW 的很多收益来自可粗化的 scale adaptation,低秩或 tensor-wise scale 就能保留主要训练收益,同时几乎去掉 m,vm,v 的大显存负担。省下的显存可换更大 batch、更少 offload 或更大模型。 APOLLO 论文报告接近或超过 AdamW 的 LLM pretraining / full-parameter fine-tuning 性能,并称 APOLLO-Mini 以 SGD-level memory cost 获得强结果。科学评注:它代表“压缩 adaptive scale 本身”的路线,证据强度仍需要更多独立复现和更大规模公开训练验证。
Lion 只维护 momentum。先算 ut=β1mt1+(1β1)gtu_t=\beta_1m_{t-1}+(1-\beta_1)g_t,用 sign 更新:θt+1=θtη(sign(ut)+λθt)\theta_{t+1}=\theta_t-\eta(\mathrm{sign}(u_t)+\lambda\theta_t),再更新 mt=β2mt1+(1β2)gtm_t=\beta_2m_{t-1}+(1-\beta_2)g_t 单步和显存都低;主要代价来自 sign update 的粗粒度。它抛弃梯度幅值信息,每个参数更新同幅度,通常需要比 Adam 更小学习率;在需要精细 per-coordinate scaling 的任务上可能更敏感。 Sign + momentum 对梯度尺度不敏感,memory 只有一份 momentum state。大 batch 下梯度方向更稳定,sign update 的方向投票效应更容易发挥。 Lion 论文报告它比 Adam 更省内存,只跟踪 momentum,并在视觉、视觉语言、diffusion、语言任务中取得相近或更好结果,同时指出需要更小 learning rate,且部分场景提升有限。工程评注:Lion 是低状态 sign optimizer 的强基线,也启发后续 LionMuon / SAGE 等 hybrid 方法。

综合判断:

  • AdamW 是最稳健的默认点,适合把问题先跑通;它的高代价主要是 optimizer state 和 diagonal approximation。
  • Muon 的优势集中在 matrix parameters 的 update geometry;本文把它解释为更低 NDS 和更小 curvature penalty。
  • Shampoo / SOAP 代表 structured preconditioning 路线,性能潜力强,系统代价也最明显。
  • Adafactor、8-bit AdamW、GaLore、APOLLO 代表 memory-efficient optimizer 路线,核心问题是压缩掉多少 state 后仍保留足够的 adaptive scaling 信息。
  • Lion / SGD-Momentum 是低状态基线。它们的单步成本低,但在 LLM pretraining 中可能把代价转移为更多训练步数和更强超参敏感性。

参考来源:

主要启发

  • 优化器比较需要看 update direction 进入了什么曲率区域。只看 gradient alignment 或 loss curve,会漏掉二阶 curvature penalty。
  • NDS 是很有用的诊断量:它把 update scale 从 curvature exposure 中剥离出来,能判断一个 optimizer 选的方向是否更“平”。
  • Muon 的 spectral normalization 可理解为把 update energy 均匀分散到 singular modes,减少高曲率 mode 的能量集中。
  • 长尾数据会放大 optimizer 差异,因为它可能让 Hessian curvature 和 gradient energy 更集中在少数 modes。
  • 对 LLM pretraining,optimizer、data distribution、matrix block Hessian structure 之间存在强耦合。

局限

  1. 主实验规模为 124M NanoGPT,Hessian 计算成本限制了更大模型验证。
  2. 理论分析比较 Muon 与 GD,Adam 的行为通过合成实验间接支持,缺少同等闭式分析。
  3. 论文主要覆盖 causal LM pretraining;diffusion、vision、RL post-training、fine-tuning 等场景未验证。
  4. NDS 是局部二阶指标,长期训练中的 stochasticity、schedule、regularization 和 optimizer implementation 仍可能改变结论强度。
  5. Zipf-PCFG 数据不均衡实验可控但简化,真实 web corpus 的 long-tail 机制更复杂。
  6. Muon 实际部署涉及 Newton-Schulz 近似、matrix shape、分布式通信和 hybrid Adam/Muon 参数分组,这些系统成本超出本文重点。

跨论文关系

  • 2501.12948 的作者关系:未发现作者重叠。主题关系中等。DeepSeek-R1/R1-Zero 关注 RL post-training 与 reasoning emergence,本文关注 pretraining optimizer 的局部几何;两者都服务“训练为什么有效”的机制解释。
  • 2503.14476 的作者关系:未发现作者重叠。方法关系中等。DAPO 通过 GRPO recipe 管理 long-CoT RL 的有效梯度、长度和 reward noise;本文通过 NDS 解释 optimizer update direction 的 curvature cost。两者都把训练收益拆成可诊断项。
  • 2605.14220 的作者关系:未发现作者重叠。关系中等偏弱。TIM/VeXact 关注 rollout/trainer logprob mismatch 引入的系统偏差,本文关注 optimizer direction 与 Hessian curvature;二者共同说明训练稳定性受到数值路径和局部几何的双重影响。
  • 2409.192562606.00135 的作者关系:未发现作者重叠。主题关系较弱到中等。HybridFlow 和 tool-calling RL 关注 post-training 系统效率,本文提供 optimizer-level 解释;未来 RL training 也可能需要比较 Adam/Muon/structured optimizers 的 NDS 与 policy update 稳定性。
  • 2510.19315 的作者关系:未发现作者重叠。关系较弱。两者都偏理论解释,但前者研究 Transformer 表达简洁性,本文研究 optimizer curvature geometry。
  • 2606.06453 的机构关系:无作者重叠,但都涉及 National University of Singapore 网络;Vortex 的 Michael Qizhe Shieh 来自 NUS,本文 Shuche Wang 来自 NUS。主题关系弱,一个是 serving systems,一个是 optimizer geometry。
  • 2606.040752605.315142605.302902606.04101 的关系主要停留在 LLM 训练/系统背景层面,没有直接方法复用。

Reference Intake Brief

Target

  • Intended target system: 新增 Muon / optimizer geometry 独立论文笔记;更新 papers-index.md 的 optimizer curvature cluster。
  • Existing related assets: papers-index.md2501.12948-deepseek-r1-rl-reasoning.md2503.14476-dapo-long-cot-rl-system.md2605.14220-training-inference-mismatch-llm-rl.md
  • Proposed form: 新建独立 Markdown 文档并更新索引。

Reusable Elements

  1. 二阶 Taylor loss-decrease 分解。
  2. NDS 定义与 curvature penalty factorization。
  3. Zipf-PCFG 数据不均衡实验。
  4. within-/cross-layer NDS decomposition。
  5. structured matrix-block quadratic model 和 Muon energy balancing 机制。

Risks

  • Copyright/over-copying: 本笔记使用转述和公式摘要,未复制长段论文正文。
  • Unsourced or unverifiable claims: 代码未公开;实验设置和数值来自 arXiv HTML / TeX source。
  • Tone/brand mismatch: 中文表达遵循本目录规则,避免对照式否定句。
  • Safety/compliance issues: 论文为优化理论和训练机制研究,无直接安全滥用内容。
  • Overlap with existing assets: 当前档案缺 optimizer geometry cluster,本篇适合新建主题节点。

Skipped

Material Reason
完整 proof algebra 笔记保留 Theorem 5.5 条件、结论和直觉,详细证明可回到 appendix
全部 related work Muon 相关文献很多,本笔记只记录和本文主张直接相关的解释线
所有 Hessian heatmap 文档保留关键数值和假设验证结果
JADE algorithm 细节 已记录 simultaneous diagonalization score,具体旋转算法可按需回看 appendix

Recommendation

Decision: merge。

Why: 这篇论文为 Muon 的训练效率优势提供了可诊断的局部曲率机制,补齐本地档案中 optimizer-level mechanism 的空白,也能为后续读 pretraining optimizer、RL optimizer 或训练稳定性论文提供 NDS 这一可复用分析工具。