2606.04662-muon-outperforms-adam-curvature
Why Muon Outperforms Adam: A Curvature Perspective
这篇论文给 Muon 相比 Adam 更快训练提供了一个局部曲率解释:在 matched validation loss 下,Muon 和 Adam 的一阶收益相近,差距主要来自二阶 Hessian curvature penalty;进一步分解发现二阶差距主要由 Muon update direction 的 Normalized Directional Sharpness (NDS) 更低造成,step size 对差距的解释力较...
Source
- Title: Why Muon Outperforms Adam: A Curvature Perspective
- arXiv: https://arxiv.org/abs/2606.04662
- HTML v1: https://arxiv.org/html/2606.04662v1
- PDF: https://arxiv.org/pdf/2606.04662
- TeX Source: https://arxiv.org/e-print/2606.04662
- Code/Project: 未发现官方公开仓库;实验使用 Modded-NanoGPT 作为 code base。
- Authors: Shuche Wang, Fengzhuo Zhang, Jiaxiang Li, Dirk Bergemann, Zhuoran Yang
- Submitted: 2026-06-03
- Current version read: v1, submitted 2026-06-03
- PDF pages: 12
- DOI: https://doi.org/10.48550/arXiv.2606.04662
- Subjects: Machine Learning (cs.LG)
作者与关系
- Shuche Wang: National University of Singapore。Equal contribution。
- Fengzhuo Zhang: Yale University。Equal contribution;Project Lead;corresponding author email
fzzhang@u.nus.edu。 - Jiaxiang Li: University of Minnesota。
- Dirk Bergemann: Yale University。
- Zhuoran Yang: Yale University。Corresponding author email
zhuoran.yang@yale.edu。
关系判断:
- 同机构作者群:Yale University 是核心作者群,包含 Fengzhuo Zhang、Dirk Bergemann、Zhuoran Yang;National University of Singapore 和 University of Minnesota 各有一位作者。
- 跨机构桥接:Fengzhuo Zhang 标注 Yale University,但通讯邮箱为 NUS 邮箱,可能连接 Yale 与 NUS;Shuche Wang 与 Fengzhuo Zhang 为 equal contribution,Fengzhuo Zhang 为 project lead。
- 与已存档作者重叠:未发现与当前
papers-index.md中已归档论文的作者直接重叠。 - 与已存档论文的主题或方法关系:与
2501.12948DeepSeek-R1、2503.14476DAPO、2606.00135tool-calling RL 都有训练优化层关系:这些论文关注 post-training / RL 系统,本文关注 pretraining optimizer 的局部几何机制。与2605.14220TIM/VeXact 和2025-09-10batch-invariant inference 的关系较弱但可互补:它们提示数值路径和 kernel 实现会影响训练信号,本文提示 update direction 与 Hessian curvature 也会改变真实优化进展。与2510.19315同属较偏理论/形式解释的论文,但层级不同。 - 需要后续确认:是否有官方代码、Muon 在更大模型或非 causal LM 上的曲率验证、Fengzhuo Zhang 的机构桥接背景。
一句话结论
这篇论文给 Muon 相比 Adam 更快训练提供了一个局部曲率解释:在 matched validation loss 下,Muon 和 Adam 的一阶收益相近,差距主要来自二阶 Hessian curvature penalty;进一步分解发现二阶差距主要由 Muon update direction 的 Normalized Directional Sharpness (NDS) 更低造成,step size 对差距的解释力较弱。数据越不均衡,Adam 的 NDS 增长越明显,Muon 的优势越大;结构化二次模型进一步说明,Muon 的 spectral normalization 会把 update energy 更均匀地分散到高/低曲率模式,从而降低方向性曲率代价。
阅读目标与判断边界
本笔记关注:
- 论文如何用二阶 Taylor expansion 分解 Muon/Adam 的 one-step loss decrease。
- NDS 如何把 update scale 与 update direction 的 curvature exposure 分开。
- 数据不均衡和 layer-wise Hessian structure 如何影响 Muon 的优势。
- 结构化 matrix-block quadratic model 给出的理论解释。
- 它与已归档 LLM training / RL system 论文的关系。
判断边界:
- 论文主要验证 causal LMs;作者明确把 diffusion 等其他模型类型留作 future work。
- 主实验是 124M NanoGPT + FineWeb-10B;曲率计算受 Hessian-vector product 和参数规模约束,未覆盖 billion-scale production training。
- 理论部分比较 Muon 与 GD,原因是 Adam 在该 structured quadratic model 中缺少简单 closed-form;Adam 与 GD 的接近主要由合成实验支持。
- Muon 在真实训练中通常只应用于 matrix parameters,embedding、lm head 和 1D parameters 仍用 Adam;本文结论主要针对 matrix update direction。
论文脉络
1. 问题背景
Muon 近年在 LLM pretraining 中被用作 Adam 的替代或补充,报告中常见约 2x 训练效率收益。Muon 的核心差异在于它利用 matrix structure:对 momentum matrix 做 spectral normalization,把非零 singular values 拉到同一尺度,实际实现通常用 Newton-Schulz 近似 polar factor。
已有解释主要从 associative memory、long-tailed data 或 matrix-norm steepest descent 角度说明 Muon 的优势。本文换一个问题问法:如果在同一局部训练 landscape 上看 optimizer 真实 update,Muon 相比 Adam 到底少付了哪种局部几何代价?
2. 核心假设或切入点
论文的核心切入点是:optimizer 之间的差距不只体现在一阶 gradient alignment,也体现在沿各自 update direction 遇到的 Hessian curvature。
对一次 update
其中:
是 first-order decrease,表示 update 与 gradient 的对齐收益。 是 curvature penalty,表示沿这个方向走一步被局部曲率抵消掉的收益。
如果两个 optimizer 的一阶收益类似,但一个 optimizer 沿 update direction 进入更低曲率区域,它就能获得更大的 realized one-step loss decrease。
3. 方法 / 系统 / 理论框架
Adam 与 Muon update
Adam 对每个 coordinate 用一阶/二阶矩估计做 element-wise normalization:
Muon 对 matrix parameter 的 momentum
这个 update 是 scale-invariant 的:把
Curvature penalty 分解
论文定义 Normalized Directional Sharpness (NDS):
于是 curvature penalty 可以分解为:
这让作者能区分两件事:
- update norm 小,所以二阶 penalty 小。
- update direction 遇到更低 curvature,所以二阶 penalty 小。
论文发现 Muon 和 Adam 的 update norm 相近,差距主要来自 Muon 的 NDS 更低。
数据不均衡实验
为了控制 data imbalance,作者构造 Zipf-PCFG synthetic corpus:
- vocabulary 4,411 tokens,加 EOS 共 4,412。
- 20 个 grammatical classes。
- 30 个 latent topics。
- token emission 由 topic-specific base probability 和 rank-based Zipf reweighting 控制。
- imbalance level
s ∈ {0, 0.5, 1};s越大,token distribution 越集中。
实验使用 9M NanoGPT,4 layers、4 attention heads、hidden dimension 256,训练 10,000 steps。
Layer-wise NDS decomposition
作者把 full Hessian 按 layer block 分解:
- diagonal blocks
:within-layer curvature。 - off-diagonal blocks
:cross-layer interactions。
NDS 被拆成:
这样可以看 Muon 的低 NDS 来自层内曲率,还是层间交互。
Structured matrix-block quadratic model
理论部分把局部 loss 近似为一个 matrix-block quadratic model:
为模拟 LLM pretraining 中 matrix block 的 Hessian,作者引入四个假设:
- Hessian low Kronecker-rank:block Hessian 可由少量 Kronecker products 近似。
- Simultaneous diagonalization:Kronecker factors 近似共享 orthogonal eigenbasis。
- Curvature heterogeneity:positive paired curvatures 呈高/低两组且长尾。
- Gradient alignment:gradient energy 偏向高曲率 modes。
这些假设都通过 attention matrices 的 dense block Hessian 做了经验验证。
4. 结论链条
论文的证据链是:
- 二阶 Taylor approximation 能较好预测 one-step loss decrease。
- Muon 与 Adam 的 first-order decrease 接近。
- Muon 的 realized loss decrease 更大,主要因为 second-order curvature penalty 更小。
- curvature penalty 差距由 NDS 差距解释,update norm 差距接近 1。
- 数据不均衡会提高两者 NDS,但 Adam 增长更快,因此 Muon 的 NDS advantage 放大。
- Muon 的低 NDS 在训练中逐渐更多由 within-layer Hessian blocks 支撑。
- 结构化二次模型说明,Muon 的 spectral normalization 均衡高/低曲率 modes 的 update energy,降低 average NDS;曲率异质性足够强时,Muon 还能在同等步数后获得更低 local quadratic loss。
关键实验/定理
结果 1:Muon 的 one-step loss decrease 更大,主因是二阶曲率惩罚更小
- 设置:124M NanoGPT,12 Transformer layers、12 heads、hidden dimension 768,GPT-2 tokenizer vocab 50,257;FineWeb-10B,sequence length 1024;Adam 与 Muon learning rate 都用 grid search。
- 指标:realized loss decrease、predicted loss decrease、first-order decrease
、curvature penalty 。 - 结果:在 matched validation loss 下,Muon 的 realized one-step loss decrease 更大;Muon 和 Adam 的 first-order decrease 相近;Adam 的 curvature penalty 明显高于 Muon。
- 解读:Muon 的优势主要出现在二阶项;一阶 gradient alignment 的差距较小。
结果 2:curvature penalty 差距主要来自 NDS
- 设置:同 124M NanoGPT + FineWeb 主实验;计算 update norm 与 NDS,按 validation loss 对齐。
- 指标:
、NDS、curvature penalty,Adam-to-Muon ratios。 - 结果:Muon 和 Adam update norm 接近;Adam-to-Muon NDS ratio 在 matched validation loss 下平均为 1.76;curvature penalty ratio 与 NDS ratio 紧密跟随。按 training step 对齐时,NDS ratio 均值为 2.94。
- 解读:Muon update 的 curvature penalty 更低,主要因为它选到了更低 directional sharpness 的 matrix direction。
结果 3:数据不均衡放大 Adam-Muon 的 NDS gap
- 设置:Zipf-PCFG corpus,imbalance levels
;9M NanoGPT,4 layers、4 heads、dimension 256;训练 10,000 steps。 - 指标:trajectory-averaged NDS,归一化到 Muon 在
的值;Adam-Muon NDS gap 。 - 结果:Adam normalized NDS 从 1.63 增至 2.38;Muon 从 1.00 增至 1.25;gap 从 0.63 增至 1.13,约 1.8x。
- 解读:长尾/不均衡数据更容易让 Adam update 暴露在高曲率方向,Muon 的 spectral normalization 对这种集中性更鲁棒。
结果 4:Muon 的 NDS 逐渐更多由 within-layer Hessian blocks 支撑
- 设置:在 124M NanoGPT 主实验中,对 NDS 做 within-layer / cross-layer decomposition。
- 指标:
、 、within-layer fraction。 - 结果:Muon 的 within-layer fraction 从约 14% 增至约 44%;Adam 从约 27% 增至约 34%。Muon 的 within-layer 和 cross-layer NDS 都低于 Adam。Appendix 显示 Adam-Muon within-layer gap 约 70% 来自 L1 与 L12,约 28% 来自 L8-L11,中间层 L2-L7 约 2%。
- 解读:训练中后期,Muon 的曲率优势更多由层内 matrix blocks 的低 directional sharpness 维持,且边界层和深层贡献最大。
结果 5:structured quadratic model 支持 Muon 的低 NDS 机制
- 设置:单个 matrix block 的 local quadratic model,假设 Hessian low Kronecker-rank、近似 simultaneous diagonalization、curvature heterogeneity、gradient alignment。
- 指标:finite-horizon averaged NDS、local quadratic loss。
- 结果:Theorem 5.5 证明,在这些假设下,对任意 finite horizon
,Muon 的 average NDS 小于 GD;若 curvature ratio 足够大并满足 ,Muon 在同样步数后获得更低 local quadratic loss。 - 解读:Muon 把 update amplitude 均匀分散到 active curvature modes,而 GD/Adam-like gradient-concentrated updates 会把更多能量压到高曲率 modes 上,导致 NDS 更高。
结果 6:理论假设有经验支撑
- 设置:使用 Zipf-PCFG + Muon 训练后的 checkpoint,对 attention matrices
计算 dense Hessian;每个 block Hessian 为 。 - 指标:Kronecker approximation energy、simultaneous diagonalization score、positive curvature heterogeneity、gradient energy in positive paired modes。
- 结果:rank-4 Kronecker approximation 的 Frobenius energy ratio 对
分别为 0.75/0.95/0.87/0.71;joint diagonalization score 为 0.892、 为 0.845;positive curvature spectrum span 超过 6 orders, ;positive subspace 捕获 87.1% gradient energy,paired-diagonal component 贡献 88.0% 的 Hessian quadratic form。 - 解读:结构化二次模型是强理想化,但有经验支撑;它捕捉了 attention matrix block Hessian 的主要低秩、长尾和 gradient alignment 特征。
证据链强度评估
强证据
- 二阶 Taylor 分解、NDS 分解、data imbalance、layer decomposition 形成较完整的经验链条。
- matched validation loss 对齐减少了“Muon 已经训练得更远”带来的比较偏差。
- update norm ratio 接近 1,使“方向性曲率”解释比“步长更小”解释更有说服力。
- Zipf-PCFG 实验可控地改变 imbalance,能验证数据分布对 NDS gap 的影响。
- 理论模型的四个假设都用真实训练 checkpoint 的 attention block Hessian 做了经验验证。
中等强度证据
- 主实验规模为 124M NanoGPT,虽然对 Hessian 研究已经较大,但距离 frontier pretraining 仍有差距。
- Adam 在 structured quadratic theory 中被 GD 替代;合成实验支持 Adam/GD 接近,但这仍是一个理论简化。
- NDS 是局部二阶指标,解释 one-step loss decrease 很强,但长期训练效率还受 optimizer state、lr schedule、regularization、batch noise 和 implementation 影响。
- 研究集中在 causal LMs;其他模型架构和任务需要复验。
需要谨慎的推论
- 不能直接从本文推出“所有模型都应使用 Muon”。论文解释的是 Muon 在 matrix parameters 上的局部曲率优势,实际训练仍需要处理 embeddings、1D parameters、fine-tuning compatibility、distributed cost 和 optimizer state。
- NDS 低说明局部 curvature penalty 小,但不单独保证最终泛化更好。
- 数据不均衡实验用合成 Zipf-PCFG,可控性强,真实 web-scale corpus 的 topic、syntax、semantic long-tail 更复杂。
- 理论中的 two-group curvature / gradient structure 用于可解析分析,实际 Hessian spectrum 更连续、含非正曲率和跨层耦合。
本地讨论补充
1. 讨论收敛点
- 本轮阅读尚未展开进一步讨论;初步判断是,这篇适合作为本地档案中 optimizer geometry 的新节点。
- 它补充了训练系统论文里较少展开的一层:同样的模型/数据/训练预算下,optimizer update direction 会如何选择局部 Hessian curvature。
- 对后续阅读 Muon、SOAP、Shampoo、Muon^2、LoRA-Muon 或 RL training optimizer 论文,这篇提供一个可复用指标:NDS。
2. 修正后的理解
- Muon 的 advantage 在本文语境下应精确表述为:在 matrix-valued parameters 的 update direction 上,它更少暴露于高曲率方向,从而降低二阶 curvature penalty。
- “Muon 更快”在这篇论文里不能直接归因于更大 update norm;作者专门显示 update norm 与 Adam 接近。
- 数据不均衡会同时影响 loss distribution,以及 optimizer 沿 update direction 遇到的 Hessian curvature。
3. 后续复验指标
- training dynamics:matched validation loss 下的 first-order decrease、curvature penalty、realized loss decrease。
- geometry:NDS、update norm ratio、Adam/Muon curvature penalty ratio。
- data:token frequency tail exponent、topic/class imbalance、NDS gap vs imbalance level。
- model structure:within-layer / cross-layer NDS decomposition、layerwise NDS gap localization。
- scalability:模型规模、sequence length、batch size、Muon Newton-Schulz iterations、distributed overhead。
- compatibility:Adam-pretrained model fine-tuning、embedding/lm_head optimizer split、LoRA/adapter setting。
4. 优化器横向对比:计算方法、成本来源、性能来源
本节是本地讨论后的分析收敛,用来把 Muon 放进更宽的 optimizer design space。表中“性能为何好”区分论文证据、机制解释和工程评注;工程评注只作为 hypothesis,后续需要按模型规模、batch size、数据分布、implementation 和 learning-rate schedule 复验。
符号约定:参数为
| Optimizer | 计算方法 | 为什么代价高 | 性能为何好 | 证据与评论 |
|---|---|---|---|---|
| SGD / Momentum | SGD: |
单步计算和显存最低;主要高代价来自训练总预算。它缺少 per-coordinate 或 matrix-aware scaling,在 ill-conditioned landscape、稀疏梯度、长尾数据或 Transformer 大规模训练中,往往需要更保守学习率、更多 warmup 和更长训练步数。 | 简单、低状态、低通信,对视觉任务和理论分析很干净。Momentum 对持续一致的梯度方向做指数累积,能降低 mini-batch 噪声并加速 valley 方向移动。 | Polyak heavy-ball / momentum 是优化基础方法。对 LLM pretraining,它更适合作为 baseline 或 memory lower bound;若总训练 token 和 wall-clock 也计入成本,低单步成本未必转化为低总成本。 |
| Adam / AdamW | Adam 维护一阶矩和二阶矩: |
每个参数至少需要 |
对 noisy、sparse、non-stationary 梯度很稳,调参经验丰富,是 pretraining、fine-tuning 和 RL post-training 的默认基线。AdamW 的 decoupled weight decay 让正则强度和 adaptive update 解耦,改善泛化和可调性。 | Adam 原论文强调 lower-order moments、diagonal rescaling、适合 noisy/sparse gradients;AdamW 论文说明 decoupled weight decay 改善 Adam 的 weight decay 行为。Muon 曲率论文进一步指出:在 matched validation loss 下,Adam 与 Muon first-order gain 接近,差距主要来自 second-order curvature penalty / NDS。 |
| Muon | 对 2D matrix parameters 先做 SGD-momentum,得到 |
需要对每个矩阵更新做若干次 matrix-matrix multiplication,Newton-Schulz 的 shape、精度、iteration count 和 sharding 都会影响吞吐。分布式训练中,orthogonalization 和 per-parameter update scale 需要额外工程处理。它的 memory state 通常少于 AdamW,但 compute/kernel/communication 复杂度更高。 | Orthogonalized update 会把 singular directions 的能量拉平,减少某些高曲率 mode 上的能量集中。本文把收益解释为 lower NDS:update norm 与 Adam 接近,主要优势来自方向进入更低曲率区域。长尾/不均衡数据会放大这种差异。 | Keller Jordan 的 Muon 技术说明把 Muon 描述为 momentum + Newton-Schulz orthogonalization;Muon is Scalable for LLM Training 报告约 |
| Shampoo | 对矩阵 |
需要存储 |
它利用矩阵/张量结构做 second-order preconditioning,比 diagonal Adam 捕获更多 curvature / covariance 信息。对 ill-conditioned 方向,preconditioning 能让 step 更接近自然尺度,从而减少无效震荡和步数。 | Shampoo 原论文给出 stochastic convex convergence 分析,并展示在深度模型上更快收敛。工程评注:Shampoo 的科学吸引力在结构化二阶信息,落地难点在 preconditioner memory、inverse root kernel 和分布式实现。 |
| SOAP | 在 Shampoo preconditioner 的 eigenbasis 中运行 Adam/Adafactor 式二阶矩。典型形式:周期性得到 |
比 AdamW 多 preconditioner、basis rotation 和周期性 eigendecomposition;比 Shampoo 更依赖 refresh frequency 和额外实现细节。它减少了频繁 eigendecomposition 的损失,但仍需要高质量矩阵 kernel 和分布式支持。 | 它保留 Shampoo 的 matrix-aware 坐标系,又用 Adam-style running second moment 在慢变化 basis 中连续更新,缓解 infrequent eigendecomposition 带来的性能退化。 | SOAP 论文把 Shampoo 和 Adafactor 联系起来,并报告在 360M/660M LLM large-batch pretraining 中,相比 AdamW 减少超过 40% iterations、超过 35% wall-clock,相比 Shampoo 也有约 20% 改善。工程评注:SOAP 适合 batch 足够大、optimizer step 成本能被收益摊薄的训练。 |
| Adafactor | 对矩阵不存完整 |
显存代价很低;主要风险来自 factored approximation。它把完整 per-parameter second moment 压缩为行列统计,若梯度方差结构不满足近似假设,scale 会偏。论文也指出 second-moment decay 太慢时可能产生过大更新。 | 它保留 adaptive scaling 的大部分收益,同时把大矩阵 optimizer state 从 |
Adafactor 论文题目即强调 sublinear memory cost,并提出 row/column sums 估计 second moments。科学评注:Adafactor 是 memory-efficient Adam 的早期代表,适合解释后来 GaLore/APOLLO 等方法的目标函数:保留有用 scale 信息,压缩 optimizer state。 |
| 8-bit Adam / 8-bit AdamW | 保留 Adam/AdamW 的 |
计算上多了 quantize/dequantize 和 block scale 管理;数值上要处理 outlier、small tensor、embedding gradient variance 和 rounding error。系统收益依赖高效 kernel;若量化误差和通信布局处理不好,会损失稳定性。 | 它最大限度保留 AdamW 的训练行为和超参习惯,同时显著降低 optimizer state 显存。block-wise quantization 避免单个全局 scale 被 outlier 主导。 | 8-bit optimizers 论文报告在语言建模、GLUE、ImageNet、WMT 等任务上接近 32-bit optimizer 性能,同时显著降低 memory footprint。工程评注:这是“尽量不改变优化语义,只压缩状态表示”的路线。 |
| GaLore | 对梯度矩阵做低秩投影。周期性用 SVD 或低秩分解估计梯度子空间,把 |
主要代价来自 SVD / subspace refresh、projection/lifting kernel 和 rank/frequency 超参。若真实梯度包含重要高秩成分,低秩投影会丢失方向;若 refresh 太频繁,计算代价上升;太稀疏,子空间滞后。 | LLM 梯度矩阵常呈现可利用的低秩结构,optimizer state 存在低秩坐标中可大幅降显存,同时避免 LoRA 式冻结大部分原权重带来的搜索空间限制。 | GaLore 论文报告 optimizer states 最高降低 65.5%,8-bit GaLore 进一步降低 optimizer memory,并展示 7B 模型在 24GB consumer GPU 上预训练的可行性。科学评注:它把“full-parameter learning”和“低秩 optimizer state”解耦,是 memory-efficient training 的关键路线。 |
| APOLLO / APOLLO-Mini | 将 AdamW 的 per-coordinate learning-rate adaptation 粗化为 structured learning-rate update。APOLLO 用随机投影得到低秩 auxiliary optimizer state 来近似 gradient scaling;APOLLO-Mini 用 rank-1 / tensor-wise scaling 进一步压缩状态。 | 相比 GaLore 避免 SVD,但仍有 random projection、scale estimation 和 approximation error。高压缩版本会把很多 per-coordinate 信息合并为粗粒度 scale,风险是局部不均匀曲率或 layer-specific 梯度结构无法充分表达。 | 如果 AdamW 的很多收益来自可粗化的 scale adaptation,低秩或 tensor-wise scale 就能保留主要训练收益,同时几乎去掉 |
APOLLO 论文报告接近或超过 AdamW 的 LLM pretraining / full-parameter fine-tuning 性能,并称 APOLLO-Mini 以 SGD-level memory cost 获得强结果。科学评注:它代表“压缩 adaptive scale 本身”的路线,证据强度仍需要更多独立复现和更大规模公开训练验证。 |
| Lion | 只维护 momentum。先算 |
单步和显存都低;主要代价来自 sign update 的粗粒度。它抛弃梯度幅值信息,每个参数更新同幅度,通常需要比 Adam 更小学习率;在需要精细 per-coordinate scaling 的任务上可能更敏感。 | Sign + momentum 对梯度尺度不敏感,memory 只有一份 momentum state。大 batch 下梯度方向更稳定,sign update 的方向投票效应更容易发挥。 | Lion 论文报告它比 Adam 更省内存,只跟踪 momentum,并在视觉、视觉语言、diffusion、语言任务中取得相近或更好结果,同时指出需要更小 learning rate,且部分场景提升有限。工程评注:Lion 是低状态 sign optimizer 的强基线,也启发后续 LionMuon / SAGE 等 hybrid 方法。 |
综合判断:
- AdamW 是最稳健的默认点,适合把问题先跑通;它的高代价主要是 optimizer state 和 diagonal approximation。
- Muon 的优势集中在 matrix parameters 的 update geometry;本文把它解释为更低 NDS 和更小 curvature penalty。
- Shampoo / SOAP 代表 structured preconditioning 路线,性能潜力强,系统代价也最明显。
- Adafactor、8-bit AdamW、GaLore、APOLLO 代表 memory-efficient optimizer 路线,核心问题是压缩掉多少 state 后仍保留足够的 adaptive scaling 信息。
- Lion / SGD-Momentum 是低状态基线。它们的单步成本低,但在 LLM pretraining 中可能把代价转移为更多训练步数和更强超参敏感性。
参考来源:
- Adam: Adam: A Method for Stochastic Optimization。
- AdamW: Decoupled Weight Decay Regularization。
- Muon: Muon: An optimizer for hidden layers in neural networks、Muon is Scalable for LLM Training、Why Muon Outperforms Adam: A Curvature Perspective。
- Shampoo: Shampoo: Preconditioned Stochastic Tensor Optimization。
- SOAP: SOAP: Improving and Stabilizing Shampoo using Adam。
- Adafactor: Adafactor: Adaptive Learning Rates with Sublinear Memory Cost。
- 8-bit optimizers: 8-bit Optimizers via Block-wise Quantization。
- GaLore: GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection。
- APOLLO: APOLLO: SGD-like Memory, AdamW-level Performance。
- Lion: Symbolic Discovery of Optimization Algorithms。
主要启发
- 优化器比较需要看 update direction 进入了什么曲率区域。只看 gradient alignment 或 loss curve,会漏掉二阶 curvature penalty。
- NDS 是很有用的诊断量:它把 update scale 从 curvature exposure 中剥离出来,能判断一个 optimizer 选的方向是否更“平”。
- Muon 的 spectral normalization 可理解为把 update energy 均匀分散到 singular modes,减少高曲率 mode 的能量集中。
- 长尾数据会放大 optimizer 差异,因为它可能让 Hessian curvature 和 gradient energy 更集中在少数 modes。
- 对 LLM pretraining,optimizer、data distribution、matrix block Hessian structure 之间存在强耦合。
局限
- 主实验规模为 124M NanoGPT,Hessian 计算成本限制了更大模型验证。
- 理论分析比较 Muon 与 GD,Adam 的行为通过合成实验间接支持,缺少同等闭式分析。
- 论文主要覆盖 causal LM pretraining;diffusion、vision、RL post-training、fine-tuning 等场景未验证。
- NDS 是局部二阶指标,长期训练中的 stochasticity、schedule、regularization 和 optimizer implementation 仍可能改变结论强度。
- Zipf-PCFG 数据不均衡实验可控但简化,真实 web corpus 的 long-tail 机制更复杂。
- Muon 实际部署涉及 Newton-Schulz 近似、matrix shape、分布式通信和 hybrid Adam/Muon 参数分组,这些系统成本超出本文重点。
跨论文关系
- 与
2501.12948的作者关系:未发现作者重叠。主题关系中等。DeepSeek-R1/R1-Zero 关注 RL post-training 与 reasoning emergence,本文关注 pretraining optimizer 的局部几何;两者都服务“训练为什么有效”的机制解释。 - 与
2503.14476的作者关系:未发现作者重叠。方法关系中等。DAPO 通过 GRPO recipe 管理 long-CoT RL 的有效梯度、长度和 reward noise;本文通过 NDS 解释 optimizer update direction 的 curvature cost。两者都把训练收益拆成可诊断项。 - 与
2605.14220的作者关系:未发现作者重叠。关系中等偏弱。TIM/VeXact 关注 rollout/trainer logprob mismatch 引入的系统偏差,本文关注 optimizer direction 与 Hessian curvature;二者共同说明训练稳定性受到数值路径和局部几何的双重影响。 - 与
2409.19256、2606.00135的作者关系:未发现作者重叠。主题关系较弱到中等。HybridFlow 和 tool-calling RL 关注 post-training 系统效率,本文提供 optimizer-level 解释;未来 RL training 也可能需要比较 Adam/Muon/structured optimizers 的 NDS 与 policy update 稳定性。 - 与
2510.19315的作者关系:未发现作者重叠。关系较弱。两者都偏理论解释,但前者研究 Transformer 表达简洁性,本文研究 optimizer curvature geometry。 - 与
2606.06453的机构关系:无作者重叠,但都涉及 National University of Singapore 网络;Vortex 的 Michael Qizhe Shieh 来自 NUS,本文 Shuche Wang 来自 NUS。主题关系弱,一个是 serving systems,一个是 optimizer geometry。 - 与
2606.04075、2605.31514、2605.30290、2606.04101的关系主要停留在 LLM 训练/系统背景层面,没有直接方法复用。
Reference Intake Brief
Target
- Intended target system: 新增 Muon / optimizer geometry 独立论文笔记;更新
papers-index.md的 optimizer curvature cluster。 - Existing related assets:
papers-index.md、2501.12948-deepseek-r1-rl-reasoning.md、2503.14476-dapo-long-cot-rl-system.md、2605.14220-training-inference-mismatch-llm-rl.md。 - Proposed form: 新建独立 Markdown 文档并更新索引。
Reusable Elements
- 二阶 Taylor loss-decrease 分解。
- NDS 定义与 curvature penalty factorization。
- Zipf-PCFG 数据不均衡实验。
- within-/cross-layer NDS decomposition。
- structured matrix-block quadratic model 和 Muon energy balancing 机制。
Risks
- Copyright/over-copying: 本笔记使用转述和公式摘要,未复制长段论文正文。
- Unsourced or unverifiable claims: 代码未公开;实验设置和数值来自 arXiv HTML / TeX source。
- Tone/brand mismatch: 中文表达遵循本目录规则,避免对照式否定句。
- Safety/compliance issues: 论文为优化理论和训练机制研究,无直接安全滥用内容。
- Overlap with existing assets: 当前档案缺 optimizer geometry cluster,本篇适合新建主题节点。
Skipped
| Material | Reason |
|---|---|
| 完整 proof algebra | 笔记保留 Theorem 5.5 条件、结论和直觉,详细证明可回到 appendix |
| 全部 related work | Muon 相关文献很多,本笔记只记录和本文主张直接相关的解释线 |
| 所有 Hessian heatmap | 文档保留关键数值和假设验证结果 |
| JADE algorithm 细节 | 已记录 simultaneous diagonalization score,具体旋转算法可按需回看 appendix |
Recommendation
Decision: merge。
Why: 这篇论文为 Muon 的训练效率优势提供了可诊断的局部曲率机制,补齐本地档案中 optimizer-level mechanism 的空白,也能为后续读 pretraining optimizer、RL optimizer 或训练稳定性论文提供 NDS 这一可复用分析工具。