Why Muon Outperforms Adam: A Curvature Perspective
这篇论文给 Muon 相比 Adam 更快训练提供了一个局部曲率解释:在 matched validation loss 下,Muon 和 Adam 的一阶收益相近,差距主要来自二阶 Hessian curvature penalty;进一步分解发现二阶差距主要由 Muon update direction 的 Normalized Directional Sharpness (NDS) 更低造成,step size 对差距的解释力较...