papers.chlience.com

Paper Archive

LLM、RL、systems、safety 和 theory 方向的论文阅读档案。每篇笔记保留作者关系、论文脉络、证据强度、局限和跨论文关系。

13 notes
6 themes
2026-06-08 updated

Recent Notes

按最近沉淀时间排序,保留原始论文笔记和后续讨论补充。

View all
Jun 08, 2026

Why Muon Outperforms Adam: A Curvature Perspective

这篇论文给 Muon 相比 Adam 更快训练提供了一个局部曲率解释:在 matched validation loss 下,Muon 和 Adam 的一阶收益相近,差距主要来自二阶 Hessian curvature penalty;进一步分解发现二阶差距主要由 Muon update direction 的 Normalized Directional Sharpness (NDS) 更低造成,step size 对差距的解释力较...

2606.04662-muon-outperforms-adam-curvature Source RLSystemsSafetyTheoryOptimizer
Jun 07, 2026

UltraEP: Unleash MoE Training and Inference on Rack Scale Nodes with Near Optimal Load Balancing

UltraEP 的核心贡献是把大规模 MoE expert parallelism 中的负载均衡从“基于历史统计的周期性预测”推进到“基于 post gating exact load 的每 microbatch、每 layer 实时再均衡”:它利用 rack scale node 的高带宽 scale up fabric,把一个 EP group 放进同一机架级通信域,再用 quota driven planner 联合决定专家复制...

2606.04101-ultraep-rack-scale-moe-load-balancing Source RLSystemsSafetyTheoryOptimizer
Jun 07, 2026

Self Trained Verification for Training and Test Time Self Improvement

这篇论文提出 Self Trained Verification (STV):先让同一个模型在看到参考答案时充当“带特权信息的 verifier teacher”,再用 on policy distillation 和 verdict RL 训练一个推理时无需参考答案的 verifier;这个 verifier 能显著改善 test time verification refinement loop,并进一步通过 Verifier i...

2605.30290-self-trained-verification Source RLSystemsSafetyTheoryMethodology
Jun 07, 2026

Diagnosing Training Inference Mismatch in LLM Reinforcement Learning

这篇论文把 LLM RL 中训练侧与推理侧对同一 token 序列给出的 logprob 不一致定义为 Training Inference Mismatch (TIM),并用 VeXact 构造 FSDP trainer 与 rollout engine bitwise 对齐的 zero mismatch 基线;实验证明 TIM 这种看似微小的 token level 数值差异可以单独触发 RL training collapse,...

2605.14220-training-inference-mismatch-llm-rl Source RLSystemsSafetyTheoryMethodology
Jun 07, 2026

DeepSeek R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

DeepSeek R1 v2 的核心结论是:大规模 outcome based RL 可以在强 base model 上诱导 long CoT reasoning、自我反思、验证和策略切换等行为;R1 Zero 证明无需 SFT 也能通过 rule based verifiable reward 激发 reasoning capability,R1 则通过 cold start SFT、两阶段 RL、rejection samplin...

2501.12948-deepseek-r1-rl-reasoning Source RLSystemsSafetyTheoryMethodology
Jun 07, 2026

HybridFlow: A Flexible and Efficient RLHF Framework

HybridFlow 的核心贡献是把 RLHF 训练看成由多个大模型节点组成的复杂 dataflow,并提出一个混合控制架构:模型之间用 single controller 统一编排和数据重分片,模型内部用 multi controller 执行高效分布式训练/推理/生成;再配合 3D HybridEngine 和自动设备映射,在 PPO、ReMax、Safe RLHF 等 RLHF 算法上比 DeepSpeed Chat、OpenR...

2409.19256-hybridflow-rlhf-framework Source RLSystemsSafetyTheoryMethodology
Jun 07, 2026

Defeating Nondeterminism in LLM Inference

这篇文章指出,LLM 推理在 temperature=0 下仍然出现不同输出,主要来源通常是 batch 不变性缺失:服务端负载改变 batch size、prefill/decode 切分、KV cache 布局和 attention split 策略,进而改变浮点 reduction 顺序;作者通过 batch invariant RMSNorm、matmul 和 attention kernel 展示了可复现推理的实现路径,并把...

2025-09-10-defeating-nondeterminism-llm-inference Source RLSystemsSafetyTheoryMethodology

Themes

主题标签由笔记内容自动推断,用于快速浏览研究脉络。