Papers | Chlience Paper Archive

归档 Jul 24, 2026

EAGLE 3: Scaling up Inference Acceleration of Large Language Models via Training Time Test

EAGLE 3 去除特征回归约束，用多层目标特征融合和训练时多步自生成展开直接训练草稿 token 分布；LLaMA 3.1 8B 在 MT Bench 从 EAGLE 2 的 3.16 倍提高到 4.40 倍，6.47 倍是单批量研究原型峰值，SGLang 批量 64 为 1.38 倍。

Yuhui Li, Fangyun Wei, Chao Zhang, Hongyang Zhang

待审阅 2503.01840-eagle-3-training-time-test Speculative Decoding Multi-Token Prediction Serving Runtime

归档 Jul 24, 2026

MoESD: Unveil Speculative Decoding's Potential for Accelerating Sparse MoE

在单步解码已使专家加载趋于饱和、模型仍受内存带宽限制的中等批量区间，用投机验证复用已加载专家；Qwen2 57B A14B 在两张 H800 上最高加速 2.29 倍，适用范围依赖路由均衡、MoE 前馈网络成本占比和具体硬件。

Zongle Huang, Lei Zhu (祝磊), Zongyuan Zhan, Ting Hu, Weikai Mao, Xianzhi Yu, Yongpan Liu (刘勇攀), Tianyu Zhang

待审阅 2505.19645-moesd-sparse-moe-speculative-decoding Speculative Decoding MoE Systems Serving Runtime

归档 Jul 23, 2026

SEED: Self Evolving On Policy Distillation for Agentic Reinforcement Learning

先用外部模型标注的轨迹—技能数据把策略训练成轨迹分析器，再让每轮最新策略从自身完整轨迹生成事后技能并对同批采样 token 做门控似然训练；三种小模型在 12 个汇总指标中取得 10 个最优或并列最优，但直接前作 OPID 未进入主表，且证据缺少多随机种子、技能正确性评测与总训练成本对齐。

Jinyang Wu, Shuo Yang, Zhengxi Lu, Fan Zhang, Yuhao Shen, Lang Feng, Haoran Luo, Zheng Lian, Shuai Zhang, Zhengqi Wen, +1 more

待审阅 2607.14777-seed-self-evolving-on-policy-distillation On-Policy Distillation Agent RL Credit Assignment

归档 Jul 22, 2026

Enhancing Rubric based RL via Self Distillation

把评分量规聚合后的学习信号丢失拆成当前采样未覆盖和已满足但整体优势非正两类，用评分项条件自教师注入缺失行为，并以反事实自教师定位 token 后局部改写优势；两种 Qwen3 小模型在五项裁判评测中较 GRPO 平均提高 3.2 和 1.4 分，证据缺少多随机种子与完整硬件条件。

Mingxuan Xia, Yuhang Yang, Chao Ye, Shuai Zhu, Shenzhi Yang, Guangcheng Zhu, Yuhang Zhang, Cheng Peng, Haobo Wang (王皓波), Siqing Wang

待审阅 2607.18082-cripo-rubric-rl-self-distillation Credit Assignment On-Policy Distillation RL Algorithm

归档 Jul 22, 2026

RubricEM: Meta RL with Rubric guided Policy Decomposition beyond Verifiable Rewards

把评分量规贯穿深度研究智能体的阶段化执行、分阶段裁判奖励和反思记忆，在作者的搜索与 LLM 裁判协议下将 8B 模型四项长文基准均值从 SFT 的 49.2 提高到 55.5。

Gaotang Li, Bhavana Dalvi Mishra, Zifeng Wang, Jun Yan, Yanfei Chen, Chun Liang Li, Long T. Le, Rujun Han, George Lee, Hanghang Tong, +2 more

待审阅 2605.10899-rubricem-rubric-guided-meta-rl Agent RL Credit Assignment Agent Memory

归档 Jul 22, 2026

Beyond Trajectory Level Attribution: Graph Based Credit Assignment for Agentic Reinforcement Learning

将同一任务的分组轨迹合并为状态转移图，以后继状态到成功节点的最短路径构造逐步优势，并在状态可稳定合并、目标可验证的 ALFWorld、WebShop 和 Sokoban 设置中优于 GRPO 与 GiGPO。

Xin Cheng, Shuo He, Lang Feng, HaiYang Xu, Ming Yan, Lei Feng (冯磊), Bo An

待审阅 2605.26684-graphgpo-graph-credit-assignment-agentic-rl Credit Assignment Agent RL RL Algorithm

归档 Jul 22, 2026

TacoMAS: Test Time Co Evolution of Topology and Capability in LLM based Multi Agent Systems

在单个查询内逐轮依据轨迹反馈改写代理能力，并每两轮按预算增删代理与重连通信图；四个工具基准相对各自最强基线平均提高 13.3 个准确率百分点，比较未统一推理预算。

Chen Xu, Yicheng Hu, Ruizi Wang, Xinyu Lin, Wenjie Wang (王文杰), Dongrui Liu, Fuli Feng

待审阅 2605.09539-tacomas-test-time-coevolution-mas Multi-Agent Orchestration Agent Workflow Test-Time Scaling

归档 Jul 21, 2026

DRPO: Efficient Reasoning via Decoupled Reward Policy Optimization

DRPO 在正确 rollout 内部按长度奖励重加权、独立压低错误 rollout，使 7B 蒸馏推理模型平均生成长度减少 51% 时性能仅相对下降 2.6%；证据限于 8K 预算、每题 8 条采样和 token 长度效率口径。

Gang Li, Yan Chen, Ming Lin, Tianbao Yang

待审阅 2510.04474-drpo-decoupled-reward-policy-optimization RL Algorithm Reasoning RL Reward Modeling

归档 Jul 21, 2026

TRACE: Turn level Reward Assignment via Credit Estimation for Long Horizon Agents

在已知短答案的长程搜索中，用冻结参考模型测量工具边界后的答案可预测性变化并把多步时序差信用混入终局优势，使两种 Qwen3 Thinking 模型在同设置下较 GRPO 的 BrowseComp Plus 分数分别提高 5.6 和 6.2 个百分点。

Leitian Tao, Baolin Peng, Wenlin Yao, Tao Ge (葛涛), Hao Cheng, Mike Hang Wang, Jianfeng Gao, Sharon Li

待审阅 2607.13988-trace-turn-level-reward-assignment Credit Assignment Agent RL Reward Modeling

归档 Jul 18, 2026

Multi Turn On Policy Distillation with Prefix Replay

把教师 RL 轨迹回放为按轮次衰减采样的前缀，只让学生在当前步生成并接受教师分布监督，从而在学生蒸馏阶段关闭环境。

Baohao Liao, Hanze Dong, Christof Monz, Xinxing Xu, Li Dong (董力), Furu Wei (韦福如)

已审阅 2607.04763-reopd-prefix-replay-agentic-distillation On-Policy Distillation Agent RL Rollout Optimization

归档 Jul 18, 2026

Towards Long Horizon Agents: A Survey

用基础策略与运行时 harness 的组合关系以及 H1/H2/H3 分层，将长程能力统一为运行时系统和模型内部优化共同作用的系统属性。

Guanting Dong (董冠霆), Xiaoshuai Song (宋晓帅), Yuyang Hu (扈煜阳), Jiajie Jin (金佳杰), Chenghao Zhang, Yifei Chen, Xiaoxi Li, Huaying Yuan, Xinyu Yang, Tongyu Wen, +10 more

待审阅 202607.1328-towards-long-horizon-agents-survey Agent Workflow Agent Memory Agent RL

归档 Jul 17, 2026

SmoothAgent: Efficient Long Horizon LLM Based Agent Serving with Lookahead Context Engineering

把可提前确定的 context transformation 移入异步 lookahead stream，并用 SLO aware scheduling 预建变换后 KV cache，降低 transform point TTFT。

Zaifeng Pan (潘再峰), Qianxu Wang, Zhengding Hu, Chang Chen, Yue Guan, Yanbo Zhou, Steven Swanson, Yufei Ding

已审阅 2607.00151-smoothagent-lookahead-context-engineering Agent Memory KV Cache Inference Scheduling

归档 Jul 17, 2026

Self Distillation Enables Continual Learning

让 student 在自身轨迹上接受 query specific demonstration conditioned EMA 同模型的 token distribution，在提升新任务准确率时显著减少旧能力遗忘。

Idan Shenfeld, Mehul Damani, Jonas Hübotter, Pulkit Agrawal

已审阅 2601.19897-self-distillation-continual-learning On-Policy Distillation Training Stability

归档 Jul 16, 2026

Self Compacting Language Model Agents

用要求引用轨迹证据的任务专用 rubric 选择摘要时机，让同一模型在无需训练时压缩并重建长程 agent 上下文。

Tianjian Li, Jingyu Zhang (张景昱), William Jurayj, Xi Wang, Chuanyang Jin, Mehrdad Farajtabar, Eric Nalisnick, Daniel Khashabi

已审阅 2606.23525-self-compacting-language-model-agents Agent Memory Agent Workflow Long Context

归档 Jul 16, 2026

A Survey of Reinforcement Learning for Large Language Models under Data Scarcity: Challenges and Solutions

把 LLM 强化学习中的高成本外部监督与有限内部生成经验统一到 data、training、framework 三层九类干预点，并组织为一份覆盖 125 条文献记录的设计地图。

Zhiyin Yu, Yuchen Mou, Juncheng Yan, Junyu Luo, Chunchun Chen, Xing Wei, Yunhui Liu, Hongru Sun, Yuxing Zhang, Jun Xu, +10 more

待审阅 2604.17312-rl-llm-data-scarcity-survey Reasoning RL Rollout Optimization Reward Modeling

归档 Jul 14, 2026

IndexCache: Accelerating Sparse Attention via Cross Layer Index Reuse

用 loss guided layer search 或 multi layer distillation 划分 Full / Shared 层，跨层复用 top k positions 并跳过最多 75% 的 DSA indexer 计算。

Yushi Bai (白雨石), Qian Dong, Ting Jiang, Xin Lv (吕鑫), Zhengxiao Du, Aohan Zeng, Jie Tang (唐杰), Juanzi Li (李涓子)

已审阅 2603.12201-indexcache-cross-layer-index-reuse Sparse Attention Long Context Serving Runtime

归档 Jul 13, 2026

CompactionRL: Reinforcement Learning with Context Compaction for Long Horizon Agents

在 SUPO 已覆盖摘要与执行联合训练的前提下，用支持单 rollout 的独立 critic 和跨 segment GAE 处理压缩轨迹；两个模型在 compacted coding 评测中均提高 Pass@1，但缺少与 SUPO 的直接对照。

Yujiang Li, Zhenyu Hou, Yi Jing, Jie Tang (唐杰), Yuxiao Dong

已审阅 2607.05378-compactionrl-context-compaction-agent-rl Agent Memory Agent RL Credit Assignment

归档 Jul 13, 2026

Efficient Serving for Agentic LLM Workflows via Micro Task Level Parallelism

把相依 LLM task 的已知 prompt、流式上游输出和 decode 拆成微任务，让下游在上游 decode 期间持续完成跨 task 增量 prefill。

当前匿名稿未披露完整作者列表；公开可确认关联作者为 Siqi Wang 和 Hailong Yang

待审阅 2026-07-13-grape-micro-task-agentic-workflow-serving Agent Workflow Inference Scheduling KV Cache

归档 Jul 13, 2026

LLM as a Verifier: A General Purpose Verification Framework

把评分 token 的概率期望、重复评估与 criteria decomposition 组合成连续 verifier，再用概率 pivot tournament 扩展多轨迹选择。

Jacky Kwok, Shulu Li, Pranav Atreya, Yuejiang Liu, Yixing Jiang, Chelsea Finn, Marco Pavone, Ion Stoica, Azalia Mirhoseini

已审阅 2607.05391-llm-as-a-verifier Verifier Test-Time Scaling Reward Modeling

归档 Jul 11, 2026

Single Rollout Asynchronous Optimization for Agentic Reinforcement Learning

用每 prompt 单 rollout、强化 critic 与双侧 token mask 替代异步 GRPO 的组内等待和 group baseline。

Zhenyu Hou, Yujiang Li, Jie Tang (唐杰), Yuxiao Dong

已审阅 2607.07508-sao-single-rollout-asynchronous-agentic-rl RL Algorithm Agent RL Credit Assignment

归档 Jul 10, 2026

SPORK: Self Speculative Forking to Accelerate Agentic LLM Inference

让目标模型从共享 KV prefix 自预测下一次工具调用，提前执行只读工具，并用 target verification 回收失败 probe 的 token 前缀。

Huajun Bai, Weiwei Lv, Huichuan Zheng, Youyou Lu, Jiwu Shu

已审阅 2607.03333-spork-self-speculative-agentic-inference Speculative Decoding Tool Use Agent Workflow

归档 Jul 09, 2026

Qwen3 Coder Next Technical Report

Qwen3 Coder Next 在 80B 总参数中每步激活 3B 参数，并用可执行仓库任务、长上下文中训、多模板工具训练、软件工程强化学习与专家蒸馏构建编码智能体，在三种 SWE Bench Verified scaffold 上达到 70.6% 至 71.3% 解决率，报告尚未拆分各训练组件的净贡献。

Ruisheng Cao, Mouxiang Chen (陈谋祥), Jiawei Chen (陈家慰), Zeyu Cui, Yunlong Feng, Binyuan Hui, Yuheng Jing, Kaixin Li, Mingze Li, Junyang Lin, +10 more

已审阅 2603.00729-qwen3-coder-next-agentic-coding Coding Agent Agent RL Tool Use

归档 Jul 09, 2026

Computer Environments Elicit General Agentic Intelligence in LLMs

LLM in Sandbox 只给模型 shell、文件编辑和完成信号，使部分模型—任务组合获得最高 15.5 个百分点增益，并让 Qwen3 4B 经文件型通用任务强化学习后把平均交互轮次从 23.7 降到 7.0，这些数值来自允许联网的特定环境配置。

Daixuan Cheng (成岱璇), Shaohan Huang, Yuxian Gu, Huatong Song (宋华彤), Guoxin Chen, Li Dong (董力), Wayne Xin Zhao, Ji-Rong Wen, Furu Wei (韦福如)

已审阅 2601.16206-computer-environments-agentic-intelligence Tool Use Agent RL Agent Workflow

归档 Jul 09, 2026

Hierarchical Sparse Attention Done Right: Toward Infinite Context Modeling

HiLS Attention 用 landmark 压缩键、熵偏置与分层 softmax 训练 chunk 选择器，使 8K 训练的 345M 模型在 4M RULER 单针检索仍得 96 分，并在 512K 单 H800、batch size 1 的同 Triton 基线上将 prefill 与 decode 分别加速 13.5 倍和 15.7 倍。

Xiang Hu, Xinyu Wei, Hao Gu, Minshen Zhang, Tian Liang, Huayang Li, Lei Zhu (祝磊), Yan Wang (王琰), Sirui Han (韓斯睿), Yushi Bai (白雨石), +3 more

已审阅 2607.02980-hils-attention-infinite-context Sparse Attention Long Context

归档 Jul 05, 2026

FlashMemory-DeepSeek-V4: Lightning Index Ultra-Long Context via Lookahead Sparse Attention

预测未来 token 的 KV chunk 需求，将冷 KV 移到 CPU 并按需预取，压缩物理 KV footprint。

已审阅 2606.09079-flashmemory-deepseek-v4-lookahead-sparse-attention KV Cache Sparse Attention Long Context

归档 Jul 03, 2026

ThunderAgent: A Simple, Fast and Program Aware Agentic Inference System

把多轮 tool use 的 phase、KV footprint 与 backend placement 合并为 LLM Program，用 phase first pause / restore 和全局 waiting queue 控制工具等待期间的 KV working set。

Hao Kang, Ziyang Li, Weili Xu, Xinyu Yang, Yinfang Chen, Junxiong Wang, Beidi Chen, Tushar Krishna, Chenfeng Xu, Simran Arora

已审阅 2602.13692-thunderagent-program-aware-agentic-inference Agent Workflow Inference Scheduling KV Cache

归档 Jul 03, 2026

SPIRAL: Learning to Search and Aggregate

从 8 条搜索轨迹随机构造 4 个四元集合，以聚合成功率的参与集合均值更新搜索轨迹，并用同集合内中心化 reward 训练共享策略的聚合轨迹。

Jubayer Ibn Hamid, Ifdita Hasan Orney, Michael Y. Li, Omar Shaikh, Yoonho Lee, Dorsa Sadigh, Chelsea Finn, Noah Goodman

已审阅 2606.23595-spiral-learning-search-aggregate Test-Time Scaling Credit Assignment RL Algorithm

归档 Jul 03, 2026

ECHO: Prune to act, trace to learn with selective turn memory in agentic RL

ECHO 为长程智能体保留带原始轮次标识的选择性记忆，用它重建有限上下文并将结果信用路由到被复用历史轮次及其选择动作，在 BrowseComp Plus 上同时提高一次通过率并减少滚动摘要造成的轨迹膨胀。

Zijun Xie, Binbin Zheng, Enlei Gong, Jihua Liu, Yuyang You, Lingfeng Liu, Jiayao Tang, Guanqun Zhao, Aoqi Hu, Zeyu Chen

已审阅 2606.31650-echo-selective-turn-memory-agentic-rl Agent Memory Agent RL Long Context

归档 Jul 03, 2026

On-Policy Distillation of Language Models: Learning from Self-Generated Mistakes

让 student 在自生成轨迹上匹配 teacher 分布，缓解 teacher forcing 与部署时的分布偏移。

已审阅 2306.13649-on-policy-distillation-language-models On-Policy Distillation RL Algorithm

归档 Jul 03, 2026

Maximum Likelihood Reinforcement Learning

把 binary outcome RLVR 写成成功 rollout likelihood 最大化，优化 pass@k 覆盖。

Fahim Tajwar, Guanning Zeng, Yueer Zhou, Yuda Song, Daman Arora, Yiding Jiang, Jeff Schneider, Ruslan Salakhutdinov, Haiwen Feng, Andrea Zanette

已审阅 2602.02710-maximum-likelihood-reinforcement-learning RL Algorithm RL Theory Reasoning RL

归档 Jul 02, 2026

HydraHead: From Head Level Functional Heterogeneity to Specialized Attention Hybridization

用 causal patching 找到 retrieval critical heads，只为这些 heads 保留 full attention。

Zhentao Tan, Wei Chen, Jingyi Shen, Yao Liu, Xu Shen, Yue Wu, Jieping Ye

已审阅 2606.20097-hydrahead-head-wise-hybrid-attention Linear Attention Long Context Reasoning Analysis

归档 Jul 02, 2026

MOPD: Multi Teacher On Policy Distillation for Capability Integration in LLM Post Training

让 student 在自身轨迹上接受多个领域 teacher 的 token level reverse KL 信号，整合 RL teacher 能力。

Wenhan Ma, Jianyu Wei, Liang Zhao, Hailin Zhang (张海林), Bangjun Xiao, Lei Li, Qibin Yang, Bofei Gao, Yudong Wang, Rang Li, +3 more

已审阅 2606.30406-mopd-multi-teacher-on-policy-distillation On-Policy Distillation RL Algorithm Reasoning RL

归档 Jun 30, 2026

RollArt: Disaggregated Multi Task Agentic RL Training at Scale

用声明式 task domain 硬件亲和映射、轨迹级环境状态机和带起始版本年龄上限的异步换权，协调 H800/H20/CPU/serverless 上的多任务 agentic RL。

Wei Gao, Yuheng Zhao, Tianyuan Wu, Shaopan Xiong, Weixun Wang, Dakai An, Lunxi Cao, Dilxat Muhtar, Zichen Liu, Haizhou Zhao, +8 more

已审阅 2512.22560-rollart-disaggregated-agentic-rl-training RL Infrastructure Rollout Optimization Distributed Training

归档 Jun 28, 2026

DSpark: Confidence Scheduled Speculative Decoding with Semi Autoregressive Generation

用 Markov head、置信度校准和硬件感知前缀调度，把并行 drafter 推进生产 serving。

Xin Cheng, Xingkai Yu (俞星凯), Chenze Shao, Jiashi Li, Yunfan Xiong, Yi Qian, Jiaqi Zhu, Shirong Ma, Xiaokang Zhang, Jiasheng Ye, +23 more

已审阅 2026-06-27-dspark-confidence-scheduled-speculative-decoding Speculative Decoding Multi-Token Prediction Serving Runtime

归档 Jun 28, 2026

DFlash: Block Diffusion for Flash Speculative Decoding

把 block diffusion 用作 speculative drafter，并用 target hidden features 条件化整块候选生成。

Jian Chen, Yesheng Liang, Zhijian Liu

已审阅 2602.06036-dflash-block-diffusion-speculative-decoding Speculative Decoding Multi-Token Prediction

归档 Jun 28, 2026

Self Improving Agents in the Era of Experience: A Survey of Self to Meta Evolution

把 agent 自改进抽象为 trace to capability 流水线，覆盖 skills、memory、environment、model 与 meta layer。

Che Jiang, Jincheng Zhong, Yu Fu, Kai Tian, Junlin Yang, Kaikai Zhao, Yuchong Wang, Tianwei Luo, Weizhi Wang, Yuxin Zuo, +17 more

已审阅 2026-06-25-self-improving-agents-era-experience-survey Agent RL Agent Memory Agent Workflow

归档 Jun 28, 2026

Laminar: A Scalable Asynchronous RL Post Training Framework

让完成轨迹独立进入 experience buffer，并以 CPU/RDMA relay 和同版本 repack 解除全局 batch / 权重同步 barrier。

Guangming Sheng, Yuxuan Tong (童雨轩), Borui Wan, Wang Zhang, Chaobo Jia (贾超博), Xibin Wu, Yuqi Wu, Xiang Li, Chi Zhang, Yanghua Peng, +3 more

已审阅 2510.12633-laminar-asynchronous-rl-post-training RL Infrastructure Rollout Optimization Distributed Training

归档 Jun 28, 2026

LoRAFusion: Efficient LoRA Fine Tuning for LLMs

用 split graph kernel fusion 与 multi adapter packing 同时减少 LoRA memory traffic 和 pipeline bubbles。

Zhanda Zhu, Qidong Su, Yaoyao Ding, Kevin Song, Shang Wang

已审阅 2510.00206-lorafusion-efficient-lora-fine-tuning Parameter-Efficient Finetuning Distributed Training Training Memory

归档 Jun 28, 2026

MegaScale MoE: Large Scale Communication Efficient Training of Mixture of Experts Models in Production

围绕 attention SP、FFN EP、communication overlap 和 compressed communication 重构生产 MoE 训练路径。

Chao Jin, Ziheng Jiang, Zhihao Bai, Zheng Zhong, Juncai Liu, Xiang Li, Ningxin Zheng, Xi Wang, Cong Xie, Qi Huang, +9 more

已审阅 2505.11432-megascale-moe-communication-efficient-training MoE Systems Distributed Training Training Memory

归档 Jun 24, 2026

Fast Inference from Transformers via Speculative Decoding

用 draft model 生成候选、target model 并行验证，并以 rejection / residual correction 保持目标分布。

Yaniv Leviathan, Matan Kalman, Yossi Matias

已审阅 2211.17192-fast-inference-transformers-speculative-decoding Speculative Decoding

归档 Jun 24, 2026

DeepSeek V3.2: Pushing the Frontier of Open Large Language Models

用 DSA 降低 128K attention 成本，再以四层 GRPO consistency control 和 85,267 条真实/合成 agent tasks 扩展 reasoning 与 tool use。

DeepSeek AI

已审阅 2512.02556-deepseek-v3-2-open-large-language-models Sparse Attention Training Stability Agent RL

归档 Jun 24, 2026

MiniMax Sparse Attention

用 group aware index branch 选择 KV blocks，再对选中块执行精确 softmax attention。

Xunhao Lai (赖勋豪), Weiqi Xu, Yufeng Yang, Qiaorui Chen, Yang Xu (徐旸), Lunbin Zeng, Xiaolong Li, Haohai Sun, Haichao Zhu, Vito Zhang, +7 more

已审阅 2606.13392-minimax-sparse-attention-m3 Sparse Attention Long Context MoE Architecture

归档 Jun 24, 2026

DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models

用细粒度专家切分和共享专家隔离提高 routed expert 的专门化程度。

Damai Dai, Chengqi Deng, Chenggang Zhao, Runxin Xu (许润昕), Huazuo Gao, Deli Chen (陈德里), Jiashi Li, Wangding Zeng, Xingkai Yu (俞星凯), Yu Wu (吴俣), +7 more

已审阅 2401.06066-deepseekmoe-expert-specialization MoE Architecture

归档 Jun 24, 2026

Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models

用 hashed N gram lookup 和 context aware gating 增加可离线扩展的 conditional memory。

Xin Cheng, Wangding Zeng, Damai Dai, Qinyu Chen, Bingxuan Wang, Zhenda Xie (解振达), Kezhao Huang, Xingkai Yu (俞星凯), Zhewen Hao, Yukun Li, +4 more

已审阅 2601.07372-conditional-memory-engram-scalable-lookup Memory Architecture MoE Architecture

归档 Jun 23, 2026

Kimi K2: Open Agentic Intelligence

用大规模 MoE、MuonClip、工具数据和 agentic RL 构建开放的软件工程智能体模型。

Kimi Team: Yifan Bai and 198 other authors；arXiv submitter: Yulun Du。

已审阅 2507.20534-kimi-k2-open-agentic-intelligence MoE Architecture Optimizer Agent RL

归档 Jun 23, 2026

Kimi k1.5: Scaling Reinforcement Learning with LLMs

把 long CoT、verifiable reward、partial rollout 与 long2short 组合为长上下文 reasoning RL recipe。

Kimi Team and 95 other authors；arXiv submitter: Flood Sung。

已审阅 2501.12599-kimi-k1-5-scaling-rl-llms Reasoning RL Rollout Optimization Long Context

归档 Jun 23, 2026

Qwen3 Technical Report

用 thinking / non thinking 双模式、thinking budget 和 strong to weak distillation 统一推理与通用能力。

An Yang and 59 other authors；本地核心跟踪作者包括 An Yang, Binyuan Hui, Bo Zheng, Bowen Yu, Dayiheng Liu, Fei Huang, Jianwei Zhang, Jianxin Yang, Jingren Zhou, Junyang Lin, Rui Men。

已审阅 2505.09388-qwen3-technical-report Reasoning RL MoE Architecture On-Policy Distillation

归档 Jun 23, 2026

Qwen2.5 Technical Report

把 18T 预训练、SFT / DPO / GRPO 与长上下文扩展组织为通用、代码和数学模型族。

An Yang, Binyuan Hui, Bo Zheng, Bowen Yu (郁博文), Dayiheng Liu (刘大一恒), Fei Huang, Jianwei Zhang, Jianxin Yang, Jingren Zhou, Junyang Lin, +1 more

已审阅 2412.15115-qwen2-5-technical-report Reasoning RL Long Context Coding Agent

归档 Jun 23, 2026

DeepSeek V3 Technical Report

把 auxiliary loss free MoE balancing、MTP、FP8 与 DualPipe 组合成高效大规模训练系统。

Wenfeng Liang (梁文锋), Peiyi Wang, Runxin Xu (许润昕), Zhihong Shao (邵智宏), Damai Dai, Deli Chen (陈德里), Yu Wu (吴俣)

已审阅 2412.19437-deepseek-v3-technical-report MoE Architecture Distributed Training Multi-Token Prediction

归档 Jun 23, 2026

DeepSeek V2: A Strong, Economical, and Efficient Mixture of Experts Language Model

把 per head K/V cache 改成由 hidden state 下投影得到的共享 KV latent，并用 projection absorption 与 decoupled RoPE 避免恢复历史 K/V。

DeepSeek AI (group author)；Appendix A 列出按三类角色分组的 156 位去重贡献者。

已审阅 2405.04434-deepseek-v2-mla-moe-efficient-llm KV Cache MoE Architecture MoE Systems

归档 Jun 23, 2026

From Reasoning to Agentic: Credit Assignment in Reinforcement Learning for Large Language Models

统一 reasoning 与 agentic RL 的 token / step / turn / trajectory credit assignment 问题。

Chenchen Zhang

已审阅 2604.09459-credit-assignment-reasoning-agentic-llm-rl Credit Assignment Reasoning RL Agent RL

归档 Jun 23, 2026

Do We Need to Verify Step by Step? Rethinking Process Supervision from a Theoretical Perspective

证明在 coverage 条件下 outcome reward 可经 reward imputation 支持过程级学习，给出过程监督的优势边界。

Zeyu Jia (贾泽宇), Alexander Rakhlin, Tengyang Xie

已审阅 2502.10581-do-we-need-to-verify-step-by-step-process-supervision-theory Process Supervision RL Theory Credit Assignment

归档 Jun 23, 2026

Math Shepherd: Verify and Reinforce LLMs Step by step without Human Annotations

用 continuation 成功率自动生成 step level pseudo labels，训练 PRM 并接入 PPO。

Peiyi Wang, Lei Li, Zhihong Shao (邵智宏), Runxin Xu (许润昕), Damai Dai, Yifei Li, Deli Chen (陈德里), Yu Wu (吴俣), Zhifang Sui

已审阅 2312.08935-math-shepherd-automatic-process-supervision Process Supervision Verifier Reward Modeling

归档 Jun 23, 2026

Let's Verify Step by Step

用 80 万人工 step labels 训练 PRM，并以大规模 Best of N 验证过程监督的选择能力。

Hunter Lightman, Vineet Kosaraju, Yura Burda, Harri Edwards, Bowen Baker, Teddy Lee, Jan Leike, John Schulman, Ilya Sutskever, Karl Cobbe

已审阅 2305.20050-lets-verify-step-by-step-process-supervision Process Supervision Verifier Reward Modeling

归档 Jun 23, 2026

Credit Assignment with Resets in Language Model Reasoning

从失败轨迹重置并重采样错误点后的 continuation，只更新后缀 token 以集中 credit assignment。

Ankur Samanta, Akshayaa Magesh, Ayush Jain, Youliang Yu, Daniel R. Jiang, Kavosh Asadi, Kaveh Hassani, Paul Sajda, Jalaj Bhandari, Yonathan Efroni

已审阅 2605.25507-credit-assignment-resets-language-model-reasoning Credit Assignment Reasoning RL Rollout Optimization

归档 Jun 22, 2026

The Optimal Token Baseline: Variance Reduction for Long Horizon LLM RL

推导 token level variance minimizing baseline，并用 logit gradient proxy 近似长轨迹 policy gradient 权重。

Yingru Li (李英儒), Jiawei Xu, Ziniu Li (李子牛), Jiacai Liu (刘佳材), Wei Liu (刘威), Yuxuan Tong (童雨轩), Longtao Zheng (郑龙韬), Zhenghai Xue, Yaxiang Zhang, Tianle Cai (蔡天乐), +3 more

已审阅 2602.07078-optimal-token-baseline-long-horizon-llm-rl Credit Assignment RL Algorithm RL Theory

归档 Jun 21, 2026

VIMPO: Value Implicit Policy Optimization for LLMs

从 policy / reference log ratio 构造隐式 value recurrence，省去独立 critic 并形成 token level PPO advantage。

Zhewei Kang, Aosong Feng, Sergey Levine, Dawn Song, Xuandong Zhao

已审阅 2606.20008-vimpo-value-implicit-policy-optimization-llms RL Algorithm Credit Assignment Reasoning RL

归档 Jun 21, 2026

Reinforcement Learning Towards Broadly and Persistently Beneficial Models

用少量 beneficial trait RL data 强化诚实、纠错与风险意识，并测量跨域 alignment persistence。

Akshay V. Jagadeesh, Rahul K. Arora, Khaled Saab, Ali Malik, Mikhail Trofimov, Foivos Tsimpourlas, Johannes Heidecke, Karan Singhal

已审阅 2026-06-18-openai-beneficial-rl AI Safety Reward Modeling Agent RL

归档 Jun 21, 2026

Trust Region Masking for Long Horizon LLM Reinforcement Learning

用序列级 max token divergence 约束 rollout policy mismatch，控制长轨迹 surrogate error。

Yingru Li (李英儒), Jiacai Liu (刘佳材), Jiawei Xu, Yuxuan Tong (童雨轩), Ziniu Li (李子牛), Qian Liu (刘乾), Baoxiang Wang (王宝祥)

已审阅 2512.23075-trust-region-masking-long-horizon-llm-rl Training Stability RL Algorithm Rollout Optimization

归档 Jun 21, 2026

The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models

把 RLVR 训练能力上限关联到 policy entropy 消耗，并分析 advantage update 的熵动力学。

Ganqu Cui, Yuchen Zhang, Jiacheng Chen, Lifan Yuan (袁立凡), Zhi Wang, Yuxin Zuo, Haozhan Li, Yuchen Fan, Huayu Chen (陈华玉), Weize Chen, +7 more

已审阅 2505.22617-entropy-mechanism-rl-reasoning-language-models Training Stability Reasoning RL RL Theory

归档 Jun 21, 2026

Approximating KL Divergence

给出 k1 / k2 / k3 KL estimators 的偏差、方差和控制变量关系，作为 RL drift 诊断基础。

John Schulman

已审阅 2020-03-07-schulman-kl-divergence-approximations RL Theory Training Stability

归档 Jun 21, 2026

DeepSpeed Ulysses: System Optimizations for Enabling Training of Extreme Long Sequence Transformer Models

用 sequence sharded 与 head sharded 之间的 all to all 布局转换扩展极长序列训练。

Sam Ade Jacobs, Masahiro Tanaka, Chengming Zhang, Minjia Zhang, Shuaiwen Leon Song, Samyam Rajbhandari, Yuxiong He

已审阅 2309.14509-deepspeed-ulysses-long-sequence-training Distributed Training Long Context Attention Kernel

归档 Jun 19, 2026

Ring Attention with Blockwise Transformers for Near Infinite Context

让 KV blocks 沿设备 ring 轮转，在保持 exact attention 的条件下把上下文扩展到多设备。

Hao Liu, Matei Zaharia, Pieter Abbeel

已审阅 2310.01889-ring-attention-blockwise-transformers-near-infinite-context Long Context Distributed Training Attention Kernel

归档 Jun 19, 2026

SARATHI: Efficient LLM Inference by Piggybacking Decodes with Chunked Prefills

把长 prefill 切成 compute sized chunks，与 decode 共同 batching，提高 serving 利用率。

Amey Agrawal, Ashish Panwar, Jayashree Mohan, Nipun Kwatra, Bhargav S. Gulavani, Ramachandran Ramjee

已审阅 2308.16369-sarathi-chunked-prefill-decode-maximal-batching Inference Scheduling Serving Runtime KV Cache

归档 Jun 18, 2026

ZeRO: Memory Optimizations Toward Training Trillion Parameter Models

按 data parallel rank 分片 optimizer state、gradient 与 parameter，降低大模型训练的显存复制。

Samyam Rajbhandari, Jeff Rasley, Olatunji Ruwase, Yuxiong He

已审阅 1910.02054-zero-memory-optimizations-trillion-parameter-models Training Memory Distributed Training

归档 Jun 18, 2026

GLM 5.2: Built for Long Horizon Tasks

把 1M context、IndexShare / IndexCache 与 MTP speculative decoding 接入长程 coding agent。

Z.ai / GLM 5 Team

已审阅 2026-06-16-glm-5-2-long-horizon-tasks Coding Agent Long Context Sparse Attention

归档 Jun 10, 2026

Breaking Entropy Bounds: Accelerating RL Training via MTP with Rejection Sampling

以 TV loss 训练 MTP heads，并用 probabilistic rejection sampling 提高 RL rollout 接受率。

Yucheng Li, Huiqiang Jiang, Yang Xu (徐旸), Jianxin Yang, Yi Zhang, Yizhong Cao, Yuhao Shen, Fan Zhou, Rui Men, Jianwei Zhang, +7 more

已审阅 2606.12370-bebop-mtp-rejection-sampling-rl-training Rollout Optimization Speculative Decoding Multi-Token Prediction

归档 Jun 09, 2026

Dynamic Linear Attention

用 representation drift 动态决定 state 边界，在固定 cache 内自适应合并 linear attention states。

Xin Wang, Hui Shen, Boyuan Zheng, Xueshen Liu, Minkyoung Cho, Zhongwei Wan, Zesen Zhao, Zhuoqing Mao, Shen Yan, Mi Zhang

已审阅 2606.10650-dynamic-linear-attention Linear Attention Long Context Memory Architecture

归档 Jun 03, 2026

Why Muon Outperforms Adam: A Curvature Perspective

将 Muon 相对 Adam 的训练优势归因于更低的 directional curvature penalty，step size 的解释力较弱。

Shuche Wang, Fengzhuo Zhang, Jiaxiang Li, Dirk Bergemann, Zhuoran Yang

已审阅 2606.04662-muon-outperforms-adam-curvature Optimizer Training Stability

归档 Jun 02, 2026

UltraEP: Unleash MoE Training and Inference on Rack Scale Nodes with Near Optimal Load Balancing

基于 post gating exact load 逐 microbatch / layer 规划 expert replica 与 token reroute，统一 MoE 训练和 prefill 负载均衡。

Xinming Wei, Chao Jin, Tuo Dai, Yinmin Zhong, Shan Yu, Chengxu Yang, Bingyang Wu, Zili Zhang, Jing Mai, Qianchao Zhu, +3 more

已审阅 2606.04101-ultraep-rack-scale-moe-load-balancing MoE Systems Distributed Training Inference Scheduling

归档 Jun 02, 2026

Large Language Models Hack Rewards, and Society

把制度规则编码为 reward sandbox，验证 RL model 会发现形式合规但偏离制度意图的策略。

Wei Liu KCL, Xinyi Mou, Hanqi Yan, Zhongyu Wei, Yulan He

已审阅 2606.04075-llms-hack-rewards-and-society Reward Hacking AI Safety Agent RL

归档 Jun 01, 2026

If LLMs Have Human Like Attributes, Then So Does Age of Empires II

用 Age of Empires II 作为 substrate control，说明类人行为测试不足以支持类人内在属性归因。

Adrian de Wynter

已审阅 2605.31514-age-of-empires-anthropomorphism Reasoning Analysis Benchmark

归档 May 31, 2026

Self Trained Verification for Training and Test Time Self Improvement

把 reference solution 作为 verifier privileged signal，经 OPD + verdict RL 蒸馏到无 reference verifier，并用于训练与测试时自改进。

Chen Henry Wu, Aditi Raghunathan

已审阅 2605.30290-self-trained-verification Verifier On-Policy Distillation Test-Time Scaling

归档 May 29, 2026

On Effectiveness and Efficiency of Agentic Tool calling and RL Training

量化 tool calling 评测协议漂移，并用近期 all correct 预测与 max variance update 子采样压缩 GRPO wall clock。

Tong Liu, Cheng Qian, Matej Cief, Yuan He (何源), Daniele Dan, Nikolaos Aletras, Gabriella Kazai

已审阅 2606.00135-agentic-tool-calling-rl-training Rollout Optimization Agent RL Tool Use

归档 May 17, 2026

Diagnosing Training Inference Mismatch in LLM Reinforcement Learning

构造 trainer / rollout bitwise aligned 基线，证明微小 logprob mismatch 可触发 RL collapse。

Tianle Zhong, Neiwen Ling, Yifan Pi, Zijun Wei, Tianshu Yu, Geoffrey Fox, Peng Wu, Xiao Yu

已审阅 2605.14220-training-inference-mismatch-llm-rl Training Stability Deterministic Inference RL Infrastructure

归档 May 16, 2026

Transformers are Inherently Succinct

证明某些语言族的 Transformer 表示只需多项式规模，而 LTL / RNN / automata 需要指数或双指数规模。

Pascal Bergsträßer, Ryan Cotterell, Anthony W. Lin

已审阅 2510.19315-transformers-inherently-succinct Formal Expressivity

归档 Apr 25, 2026

DeepSeek V4: Towards Highly Efficient Million Token Context Intelligence

以 CSA / HCA、MoE、MTP / OPD 和系统协同实现百万 token 训练、推理与 agent 能力。

DeepSeek AI and 318 other authors; arXiv submitter Wenfeng Liang.

已审阅 2026-04-24-deepseek-v4-million-token-context-intelligence Long Context Sparse Attention MoE Architecture

归档 Apr 17, 2026

From Curiosity to Caution: Mitigating Reward Hacking for Best of $N$ with Pessimism

用 reward feature prediction error 估计 OOD uncertainty，在 Best of N selection 时执行 pessimistic correction。

Zhuohao Yu, Zhiwei Steven Wu, Adam Block

已审阅 2604.04648-caution-pessimism-best-of-n-reward-hacking Reward Hacking Test-Time Scaling Reward Modeling

归档 Apr 11, 2026

ImpossibleBench: Measuring LLMs' Propensity of Exploiting Test Cases

构造 specification 与 tests 冲突的 coding tasks，用 cheating rate 测量 test case exploitation。

Ziqian Zhong, Aditi Raghunathan, Nicholas Carlini

已审阅 2510.20270-impossiblebench-test-case-exploitation Benchmark Reward Hacking Coding Agent

归档 Apr 08, 2026

BroRL: Scaling Reinforcement Learning via Broadened Exploration

把 RLVR scaling 轴扩展到 rollout width，并用 correct mass decomposition 解释宽采样收益。

Jian Hu, Mingjie Liu, Ximing Lu, Fang Wu, Zaid Harchaoui, Shizhe Diao, Yejin Choi, Pavlo Molchanov, Jun Yang, Jan Kautz, +1 more

已审阅 2510.01180-brorl-broadened-rl-exploration Rollout Optimization Reasoning RL RL Algorithm

归档 Apr 04, 2026

Seer: Online Context Learning for Fast Synchronous LLM Reinforcement Learning

利用同 prompt rollout 的上下文相关性做 divided rollout、speculative scheduling 和 suffix tree reuse。

Ruoyu Qin (秦若愚), Weiran He, Weixiao Huang, Yangkun Zhang, Yikai Zhao (赵一开), Bo Pang, Xinran Xu (许欣然), Yingdi Shan (闪英迪), Yongwei Wu, Mingxing Zhang (章明星)

已审阅 2511.14617-seer-online-context-learning-llm-rl Rollout Optimization RL Infrastructure Speculative Decoding

归档 Mar 24, 2026

On the Interplay of Pre Training, Mid Training, and RL on Reasoning Language Models

用合成环境拆分 pre / mid / RL training，识别 primitive seed、edge of competence 与 bridge data 条件。

Charlie Zhang, Graham Neubig, Xiang Yue

已审阅 2512.07783-interplay-pretraining-midtraining-rl-reasoning Reasoning Analysis Reasoning RL

归档 Mar 20, 2026

From $f(x)$ and $g(x)$ to $f(g(x))$: LLMs Learn New Skills in RL by Composing Old Ones

在受控任务中证明 RL 可组合 base model 已掌握的 atomic skills，形成未见组合能力。

Lifan Yuan (袁立凡), Weize Chen, Yuchen Zhang, Ganqu Cui, Hanbin Wang, Ziming You, Ning Ding (丁宁), Zhiyuan Liu, Maosong Sun, Hao Peng

已审阅 2509.25123-rl-compositional-skill-acquisition Reasoning Analysis Reasoning RL Benchmark

归档 Mar 17, 2026

MiniMax M1: Scaling Test Time Compute Efficiently with Lightning Attention

用 Lightning Attention、CISPO 和大规模 RL rollout 降低长 CoT 的 test time compute 成本。

MiniMax; arXiv title页显示 Aili Chen and 125 other authors，Appendix Contributors 按字母序列出完整贡献者。

已审阅 2506.13585-minimax-m1-cispo-lightning-attention Reasoning RL Test-Time Scaling Linear Attention

归档 Mar 13, 2026

Inference Time Reward Hacking in Large Language Models

证明 Best of n 会因 proxy winner's curse 出现先升后降，并提出 Best of Poisson / HedgeTune。

Hadi Khalaf, Claudio Mayrink Verdun, Alex Oesterling, Himabindu Lakkaraju, Flavio du Pin Calmon

已审阅 2506.19248-inference-time-reward-hacking-llms Reward Hacking Test-Time Scaling RL Theory

归档 Mar 10, 2026

ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models

用高温探索、动态采样、周期 reference / optimizer reset 延长 RL，测试 reasoning boundary 扩展。

Mingjie Liu, Shizhe Diao, Ximing Lu, Jian Hu, Xin Dong, Yejin Choi, Jan Kautz, Yi Dong

已审阅 2505.24864-prorl-prolonged-rl-reasoning-boundaries Reasoning RL RL Algorithm Rollout Optimization

归档 Mar 06, 2026

Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

用 pass@k 区分 sampling efficiency 与新增 reasoning capacity，评估 RLVR 是否突破 base model 边界。

Yang Yue, Zhiqi Chen, Rui Lu, Andrew Zhao, Zhaokai Wang, Shiji Song, Gao Huang

已审阅 2504.13837-rlvr-reasoning-boundary-base-model Reasoning Analysis Reasoning RL Benchmark

归档 Mar 03, 2026

DAPO: An Open Source LLM Reinforcement Learning System at Scale

用 Clip Higher、Dynamic Sampling、token level loss 与 overlong shaping 构成可复现 long CoT RL recipe。

Qiying Yu, Zheng Zhang, Ruofei Zhu, Yufeng Yuan, Xiaochen Zuo, Yu Yue, Weinan Dai, Tiantian Fan, Gaohong Liu, Lingjun Liu, +25 more

已审阅 2503.14476-dapo-long-cot-rl-system RL Algorithm Reasoning RL RL Infrastructure

归档 Feb 26, 2026

Spurious Rewards: Rethinking Training Signals in RLVR

通过随机、格式和错误答案 reward 实验，揭示 pretrained prior 与 clipping bias 可产生伪 RLVR 增益。

Rulin Shao, Shuyue Stella Li, Rui Xin, Scott Geng, Yiping Wang, Sewoong Oh, Simon Shaolei Du, Nathan Lambert, Sewon Min, Ranjay Krishna, +4 more

已审阅 2506.10947-spurious-rewards-rethinking-rlvr Reward Hacking Reasoning RL Reward Modeling

归档 Feb 25, 2026

GLM 5: from Vibe Coding to Agentic Engineering

把 DSA / MTP / Muon 模型栈、软件工程 mid training、agentic RL 与异步 rollout 组合为 agentic engineering pipeline。

GLM 5 Team: Aohan Zeng and 184 other authors

已审阅 2602.15763-glm-5-agentic-engineering Coding Agent Agent RL MoE Architecture

归档 Feb 17, 2026

Monitoring Reasoning Models for Misbehavior and the Risks of Promoting Obfuscation

验证 CoT monitor 对 agent reward hacking 的检测优势，并量化直接训练规避 monitor 的 monitorability tax。

Bowen Baker, Joost Huizinga, Leo Gao, Zehao Dou, Melody Y. Guan, Aleksander Madry, Wojciech Zaremba, Jakub Pachocki, David Farhi

已审阅 2503.11926-monitoring-reasoning-models-obfuscation AI Safety Reward Hacking Verifier

归档 Feb 13, 2026

Correlated Proxies: A New Definition and Improved Mitigation for Reward Hacking

以 occupancy shift 定义 correlated proxy failure，并用 ORPO 约束策略访问分布。

Cassidy Laidlaw, Shivam Singhal, Anca Dragan

已审阅 2403.03185-correlated-proxies-reward-hacking Reward Hacking Reward Modeling RL Theory

归档 Feb 10, 2026

Beyond Reward Hacking: Causal Rewards for Large Language Model Alignment

用 MMD independence regularization 削弱 reward model 对 length、sycophancy 等伪相关特征的依赖。

Chaoqi Wang, Zhuokai Zhao, Yibo Jiang, Zhaorun Chen, Chen Zhu, Yuxin Chen, Jiayi Liu, Lizhu Zhang, Xiangjun Fan, Hao Ma, +1 more

已审阅 2501.09620-causal-rewards-llm-alignment Reward Modeling Reward Hacking AI Safety

归档 Feb 06, 2026

DeepSeek R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

用 outcome based RL 从强 base model 诱导 long CoT、自验证与策略切换，再通过 SFT / RL / distillation 转为可用模型。

DeepSeek AI and 199 other authors. Core contributors listed in v2 source include Daya Guo, Dejian Yang, Haowei Zhang, Junxiao Song, Peiyi Wang, Qihao Zhu, Runxin Xu, Ruoyu Zhang, Shirong Ma, Xiao Bi, Xiaokang Zhang, Xingkai Yu, Yu Wu, Z.F. Wu, Zhibin Gou, Zhihong Shao, Zhuoshu Li, Ziyi Gao.

已审阅 2501.12948-deepseek-r1-rl-reasoning Reasoning RL Reward Modeling RL Algorithm

归档 Feb 03, 2026

Kimi K2.5: Visual Agentic Intelligence

trainable orchestrator + frozen subagents，用 parallel / finish / performance reward 训练并行编排。

Kimi Team: Tongtong Bai and 324 other authors; appendix lists contributors alphabetically by last name.

已审阅 2602.02276-kimi-k2-5-visual-agentic-intelligence Multi-Agent Orchestration Multimodal Model Agent RL

归档 Jan 31, 2026

Using Span Queries to Optimize for Cache and Attention Locality

让客户端声明可重排 message spans，以表达式树重写提升 KV cache 与 attention locality。

Paul Castro, Nick Mitchell, Nathan Ordonez, Thomas Parnell, Mudhakar Srivatsa, Antoni Viros i Martin

已审阅 2511.02749-span-queries-cache-attention-locality Agent Workflow KV Cache Serving Runtime

归档 Jan 30, 2026

Defeating Nondeterminism in LLM Inference

用 batch invariant RMSNorm、matmul 与 attention kernel 消除 temperature=0 推理的批次依赖漂移。

Horace He, in collaboration with others at Thinking Machines Lab

已审阅 2025-09-10-defeating-nondeterminism-llm-inference Deterministic Inference Attention Kernel RL Infrastructure

归档 Jan 27, 2026

HybridFlow: A Flexible and Efficient RLHF Framework

用跨模型 single controller 与模型内 multi controller 统一编排 RLHF dataflow 和并行执行。

Guangming Sheng, Chi Zhang, Zilingfeng Ye, Xibin Wu, Wang Zhang, Ru Zhang, Yanghua Peng, Haibin Lin, Chuan Wu

已审阅 2409.19256-hybridflow-rlhf-framework RL Infrastructure Distributed Training Rollout Optimization

归档 Jan 23, 2026

Parrot: Efficient Serving of LLM based Applications with Semantic Variable

用 Semantic Variable 暴露 LLM application DAG、shared prompt 和性能目标，驱动应用级 serving 调度。

Chaofan Lin, Zhenhua Han, Chengruidong Zhang, Yuqing Yang, Fan Yang, Chen Chen, Lili Qiu

已审阅 2405.19888-parrot-semantic-variable-llm-serving Agent Workflow Inference Scheduling KV Cache

归档 Jan 20, 2026

Various Lengths, Constant Speed: Efficient Language Modeling with Lightning Attention

把 causal linear attention 拆成块内矩阵乘和块间 recurrent state，提供 IO aware GPU kernel。

Zhen Qin, Weigao Sun, Dong Li, Xuyang Shen, Weixuan Sun, Yiran Zhong

已审阅 2405.17381-various-lengths-constant-speed-lightning-attention Linear Attention Attention Kernel Long Context

归档 Jan 16, 2026

FlashAttention 2: Faster Attention with Better Parallelism and Work Partitioning

通过减少 non matmul FLOPs、提升 sequence parallelism 和调整 warp 分工提高 attention kernel 利用率。

Tri Dao

已审阅 2307.08691-flashattention-2-parallelism-work-partitioning Attention Kernel

归档 Jan 13, 2026

FlashAttention: Fast and Memory Efficient Exact Attention with IO Awareness

用 SRAM tiling、online softmax 与 backward recomputation 减少 exact attention 的 HBM traffic。

Tri Dao, Daniel Y. Fu, Stefano Ermon, Atri Rudra, Christopher Ré

已审阅 2205.14135-flashattention-io-aware-exact-attention Attention Kernel Long Context

归档 Jan 09, 2026

Training Compute Optimal Large Language Models

重新估计 compute optimal frontier，指出参数量和训练 token 应随算力近似等比例增长。

Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya, Trevor Cai, Eliza Rutherford, Diego de Las Casas, Lisa Anne Hendricks, Johannes Welbl, Aidan Clark, +12 more

已审阅 2203.15556-training-compute-optimal-large-language-models Scaling Laws

归档 Jan 06, 2026

Scaling Laws for Neural Language Models

拟合 loss 对参数、数据与计算的 power law，建立早期 compute efficient pretraining scaling law。

Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, Dario Amodei

已审阅 2001.08361-scaling-laws-neural-language-models Scaling Laws

论文笔记