Chlience Paper Archive

Research Mainlines

跨材料问题的长期分析入口。每条主线保留自己的检索窗口、分类框架和逐结论证据强度。

View all mainlines

Agentic RL 的可学习环境演进

22 项材料 1 篇本地论文 2024.06 → 2026.07

Agentic RL 的环境供给如何从可执行沙箱发展到可训练、可校准的环境模型，各类方案分别替代真实交互的哪一部分？

环境角色状态权威转移权威奖励权威真实数据校准闭环

进入主线
LLM 与 Agent 强化学习中的信用分配

29 项材料 9 篇本地论文 2026.05 → 2026.07

稀疏终局奖励如何被分配到 LLM 与 Agent 轨迹中的 token、步骤、工具调用、记忆操作、摘要、角色和策略，各方法依赖什么可比性与额外模型？

信用单元识别信号分配算子可比性条件策略角色配置

进入主线
国产前沿模型技术报告时间线

19 项材料 15 篇本地论文 2024.01 → 2026.07

国产前沿模型组织如何在技术报告和官方发布材料中推进基础架构、推理强化学习、长上下文、Agent 系统与训练—服务协同，公开证据的强度如何变化？

组织路线模型世代技术层级披露深度证据类型

进入主线

Latest Reviewed Notes

置顶条目优先，其余按审阅时间列出最近完成本地审阅的论文和技术文章。

12 篇待审阅 View all reviewed

审阅 Jul 23, 2026

Multi Turn On Policy Distillation with Prefix Replay

把教师 RL 轨迹回放为按轮次衰减采样的前缀，只让学生在当前步生成并接受教师分布监督，从而在学生蒸馏阶段关闭环境。

Baohao Liao, Hanze Dong, Christof Monz, Xinxing Xu, Li Dong (董力), Furu Wei (韦福如)

已审阅 On-Policy Distillation Agent RL Rollout Optimization

审阅 Jul 23, 2026

Self Distillation Enables Continual Learning

让 student 在自身轨迹上接受 query specific demonstration conditioned EMA 同模型的 token distribution，在提升新任务准确率时显著减少旧能力遗忘。

Idan Shenfeld, Mehul Damani, Jonas Hübotter, Pulkit Agrawal

已审阅 On-Policy Distillation Training Stability

审阅 Jul 23, 2026

Self Compacting Language Model Agents

用要求引用轨迹证据的任务专用 rubric 选择摘要时机，让同一模型在无需训练时压缩并重建长程 agent 上下文。

Tianjian Li, Jingyu Zhang (张景昱), William Jurayj, Xi Wang, Chuanyang Jin, Mehrdad Farajtabar, Eric Nalisnick, Daniel Khashabi

已审阅 Agent Memory Agent Workflow Long Context

审阅 Jul 23, 2026

SmoothAgent: Efficient Long Horizon LLM Based Agent Serving with Lookahead Context Engineering

把可提前确定的 context transformation 移入异步 lookahead stream，并用 SLO aware scheduling 预建变换后 KV cache，降低 transform point TTFT。

Zaifeng Pan (潘再峰), Qianxu Wang, Zhengding Hu, Chang Chen, Yue Guan, Yanbo Zhou, Steven Swanson, Yufei Ding

已审阅 Agent Memory KV Cache Inference Scheduling

审阅 Jul 22, 2026

IndexCache: Accelerating Sparse Attention via Cross Layer Index Reuse

用 loss guided layer search 或 multi layer distillation 划分 Full / Shared 层，跨层复用 top k positions 并跳过最多 75% 的 DSA indexer 计算。

Yushi Bai (白雨石), Qian Dong, Ting Jiang, Xin Lv (吕鑫), Zhengxiao Du, Aohan Zeng, Jie Tang (唐杰), Juanzi Li (李涓子)

已审阅 Sparse Attention Long Context Serving Runtime

审阅 Jul 22, 2026

CompactionRL: Reinforcement Learning with Context Compaction for Long Horizon Agents

在 SUPO 已覆盖摘要与执行联合训练的前提下，用支持单 rollout 的独立 critic 和跨 segment GAE 处理压缩轨迹；两个模型在 compacted coding 评测中均提高 Pass@1，但缺少与 SUPO 的直接对照。

Yujiang Li, Zhenyu Hou, Yi Jing, Jie Tang (唐杰), Yuxiao Dong

已审阅 Agent Memory Agent RL Credit Assignment

审阅 Jul 21, 2026

Single Rollout Asynchronous Optimization for Agentic Reinforcement Learning

用每 prompt 单 rollout、强化 critic 与双侧 token mask 替代异步 GRPO 的组内等待和 group baseline。

Zhenyu Hou, Yujiang Li, Jie Tang (唐杰), Yuxiao Dong

已审阅 RL Algorithm Agent RL Credit Assignment

审阅 Jul 21, 2026

ECHO: Prune to act, trace to learn with selective turn memory in agentic RL

ECHO 为长程智能体保留带原始轮次标识的选择性记忆，用它重建有限上下文并将结果信用路由到被复用历史轮次及其选择动作，在 BrowseComp Plus 上同时提高一次通过率并减少滚动摘要造成的轨迹膨胀。

Zijun Xie, Binbin Zheng, Enlei Gong, Jihua Liu, Yuyang You, Lingfeng Liu, Jiayao Tang, Guanqun Zhao, Aoqi Hu, Zeyu Chen

已审阅 Agent Memory Agent RL Long Context

Research Routes

主题入口用于快速进入同一问题域，数量来自当前归档。

View all topics

Training

13 routes

模型训练、后训练、优化信号与训练基础设施。

Reasoning RL 24 Agent RL 22 RL Algorithm 20

Inference

6 routes

在线推理、请求调度、缓存与 test-time compute。

Test-Time Scaling 10 KV Cache 9 Serving Runtime 9

Architecture

9 routes

模型结构、attention、MoE 与长上下文机制。

Long Context 18 MoE Architecture 11 Sparse Attention 7

Agents

5 routes

Agent 程序、工具、记忆、协作与软件工程。

Agent Workflow 13 Agent Memory 8 Tool Use 8

Evaluation

4 routes

验证器、过程监督、基准与能力边界分析。

Benchmark 7 Reasoning Analysis 5 Verifier 5

Safety

2 routes

奖励攻击、对齐、监控与高风险行为。

AI Safety 10 Reward Hacking 8

Theory

3 routes

学习目标、复杂性与缩放规律的形式化结果。

RL Theory 13 Scaling Laws 2 Formal Expressivity 1

Chlience Paper Archive

Reading Contract

Research Mainlines

Agentic RL 的可学习环境演进

LLM 与 Agent 强化学习中的信用分配

国产前沿模型技术报告时间线

Latest Reviewed Notes

Research Routes

Training

Inference

Architecture

Agents

Evaluation

Safety

Theory