DAPO: An Open Source LLM Reinforcement Learning System at Scale

Source

Title: DAPO: An Open-Source LLM Reinforcement Learning System at Scale
arXiv: https://arxiv.org/abs/2503.14476
HTML v2: https://arxiv.org/html/2503.14476v2
PDF: https://arxiv.org/pdf/2503.14476
Project Page: https://dapo-sia.github.io/
Code/Project: https://github.com/BytedTsinghua-SIA/DAPO
Data: https://huggingface.co/datasets/BytedTsinghua-SIA/DAPO-Math-17k
Model: https://huggingface.co/BytedTsinghua-SIA/DAPO-Qwen-32B
Authors: Qiying Yu, Zheng Zhang, Ruofei Zhu, Yufeng Yuan, Xiaochen Zuo, Yu Yue, Weinan Dai, Tiantian Fan, Gaohong Liu, Lingjun Liu, Xin Liu, Haibin Lin, Zhiqi Lin, Bole Ma, Guangming Sheng, Yuxuan Tong, Chi Zhang, Mofan Zhang, Wang Zhang, Hang Zhu, Jinhua Zhu, Jiaze Chen, Jiangjie Chen, Chengyi Wang, Hongli Yu, Yuxuan Song, Xiangpeng Wei, Hao Zhou, Jingjing Liu, Wei-Ying Ma, Ya-Qin Zhang, Lin Yan, Mu Qiao, Yonghui Wu, Mingxuan Wang
Submitted: 2025-03-18
Current version read: v2, last revised 2025-05-20
Subjects: Machine Learning (cs.LG); Computation and Language (cs.CL)
DOI: https://doi.org/10.48550/arXiv.2503.14476

作者与关系

Qiying Yu: ByteDance Seed; Institute for AI Industry Research (AIR), Tsinghua University; SIA-Lab of Tsinghua AIR and ByteDance Seed.
Zheng Zhang: ByteDance Seed。Algorithm。
Ruofei Zhu: ByteDance Seed。Algorithm。
Yufeng Yuan: ByteDance Seed。Algorithm。
Xiaochen Zuo: ByteDance Seed。Algorithm。
Yu Yue: ByteDance Seed。Algorithm。
Weinan Dai: ByteDance Seed; AIR, Tsinghua University; SIA-Lab。Infrastructure。
Tiantian Fan: ByteDance Seed。Infrastructure。
Gaohong Liu: ByteDance Seed。Infrastructure。
Lingjun Liu: ByteDance Seed。Infrastructure。
Xin Liu: ByteDance Seed。Infrastructure。
Haibin Lin: ByteDance Seed。Infrastructure。
Zhiqi Lin: ByteDance Seed。Infrastructure。
Bole Ma: ByteDance Seed。Infrastructure。
Guangming Sheng: ByteDance Seed; The University of Hong Kong。Infrastructure。
Yuxuan Tong: ByteDance Seed; AIR, Tsinghua University; SIA-Lab。Infrastructure。
Chi Zhang: ByteDance Seed。Infrastructure。
Mofan Zhang: ByteDance Seed。Infrastructure。
Wang Zhang: ByteDance Seed。Infrastructure。
Hang Zhu: ByteDance Seed。Infrastructure。
Jinhua Zhu: ByteDance Seed。Infrastructure。
Jiaze Chen: ByteDance Seed。Dataset。
Jiangjie Chen: ByteDance Seed; SIA-Lab。Dataset。
Chengyi Wang: ByteDance Seed。Dataset。
Hongli Yu: ByteDance Seed; AIR, Tsinghua University; SIA-Lab。Dataset。
Yuxuan Song: ByteDance Seed; AIR, Tsinghua University; SIA-Lab。Dataset。
Xiangpeng Wei: ByteDance Seed。Dataset。
Hao Zhou: AIR, Tsinghua University; SIA-Lab。Supervision。
Jingjing Liu: AIR, Tsinghua University; SIA-Lab。Supervision。
Wei-Ying Ma: AIR, Tsinghua University; SIA-Lab。Supervision。
Ya-Qin Zhang: AIR, Tsinghua University; SIA-Lab。Supervision。
Lin Yan: ByteDance Seed; SIA-Lab。Supervision。
Mu Qiao: ByteDance Seed; SIA-Lab。Supervision。
Yonghui Wu: ByteDance Seed。Supervision。
Mingxuan Wang: ByteDance Seed; SIA-Lab。Supervision。

阅读目标与判断边界

本笔记关注：

DAPO 相对 naive GRPO 解决了哪些 long-CoT RL 训练障碍。
四个关键技巧如何分别作用于探索、有效梯度、长序列 credit assignment 和 overlong reward noise。
DAPO 与 VERL/HybridFlow、TIM/VeXact、tool-calling RL、STV 的关系。
开源复现材料在证据链中的作用和边界。

判断边界：

论文主要验证数学 reasoning，核心评测是 AIME 2024 avg@32；跨代码、工具调用、多模态、开放式 reward model 的外推需要额外实验。
主要模型是 Qwen2.5-32B base；不同 base model、MoE、不同 tokenizer 或不同 rollout backend 下的 recipe 有效性需要复验。
与 DeepSeek-R1-Zero-Qwen-32B 的对比来自公开报告和开源复现语境，系统、数据、训练细节不完全一致。
arXiv HTML 的公式变量存在渲染缺失，本笔记以正文描述、表格和项目 README 为主要依据。

论文脉络

1. 问题背景

OpenAI o1、DeepSeek R1、QwQ、Kimi k1.5 等 reasoning model 展示了 test-time scaling 和 long-CoT 的能力，但很多关键 RL 训练细节没有完整公开。社区复现 DeepSeek-R1 风格训练时常遇到训练不稳定、entropy collapse、reward noise、有效梯度不足等问题。

作者以 Qwen2.5-32B base 为起点，先跑 naive GRPO baseline，只在 AIME 2024 达到 30 分，明显低于 DeepSeek-R1-Zero-Qwen-32B 的 47 分。DAPO 的目标是公开一套能跑到行业级结果的完整 recipe，包括算法、verl 训练代码、数据集、verifier、模型权重和训练记录。

2. 核心假设或切入点

DAPO 的切入点是：long-CoT RL 的难点不只在 PPO/GRPO 目标函数本身，还在训练过程中的探索保持、prompt group 有效梯度、长 response 的 token 权重、截断样本奖励噪声和可解析数据。

作者在 GRPO 框架上做了几类改动：

移除 explicit KL penalty，让 reasoning policy 可以充分偏离 base/reference policy。
用 rule-based final accuracy reward，避免 reward model overoptimization。
用 decoupled clipping 放宽上界，减少低概率 exploration token 被 upper clip 限制。
用 dynamic sampling 过滤全错或全对 prompt groups，保持 batch 中有稳定数量的有效梯度。
用 token-level policy gradient loss，让长 response 中的 token 能按 token 粒度贡献梯度。
对 overlong / truncated samples 做过滤和软惩罚，降低 reward noise。

3. 方法 / 系统 / 理论框架

DAPO 包含四个核心技巧。

Clip-Higher：

naive PPO/GRPO 中，upper clip 会限制低概率 exploration token 的概率提升。
对已经高概率的 exploitation token，upper clip 仍允许它变得更高；对低概率 token，同样的相对 ratio 上界会让绝对概率提升很小。
DAPO decouple lower 和 upper clipping range，保留 lower clip 的稳定作用，提高 upper clip 到约 0.28，让低概率但高 reward 的探索 token 有更多提升空间。
目标是缓解 entropy collapse，让采样保持多样性。

Dynamic Sampling：

GRPO 对每个 prompt 采样一组 responses，并用 group reward normalization 得到 advantage。
如果一组全对或全错，group 内 reward 方差为 0，advantage 变成 0，该 prompt 不贡献 policy gradient。
随着训练推进，全对 prompt 数量增加，有效 prompt 数减少，batch gradient variance 变大。
DAPO 过采样并过滤 accuracy=0 和 accuracy=1 的 prompt groups，只把有 reward variance 的 groups 放进 dynamic sampling buffer，直到 batch 填满。
作者认为同步 RL 系统中 generation 时间常由 long-tail samples 主导，因此额外采样不必然显著增加 wall-clock。

Token-Level Policy Gradient Loss：

原始 GRPO 先在每条 sample 内对 token loss 求平均，再在 samples 间求平均，所以每条 response 权重相同。
在 long-CoT 中，长 response 的单个 token 梯度会被稀释；高质量长推理样本中的 reasoning pattern 学得不充分，低质量长样本中的重复/乱码 pattern 也惩罚不足。
DAPO 改成 token-level reduction，让每个 token 以更直接的方式进入整体梯度。长序列因此有更大总权重，训练能更健康地调节长度和 entropy。

Overlong Reward Shaping：

long-CoT 训练通常设置最大生成长度，超长样本会被截断。
直接给截断样本强惩罚会引入 reward noise，因为一个本来正确或有价值的推理过程可能只是长度过长。
DAPO 先尝试 overlong filtering：对 truncated samples mask loss，提升稳定性。
进一步提出 soft overlong punishment：在期望最大长度之后设置惩罚区间，越接近或超过最大长度，惩罚越大，并加到 rule-based correctness reward 上。

Dataset Transformation：

DAPO-Math-17K 来自网络和竞赛官网，通过 web scraping 和人工标注整理。
数学答案格式多样，作者把问题重写成类似 AIME 的整数答案格式，降低 rule-based verifier 的解析错误。
项目页提供训练集、AIME 2024 验证集、rule-based verifier 和训练脚本。

4. 结论链条

论文的证据链是：

naive GRPO 在 Qwen2.5-32B base 上只能到 AIME 30，说明复现 R1-like reasoning RL 需要更多训练 recipe。
long-CoT RL 中 entropy collapse、zero-gradient groups、长 response token 权重和 overlong reward noise 是主要障碍。
Clip-Higher 提升 entropy 和探索空间；Dynamic Sampling 保持有效梯度；Token-level loss 改善长序列 credit assignment；Overlong Reward Shaping 降低截断噪声。
四个技巧逐步叠加后，AIME 2024 从 30 提升到 50，并超过 DeepSeek-R1-Zero-Qwen-32B 报告的 47。
开源代码、数据、模型和 wandb training record 使这套 recipe 更适合作为社区复现实验基线。

关键实验/定理

结果 1：主结果与 progressive ablation

设置：Qwen2.5-32B base，verl 训练，math tasks，AIME 2024 avg@32 评测。
指标：AIME 2024 score。
结果：DeepSeek-R1-Zero-Qwen-32B 报告 47；naive GRPO 30；加 Overlong Filtering 到 36；加 Clip-Higher 到 38；加 Soft Overlong Punishment 到 41；加 Token-level Loss 到 42；加入 Dynamic Sampling 的完整 DAPO 到 50。
解读：DAPO 的收益来自多个 recipe 叠加，Dynamic Sampling 的最终增益最大；Overlong shaping 对稳定性和性能也很关键。

结果 2：Clip-Higher 缓解 entropy collapse

设置：比较 naive setting 与 Clip-Higher 后的 AIME accuracy 和 actor entropy。
指标：AIME accuracy、actor generation probability entropy、up-clipped token probability。
结果：Clip-Higher 后 entropy 更高，采样多样性改善，AIME 曲线提升。
解读：long-CoT RL 需要保留探索空间；过紧 upper clip 会让低概率探索 token 难以被强化。

结果 3：Dynamic Sampling 改善有效梯度和训练效率

设置：对 prompt groups 过采样，过滤 accuracy=0 和 accuracy=1 groups，保持 batch 内有足够 non-zero advantage groups。
指标：有效 prompt 数、AIME performance、convergence time。
结果：虽然采样实例数增加，模型达到相同性能所需训练时间减少；完整 DAPO 最终达到 50。
解读：GRPO 中全对/全错 group 的 advantage 为 0，计算会浪费在无梯度样本上；dynamic sampling 把 rollout 预算集中到有学习信号的 prompts。

结果 4：Token-level loss 改善长序列训练动态

设置：比较 sample-level GRPO loss 与 token-level policy gradient loss。
指标：response length、entropy、training stability、AIME score。
结果：token-level loss 带来的 score 增益较小，但让 length growth 更健康，并增强训练稳定性。
解读：在 long-CoT 中，loss reduction 方式本身会改变模型对长 reasoning pattern 的学习和惩罚。

结果 5：Overlong Reward Shaping 降低截断噪声

设置：最大生成长度 20,480；期望最大长度 16,384；额外 4,096 tokens 作为 soft punish cache。比较默认截断惩罚、overlong filtering 和 soft overlong punishment。
指标：AIME accuracy、actor entropy、训练稳定性。
结果：Overlong Filtering 将 naive GRPO 从 30 提升到 36；Soft Overlong Punishment 后达到 41。
解读：对截断样本直接强惩罚会让模型混淆“推理过长”和“推理错误”；软惩罚提供更平滑的长度约束。

结果 6：训练监控指标

设置：DAPO 训练过程中跟踪 response length、reward score、generation entropy、mean probability。
指标：长度、训练集 reward、验证集 accuracy、entropy、mean probability。
结果：长度增长和 validation accuracy 共同反映训练状态；training reward 稳定上升但和 validation accuracy 相关性有限；entropy 和 mean probability 需要保持适当趋势。
解读：long-CoT RL 是复杂系统工程，单看 reward 不够。长度、entropy、mean probability 等中间指标是定位训练退化的必要仪表盘。

证据链强度评估

强证据

论文开源算法、代码、数据、模型和训练记录，复现材料比只给技术报告的 reasoning RL 工作更完整。
Progressive ablation 清楚展示四个技巧的叠加贡献，尤其是 overlong shaping 与 dynamic sampling。
训练指标分析与前面方法设计直接对应：entropy 对 Clip-Higher，zero-gradient groups 对 Dynamic Sampling，length 对 token-level loss 和 overlong shaping。
与 VERL 基础设施结合紧密，给后续 RL 系统论文提供可复用基线。

中等强度证据

主要实验围绕 Qwen2.5-32B 和 AIME 2024，数学任务代表性强，但领域覆盖有限。
与 DeepSeek-R1-Zero-Qwen-32B 的比较有参考价值，但数据、实现、评测细节和训练预算未完全对齐。
Dynamic Sampling 的 wall-clock 结论依赖同步 rollout 系统和 long-tail generation 主导的假设；在 pipelined rollout、continuous batching 或不同 serving backend 中可能变化。
Token-level loss 增益较小，更像训练动态改善项，需要更多任务验证其稳定贡献。

需要谨慎的推论

DAPO 达到 AIME 50 不说明四个技巧在所有 RLVR、tool-use、code RL 或 multimodal RL 中都必要。
过滤 accuracy=0 和 accuracy=1 groups 会改变训练数据分布，可能降低对极难题或已掌握题的持续学习；需要关注 curriculum bias。
移除 KL penalty 适合 reasoning RL 的充分探索，但可能增加语言风格漂移、安全行为漂移或 reward hacking 风险。
将答案改写成整数格式提高 rule verifier 可靠性，也会让 benchmark 数据分布更接近 AIME，跨数据泛化需要复验。

OpenReview / 审稿意见吸收

Venue status: 当前档案未记录公开 peer-review 状态。
Public reviews: 当前档案未记录可可靠匹配的 OpenReview / ARR / 会议 reviewer comments。
Ratings / confidence: 无公开评分可用于校准。
Reviewer consensus: 暂无。
Main criticisms: 暂无公开 reviewer 质疑可引用；可信度主要由论文、技术报告、项目证据和本地一致性检查决定。
Author response: 暂无公开 rebuttal 记录。
对本文可信度的影响: 按未完成公开审稿吸收处理，结论需要依赖实验设置、baseline 强度、复现证据和跨论文一致性校准。

本地讨论补充

1. 讨论收敛点

DAPO 应作为一套 long-CoT RL recipe 和开源复现系统理解。它把 naive GRPO 在 reasoning RL 中遇到的几个工程性失败模式拆开处理：探索坍塌、zero-gradient prompt groups、长序列 token 梯度稀释、截断样本 reward noise、verifier 解析错误。
DAPO 的主线可以概括为有效梯度管理。Clip-Higher 保持有用探索，Dynamic Sampling 保持 batch 内有梯度，Token-level Loss 让长 response 的 token 参与梯度，Overlong Reward Shaping 降低错误惩罚带来的噪声。
DAPO 的 AIME 50 结果来自一组协同 recipe。单独看每个技巧都像局部修补，组合后形成可复现的 long-CoT RL 训练系统。

2. 修正后的理解

DAPO 的目标函数层修改和系统层修改耦合很强。Dynamic Sampling 会改变 rollout 分布，Token-level Loss 会改变长短 response 的梯度权重，Overlong Reward Shaping 会改变 reward landscape；这些改动共同决定 policy update 实际看到的训练信号。
DAPO 的 Dynamic Sampling 与 2606.00135 的 zero-variance prompt 处理存在同源思想：把 rollout/policy update 预算集中在有 reward variance 和有效 gradient 的 prompts 上。差别在于 DAPO 过滤全对/全错 groups，2606.00135 进一步把这个问题放到 tool-calling harness 和训练效率语境中。
DAPO 的 long response 设置与 TIM/VeXact 关系密切。最大生成长度 20,480 会放大 rollout/trainer logprob consistency、sequence-level mismatch、policy update token cost 等问题。
DAPO 移除 KL penalty 的前提是数学 RLVR 的 rule reward 足够稳定，且训练目标允许模型显著偏离 base distribution。迁移到开放式任务、安全敏感任务或工具调用任务时，需要额外监控 style drift、reward hacking 和行为漂移。

3. 后续复验指标

Dynamic Sampling 前后：有效 prompt ratio、accuracy=0/1 group 占比、实际采样次数、rollout wall-clock、policy update wall-clock。
Clip-Higher 前后：entropy、mean probability、up-clipped token probability、低概率 token 被强化后的后续 reward。
Token-level loss 前后：response length distribution、长样本 loss contribution、重复/乱码比例、validation accuracy。
Overlong shaping 前后：truncation rate、soft punish 区间分布、正确但过长样本比例。
与 TIM 相关：rollout/trainer delta_logprob p95/p99/max、sequence accumulated mismatch、clipped token 中由 mismatch 触发的比例。

4. Token-Level Policy Gradient Loss 细化

原始 GRPO 的 reduction 是 sample-level：先对单条 response 内的 token loss 取平均，再对同一 prompt group 的 responses 取平均。形式上近似 $\frac{1}{G}\sum_i\frac{1}{|o_i|}\sum_t \ell_{i,t}$ 。这样每条 response 权重相同，长 response 内每个 token 的单点权重更低。
DAPO 改为 token-level reduction：把 group 内所有 response token 放在同一个 token 池里统一平均，形式上近似 $\frac{1}{\sum_i |o_i|}\sum_i\sum_t \ell_{i,t}$ 。这样每个 token 的权重一致，长 response 因 token 更多，对整体梯度贡献也更大。
直觉上，这个改动是在重新平衡 long-CoT 训练信号。高 reward 长推理中的有效 reasoning pattern 不会因为序列长被平均稀释；低 reward 长推理中的重复、乱码、无效扩展也会获得更强惩罚。
它会改变长度偏好。sample-level reduction 容易让长样本内部 token 的更新过弱，模型可能在 entropy 和 length 上出现不健康增长；token-level reduction 让长度增长受到更直接的 reward 约束。
论文实验中，加入 Token-level Loss 后 AIME 2024 avg@32 从 41 提升到 42，分数增益小于 Dynamic Sampling，但作者强调它提升训练稳定性，让 response length 增长更健康。
实现时需要关注 padding mask、response mask、prompt tokens 排除、micro-batch 内全局 token 归一化和不同并行 worker 的 token count 聚合；否则 sample-level 和 token-level 的实际权重可能被实现细节重新扭曲。

5. Overlong Reward Shaping 细化

Overlong Reward Shaping 处理的是 long-CoT rollout 超过最大生成长度后的 reward noise。训练时必须设置 max_new_tokens，超过上限的 response 会被截断；截断样本可能已经走在正确推理路径上，只是还没来得及输出 final answer。
默认做法通常给 truncated sample 一个强惩罚 reward。这个信号会把“推理路径错误”和“推理太长被截断”混在一起，模型会收到含噪反馈：一段本来有效的推理也可能因为长度被当成坏样本。
DAPO 先用 Overlong Filtering 验证问题：对 truncated samples mask loss，让这些样本不参与 policy update。实验中这能稳定训练并把 naive GRPO 的 AIME 2024 avg@32 从 30 提升到 36。
Filtering 的弱点是缺少明确长度反馈。模型知道这些过长样本不会被训练，但没有学到“应在预算内收束”。因此作者进一步提出 Soft Overlong Punishment，把长度惩罚连续地加到原始 rule-based reward 上。
论文设置 $L_{\max}=20{,}480$ ， $L_{\mathrm{cache}}=4{,}096$ ，所以安全区间到 $L_{\max}-L_{\mathrm{cache}}=16{,}384$ 。长度不超过 16,384 不罚；16,384 到 20,480 之间线性扣分；超过 20,480 扣到 $-1$ 。
公式可以写成：

R_{\mathrm{length}}(y)= \begin{cases} 0, & |y|\le L_{\max}-L_{\mathrm{cache}} \\ \frac{(L_{\max}-L_{\mathrm{cache}})-|y|}{L_{\mathrm{cache}}}, & L_{\max}-L_{\mathrm{cache}}<|y|\le L_{\max} \\ -1, & |y|>L_{\max} \end{cases}

最终 reward 近似是 $R_{\mathrm{total}} = R_{\mathrm{correctness}} + R_{\mathrm{length}}$ 。这样模型仍能通过正确性 reward 学 reasoning，同时逐步学会在长度预算内完成答案。
这个技巧和 Token-level Loss 互补：Token-level Loss 让长 response 的 token 充分参与梯度；Overlong Reward Shaping 让过长 response 受到平滑长度约束，避免 long-CoT 训练变成无限扩写。

主要启发

long-CoT RL 的 recipe 细节会显著改变结果。只说“用了 GRPO”不足以解释 AIME 分数，clip range、loss reduction、sample filtering、length reward 都是核心变量。
对 RLVR 系统，zero-gradient / zero-variance prompts 是真实的计算浪费。训练报告应给出有效 prompt ratio 和被过滤样本比例。
长 response 训练要同时看 reward、length、entropy 和 mean probability。reward 上升可能只是训练集拟合，validation accuracy 和长度动态更能暴露退化。
rule-based reward 的可靠性很依赖数据格式。DAPO 把答案统一转成整数格式，本质上是在 reward design 层降低 verifier noise。
DAPO 是后续 reasoning RL 论文的重要基线：STV、TIM/VeXact、tool-calling RL 都可以借它讨论 dataset、rollout 长度、GRPO 过滤和 VERL 基础设施。

局限

主要实验集中在数学 reasoning 与 AIME 2024，跨任务泛化仍有限。
Qwen2.5-32B 单一 base model 是主要结论载体，模型规模、MoE、不同预训练分布下的 recipe 稳定性需要复验。
Dynamic Sampling 过滤全错 groups 可能减少极难 prompt 的学习机会，过滤全对 groups 也可能降低保持已掌握能力的训练信号。
移除 KL penalty 提升探索空间，也会让 policy drift、风格漂移和安全约束问题更难监控。
DAPO-Math-17K 的整数化转换提升 verifier 稳定性，但改变了原始数学题分布。
论文没有系统分析 rollout backend 与 trainer backend 的 logprob mismatch；这部分需要结合 2605.14220 VeXact/TIM 继续看。
training dynamics 部分强调复杂系统工程，但很多指标仍是经验判断，缺少可预测 failure 的定量阈值。

跨论文关系

与 2409.19256 的作者关系：存在直接作者重叠，Haibin Lin、Guangming Sheng、Chi Zhang、Wang Zhang 同时出现在 DAPO 与 HybridFlow 作者列表中。方法关系强：HybridFlow/VERL 提供 RLHF/RLVR 分布式 dataflow 基础设施，DAPO 在 verl 上实现大规模 long-CoT GRPO recipe，并在 references 中引用 HybridFlow。
与 2605.14220 的作者关系：未发现直接作者重叠，但同属 ByteDance/verl RL 系统谱系。方法关系强：TIM/VeXact 论文的 MoE REINFORCE 实验使用 DAPO dataset，且 long response 训练会放大 rollout/trainer consistency 问题。
与 2605.30290 的作者关系：未发现作者重叠。数据关系强：STV 使用 DAPO math problems 按 Qwen3-8B rollout pass@1 构造 Hard/Hardest bins；DAPO 是其 reasoning RLVR 数据来源之一。
与 2606.00135 的作者关系：未发现作者重叠。方法关系强：DAPO Dynamic Sampling 过滤全对/全错 prompt groups，2606.00135 处理 tool-calling RL 中 zero-variance prompts 和 rollout down-sampling，两者都说明有效梯度筛选是 RL 训练效率关键。
与 2025-09-10 的作者关系：未发现作者重叠。主题关系中等：DAPO 依赖长 rollout 和 vLLM/verl 训练链路，Thinking Machines 文章提示 batch-invariant inference 和 sampler/trainer consistency 对复现与 RL 稳定性重要。
与 2606.04075 的作者关系：未发现作者重叠。主题关系中等：DAPO 使用 rule-based final accuracy reward 激发 reasoning，SocioHack 提醒 RL 会利用 reward/规则空隙；DAPO 的答案格式转换与 overlong shaping 都属于 reward design 的关键工程。
与 2510.19315 的作者关系：未发现作者重叠。关系较弱；DAPO 是经验 RL recipe，2510.19315 是 Transformer 理论。
与 2605.31514 的作者关系：未发现作者重叠。方法论关系中等：DAPO 的 reflective behavior case study 容易诱发拟人化解读，2605.31514 提醒把行为模式、训练机制和人类式属性归因分开。
跨论文关系定位：记录 Long-CoT Reasoning RL Recipe 与 Open-Source Reproduction，并连接 VERL/HybridFlow、TIM/VeXact、STV 和 tool-calling RL efficiency。

Reference Intake Brief

Target

Intended target system: content/papers/2503.14476-dapo-long-cot-rl-system.md 论文存档。
Existing related assets: content/utility/papers-index.md、2409.19256-hybridflow-rlhf-framework.md、2605.14220-training-inference-mismatch-llm-rl.md、2605.30290-self-trained-verification.md、2606.00135-agentic-tool-calling-rl-training.md。
Proposed form: 新建独立 Markdown 文档，并更新总索引。

Reusable Elements

DAPO recipe：Clip-Higher、Dynamic Sampling、Token-level Policy Gradient Loss、Overlong Reward Shaping。
Effective-gradient framing：过滤 accuracy=0/1 groups，保持 non-zero advantage prompts。
Long-CoT training instrumentation：response length、reward score、generation entropy、mean probability。
Reproducibility package：verl code、DAPO-Math-17K、rule-based verifier、DAPO-Qwen-32B、wandb training record。

Risks

Copyright/over-copying: 本笔记采用转述，保留必要数值和技术名词。
Unsourced or unverifiable claims: 元数据来自 arXiv abs/html；代码、数据、模型和训练记录来自项目页、GitHub 与 Hugging Face；跨论文关系为本地分析判断。
Tone/brand mismatch: 保持本目录技术笔记风格。
Safety/compliance issues: 该论文是 reasoning RL 训练 recipe，可能降低大规模能力训练门槛；本笔记只沉淀机制、评测、复现和风险边界。
Overlap with existing assets: 与 HybridFlow/VERL、TIM/VeXact、STV、tool-calling RL 关系强，但本篇作为 DAPO recipe 与开源复现系统单独存档。

Skipped

Material	Reason
arXiv HTML 中缺失的公式变量细节	HTML 数学渲染不完整，本笔记用文字机制和表格结果表达。
训练脚本逐行解释	当前目标是论文分析；代码可后续按 commit 单独阅读。
DAPO-Math-17K 样本逐条审查	本笔记记录数据构造原则，数据质量审计可作为后续任务。

Recommendation

Decision: merge

Why: DAPO 是当前本地档案中 reasoning RL recipe 和 VERL 开源复现线的关键节点，能连接 HybridFlow 基础设施、TIM/VeXact 数值一致性、STV 数据使用和 tool-calling RL 有效梯度筛选。

Source #

作者与关系 #

阅读目标与判断边界 #

论文脉络 #

1. 问题背景 #

2. 核心假设或切入点 #

3. 方法 / 系统 / 理论框架 #

4. 结论链条 #

关键实验/定理 #

结果 1：主结果与 progressive ablation #

结果 2：Clip-Higher 缓解 entropy collapse #

结果 3：Dynamic Sampling 改善有效梯度和训练效率 #

结果 4：Token-level loss 改善长序列训练动态 #

结果 5：Overlong Reward Shaping 降低截断噪声 #

结果 6：训练监控指标 #

证据链强度评估 #

强证据 #

中等强度证据 #

需要谨慎的推论 #

OpenReview / 审稿意见吸收 #

本地讨论补充 #

1. 讨论收敛点 #

2. 修正后的理解 #

3. 后续复验指标 #

4. Token-Level Policy Gradient Loss 细化 #

5. Overlong Reward Shaping 细化 #

主要启发 #

局限 #

跨论文关系 #

Reference Intake Brief #

Target #

Reusable Elements #

Risks #

Skipped #

Recommendation #