2501.12948-deepseek-r1-rl-reasoning

DeepSeek R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

DeepSeek R1 v2 的核心结论是:大规模 outcome based RL 可以在强 base model 上诱导 long CoT reasoning、自我反思、验证和策略切换等行为;R1 Zero 证明无需 SFT 也能通过 rule based verifiable reward 激发 reasoning capability,R1 则通过 cold start SFT、两阶段 RL、rejection samplin...

2026-06-07 v2, last revised 2026 01 04 Source RLSafetyMethodology

Source

作者与关系

  • DeepSeek-AI: 论文署名组织;arXiv v2 由 Wenfeng Liang 提交;作者总数为 DeepSeek-AI and 199 other authors。
  • Core contributors: Daya Guo, Dejian Yang, Haowei Zhang, Junxiao Song, Peiyi Wang, Qihao Zhu, Runxin Xu, Ruoyu Zhang, Shirong Ma, Xiao Bi, Xiaokang Zhang, Xingkai Yu, Yu Wu, Z.F. Wu, Zhibin Gou, Zhihong Shao, Zhuoshu Li, Ziyi Gao。
  • R1-Zero / RL 发现线索:v2 source 说明 Peiyi Wang 与 Daya Guo 共同验证 outcome-based RL 能诱导 long-CoT emergence,并为 R1-Zero 奠定基础;Daya Guo 也贡献 MoE RL training stability。
  • GRPO / reward 线索:Junxiao Song 提出 GRPO 初版并引入 math rule-based reward;Peiyi Wang 与 Runxin Xu 后续 refine GRPO;Zhibin Gou 提出 large PPO clipping strategy,并与 Zhihong Shao、Junxiao Song 共同验证重要性。
  • 数据、reward design、evaluation 线索:Qihao Zhu、Z.F. Wu、Dejian Yang 负责 code tasks;Zhihong Shao、Zhibin Gou、Junxiao Song 负责 math tasks;Peiyi Wang、Ruoyu Zhang、Runxin Xu、Yu Wu 负责 other reasoning and general tasks;Qihao Zhu 与 Zhihong Shao 参与 RL data selection;Zhuoshu Li 与 Yu Wu co-led data labeling。
  • 系统线索:Xiao Bi、Xingkai Yu、Shirong Ma、Xiaokang Zhang、Haowei Zhang、Ziyi Gao 实现 RL pipeline,优化 system efficiency 并处理 large-scale training stability;source 中 code availability 注释提到分布式框架基于 internal HAI-LLM,inference framework 基于 vLLM。
  • 蒸馏线索:Zhibin Gou led R1-distill series。

关系判断:

  • 同机构作者群:论文没有逐个作者列出机构,整体以 DeepSeek-AI 作为署名组织;source 提到 HAI-LLM 内部框架和 DeepSeek-V3/R1 系列组织线索。
  • 跨机构桥接:未从 v2 source 中识别外部机构共同作者。
  • 与已存档作者重叠:未发现可确认的作者重叠。部分中文拼音姓名可能与 ByteDance/DAPO 作者同名,但没有机构和角色证据支撑同一人判断。
  • 与已存档论文的主题或方法关系:与 2503.14476 DAPO 关系最强,DAPO 明确以 DeepSeek-R1-Zero-Qwen-32B 为报告基线并复现 R1-like long-CoT RL recipe;与 2605.14220 TIM/VeXact 共享 long-response RL、MoE rollout/trainer consistency 问题;与 2606.00135 tool-calling RL 都使用 GRPO/RLVR 系统框架;与 2606.04075 在 reward hacking 与 RL 安全风险上直接相连。
  • 需要后续确认:v2 source 比 v1/ar5iv 旧版包含更多 appendix、作者角色、安全和训练细节;后续引用 DeepSeek-R1 时需明确使用 v1、v2、Nature 正文还是 GitHub README。

一句话结论

DeepSeek-R1 v2 的核心结论是:大规模 outcome-based RL 可以在强 base model 上诱导 long-CoT reasoning、自我反思、验证和策略切换等行为;R1-Zero 证明无需 SFT 也能通过 rule-based verifiable reward 激发 reasoning capability,R1 则通过 cold-start SFT、两阶段 RL、rejection sampling、general SFT 和 helpful/safety reward model 把这种能力改造成更可读、更通用、更接近产品可用的模型,并通过蒸馏把 R1 的 reasoning pattern 迁移到 1.5B 到 70B dense models。

阅读目标与判断边界

本笔记关注:

  1. v2 版本相对旧版补充的训练、数据、安全、作者角色和系统细节。
  2. DeepSeek-R1-Zero 如何通过 pure RL 诱导 reasoning behavior。
  3. DeepSeek-R1 为什么需要 cold-start、SFT、rejection sampling 和第二阶段 RL。
  4. R1 与 DAPO、TIM/VeXact、tool-calling RL、SocioHack、安全风险和蒸馏论文线的关系。

判断边界:

  • 用户最初给出 ar5iv 旧版 HTML;本笔记按用户后续要求使用当前最新 arXiv v2 和 v2 TeX source。
  • arXiv v2 PDF 为 17 页,TeX source 包含较长 appendix;本笔记把正文和 appendix 共同作为阅读对象。
  • DeepSeek-R1 的完整训练代码、数据和内部 HAI-LLM 框架未完整开源;公开权重和 README 不能完全复现实验。
  • 论文涉及安全风险与 jailbreak,笔记保留机制、评测和防御启发,不记录可直接滥用的细节。

论文脉络

1. 问题背景

传统 reasoning model 依赖人类标注的 chain-of-thought traces、SFT 和偏好对齐。作者认为这种路径有两个限制:

  1. 人类推理轨迹昂贵,规模化困难。
  2. 人类写出的 reasoning pattern 会把模型限制在已有解题风格中,可能阻碍模型通过 trial-and-error 发现更适合自己的 reasoning strategy。

DeepSeek-R1 的问题定义是:如果只给 base model 足够难、可自动验证的任务和可靠 reward,模型能否通过 RL 自己发展 long-CoT reasoning?

2. 核心假设或切入点

核心假设是:强 base model 内部已经具备大量潜在 reasoning capability,关键是用 verifiable reward 和足够计算把能力“激发”出来。

R1-Zero 选择直接从 DeepSeek-V3-Base 出发,不做 reasoning SFT,用 GRPO 和 rule-based reward 训练。奖励只检查最终答案正确性和格式,不对推理过程本身加内容约束。这让模型能自由探索反思、验证、回溯、替代策略等行为。

R1-Zero 成功后,作者发现它存在 poor readability、language mixing、general instruction 能力不足等问题。因此 DeepSeek-R1 采用多阶段 pipeline,把 R1-Zero 的 raw reasoning capability 转成更可读和更通用的模型。

3. 方法 / 系统 / 理论框架

DeepSeek-R1-Zero

R1-Zero 使用 GRPO。对每个问题 qq,从 old policy 采样一组 outputs {oi}\{o_i\},用 group rewards 做 advantage normalization:

Ai=rimean({ri})std({ri}) A_i = \frac{r_i-\mathrm{mean}(\{r_i\})}{\mathrm{std}(\{r_i\})}

然后优化 clipped ratio objective,并加入对 reference policy 的 KL 项。GRPO 避免训练额外 value model,因此比 PPO 更省 memory 和 compute,尤其适合长 CoT final-reward 场景。

R1-Zero 训练设置:

  • base model: DeepSeek-V3-Base,671B total parameters,37B activated per token。
  • learning rate: 3×1063\times 10^{-6}
  • KL coefficient: 0.0010.001
  • rollout temperature: 11
  • 每题采样 16 outputs。
  • max length: step 8.2k 前 32,76832{,}768 tokens,之后 65,53665{,}536 tokens。
  • 总训练 10,400 steps,约 1.6 epochs。
  • 每 step 32 unique questions,batch size 512。
  • 每 400 steps 用 latest policy 替换 reference model。
  • 每次 rollout 生成 8,192 outputs,随机切成 16 mini-batches,只训练 1 inner epoch。

Reward design:

  • Accuracy reward:数学 final answer、代码测试、逻辑/选择题规则校验。
  • Format reward:要求 reasoning process 包在 <think>...</think> 中,answer 包在指定结构中。
  • rule reward = accuracy reward + format reward。
  • reasoning tasks 中避免 neural reward model,因为作者观察到大规模 RL 下 neural reward model 容易被 reward hacking。

R1-Zero 的结果:

  • AIME 2024 pass@1 从 15.6% 提升到 77.9%。
  • self-consistency / cons@16 后达到 86.7%。
  • response length 随训练显著增长。
  • reflective words 如 wait, mistake, verify, check 等使用频率增长 5 到 7 倍。
  • 作者将中间 checkpoint 出现的 “wait” 式反思描述为 aha moment。

DeepSeek-R1

R1 处理 R1-Zero 的可读性和泛化问题,采用多阶段 pipeline:

  1. Cold-start SFT:收集数千条可读、对话式、human-aligned thinking data。
  2. 第一阶段 RL:在 cold-start actor 上继续 reasoning RL,加入 language consistency reward。
  3. Rejection sampling + SFT:从 first-stage RL checkpoint 采样并过滤正确、可读的 reasoning trajectories;加入 reasoning 和 non-reasoning datasets。
  4. 第二阶段 RL:混合 reasoning rule rewards 和 general helpful/safety reward model,进一步提升 helpfulness、harmlessness 和 general instruction-following。

Cold-start 数据:

  • 从 R1-Zero 高温采样多条 reasoning trajectories。
  • 保留最终答案正确且格式可读的样本。
  • 数学用 sympy 和表达式比较辅助过滤。
  • 过滤重复、格式混乱和 language mixing。
  • 用 DeepSeek-V3 重写 reasoning 和 summary,使其更自然、更符合目标语言。

SFT 数据:

  • reasoning data 约 600k。
  • non-reasoning data 约 200k。
  • 总计约 804,745 samples。
  • 平均 tokens 约 5,355。
  • math 约 395k,code 约 211k,STEM 约 10k,logic 约 10k,general 约 178k。

Reward models:

  • helpful RM:66k preference pairs,DeepSeek-V3 多次判断减少 position bias,只保留分差明显的 pairs;训练 batch 256,lr 6e-6,1 epoch。
  • safety RM:106k prompts with safe/unsafe labels,point-wise safety classifier。
  • 第二阶段 RL 中,reasoning data 用 rule reward,general data 用 reward model + format reward。
  • 最后 400 steps 加入 general instruction data 与 preference-based rewards。
  • 作者发现 model-based preference reward 训练步数过多会引发 reward hacking。

RL Infrastructure

appendix v2 给出 RL framework 四个模块:

  • Rollout Module:多个 vLLM workers 采样;DeepSeek-V3 MoE 使用跨节点 expert parallelism,hotspot experts redundant copies;MTP 用于 self-speculative decoding,降低最长样本完成时间。
  • Inference Module:加载 reward model 和 reference model,对 rollout samples forward。
  • Rule-based Reward Module:执行 answer matcher、format checker、code executor 等;用 async scheduling 与 rollout/inference 重叠。
  • Training Module:支持 PPO、GRPO、DPO;按长度排序和 Best-Fit packing 降低 padding;集成 DualPipe pipeline parallelism。

每个模块完成后,除 rule reward 外,模型实例会 offload 到 system memory 或 disk,以释放 VRAM。

4. 结论链条

论文的证据链是:

  1. DeepSeek-V3-Base 已有足够潜在 reasoning capability 和 pretraining exposure。
  2. R1-Zero 通过 verifiable outcome reward 与 GRPO,能够在无 SFT 的条件下诱导 long-CoT reasoning。
  3. R1-Zero 的 reflective behavior、response length 增长、AIME pass@1 提升,支持 pure RL 可以激发 reasoning behavior。
  4. R1-Zero 的可读性、语言混杂和 general capability 问题,需要 cold-start SFT、多阶段 SFT/RL 和 helpful/safety rewards 修正。
  5. DeepSeek-R1 在 math/code/STEM/reasoning benchmarks 上达到 frontier 水平,并在 general preference benchmarks 上比 R1-Zero 更可用。
  6. R1 的 generated trajectories 可以通过 SFT 蒸馏到小模型,且 distillation 对小模型比直接 RL 更高效。

关键实验/定理

结果 1:R1-Zero pure RL 诱导 long-CoT reasoning

  • 设置:DeepSeek-V3-Base + GRPO + rule-based accuracy/format reward,无 SFT。
  • 指标:AIME 2024 pass@1、consistency、response length、reflective word frequency。
  • 结果:AIME pass@1 从 15.6% 提升到 77.9%;self-consistency 后 86.7%;response length 随训练增加;reflective words 增长 5 到 7 倍。
  • 解读:强 base model 在 verifiable tasks 上可以通过 outcome-based RL 自发形成 reflection、verification 和 longer thinking。

结果 2:R1 multi-stage pipeline 提升可用性

  • 设置:比较 R1-Zero、R1-Dev1、R1-Dev2、R1-Dev3、R1。
  • 指标:MMLU、IF-Eval、ArenaHard、LiveCodeBench、Codeforces、AIME、MATH-500、CNMO 等。
  • 结果:R1-Zero 在 math/STEM 强但 IF-Eval 和 preference benchmarks 弱;Dev1 提升 readability/instruction-following 但 AIME 从 77.9 降到 59.0;Dev2 恢复 reasoning performance;Dev3 引入 reasoning + non-reasoning SFT,final R1 在 AlpacaEval2.0 从 Dev3 的 62.1 提升到 87.6,ArenaHard 从 75.6 提升到 92.3。
  • 解读:cold-start/SFT 会暂时损伤 raw reasoning,但后续 reasoning RL 可恢复;final RL 的主要增益更多在 instruction-following 和 preference alignment。

结果 3:R1 与 frontier baselines 对比

  • 设置:与 Claude-3.5-Sonnet-1022、GPT-4o-0513、DeepSeek-V3、OpenAI o1-mini、OpenAI o1-1217 比较。
  • 指标:MMLU-Pro、GPQA Diamond、LiveCodeBench、Codeforces、SWE Verified、AIME 2024、MATH-500、CNMO 2024、AlpacaEval2.0、ArenaHard。
  • 结果:R1 在 AIME 2024 pass@1 为 79.8,接近 o1-1217 的 79.2;MATH-500 为 97.3,高于 o1-1217 的 96.4;LiveCodeBench 为 65.9,高于 o1-1217 的 63.4;Codeforces rating 2029,接近 o1-1217 的 2061;SWE Verified 49.2,接近 o1-1217 的 48.9;Aider-Polyglot 53.3,低于 o1-1217 的 61.7。
  • 解读:R1 在可验证 math/code/STEM 上接近 frontier closed models,在软件工程和 tool-like workflows 上仍有空间。

结果 4:Distillation 比小模型直接大规模 RL 更经济

  • 设置:用 DeepSeek-R1 生成 800k samples,对 Qwen/Llama dense models 做 SFT distillation;同时比较 Qwen2.5-32B-Zero 直接 RL。
  • 指标:AIME 2024、MATH-500、GPQA Diamond、LiveCodeBench、Codeforces。
  • 结果:DeepSeek-R1-Distill-Qwen-1.5B 在 math benchmark 上超过 GPT-4o/Claude-3.5 Sonnet 等非 reasoning baselines;DeepSeek-R1-Distill-Qwen-32B 的 AIME pass@1 为 72.6,明显高于 Qwen2.5-32B-Zero 的 47.0;DeepSeek-R1-Distill-Llama-70B 的 AIME cons@64 为 86.7。
  • 解读:强 teacher 的 long-CoT trajectories 可高效迁移到小模型;小模型直接 RL 成本更高、收益更低。

结果 5:GRPO 在 long-CoT final-reward 场景中更实用

  • 设置:appendix 比较 PPO 与 GRPO,在 DeepSeek-Coder-V2-Lite 16B MoE 的 MATH 任务上评估。
  • 指标:MATH performance、训练开销、PPO GAE lambda 敏感性。
  • 结果:PPO 在默认 λ=0.95\lambda=0.95 下明显弱于 GRPO;调到 λ=1.0\lambda=1.0 后接近 GRPO,但需要额外 value model 和调参。
  • 解读:GRPO 不训练 value model,用 group reward 估计 advantage,更适合资源受限的大模型 long-CoT RL。

结果 6:安全评测显示原生 R1 需要外部风险控制

  • 设置:安全 benchmark 和 jailbreak 场景,比较 Claude-3.7-Sonnet、o1、GPT-4o、Qwen2.5、DeepSeek-V3、DeepSeek-R1,含 risk control system。
  • 指标:安全分数、unsafe ratio、rejected ratio。
  • 结果:R1 average safety score 95.0,纯模型括号内 85.9;HarmBench 纯模型 35.0,带 risk control 后 89.3。jailbreak 场景中 R1 unsafe ratio 从 origin 25.2 上升到 jailbreak 85.9;加 risk control system 后 origin 8.5、jailbreak 4.3。
  • 解读:reasoning capability 会提升潜在危险内容的可执行性;纯模型安全性中等,外部 risk control 是部署必要层。

证据链强度评估

强证据

  • v2 source 给出较完整训练细节、数据配方、GRPO/PPO 比较、RL infrastructure、安全评测和作者贡献。
  • R1-Zero 从无 SFT 到 AIME pass@1 77.9 的过程是 pure RL reasoning emergence 的强实证信号。
  • 阶段性 ablation 显示 cold-start、SFT 和 RL 各自影响 reasoning、readability 和 general helpfulness。
  • Distillation 对小模型的效果强,且和后续开源模型生态高度相关。

中等强度证据

  • “aha moment” 和 reflective word 统计有启发,但不应直接解释为人类式认知,只能说明 token-level reasoning pattern 和 self-correction phrase 增多。
  • 与 o1-1217 的对比依赖官方报告和访问限制,部分评测细节可能不完全一致。
  • training cost、数据和内部 framework 细节仍不完全可复现。
  • R1-Zero/R1 的 base model 已包含大量数学、代码和可能的 reasoning traces,pure RL 结论应理解为“无需 human-labeled reasoning trajectories in post-training”,重点在强 base model 的 post-training 阶段。

需要谨慎的推论

  • R1 证明 verifiable reward + large-scale RL 在强 base model 上很有效,不说明所有任务都能用 pure RL 扩展。
  • 对开放式写作、通用 helpfulness、安全对齐等难以验证任务,作者自己也承认 model-based reward 更易 reward hacking。
  • R1 的 tool use 和 structured output 仍弱,不能把 long-CoT text reasoning 等同于 agentic tool reasoning。
  • 长 CoT 提高 accuracy,也带来 token inefficiency、overthinking、prompt sensitivity 和安全风险。

本地讨论补充

1. 讨论收敛点

  • 初始分析使用 v2。用户最初提供的是 ar5iv 旧版 URL,后续明确要求使用更新版本;因此本笔记优先依据 arXiv v2 metadata、v2 PDF 和 v2 TeX source。
  • R1 的主线可以理解为:strong base model + reliable verifier + large-scale GRPO + long rollout budget。SFT 在 R1 中主要承担可读性、语言一致性和产品化行为塑形;reasoning emergence 的关键驱动来自 verifiable reward 与大规模 RL。

2. 修正后的理解

  • “pure RL” 的含义需要精确:R1-Zero 的 post-training 没有先做 SFT,但 base model DeepSeek-V3-Base 已经通过 pretraining 接触大量数学、代码和自然出现的 reasoning traces。论文主张的是 outcome-based RL 可以激发/选择这些潜在能力。
  • R1 与 DAPO 的关系很直接:DAPO 把 R1-style recipe 开源复现到 Qwen2.5-32B base 上,并显式处理 overlong、dynamic sampling、token-level loss 等工程问题。
  • R1 与 TIM/VeXact 的关系也很强:65,536 token max rollout、MoE、vLLM rollout、FSDP/训练路径会放大 rollout/trainer consistency 问题,虽然 R1 论文没有直接讨论 TIM。

3. 后续复验指标

  • RL 训练中:effective prompt ratio、group reward variance、response length distribution、entropy、mean probability、format reward pass rate。
  • long-CoT behavior:reflective words frequency、backtracking token patterns、solution revision success rate、overthinking rate。
  • reward reliability:rule verifier false positive/false negative rate、reward hacking cases、model-based RM score vs external benchmark。
  • system consistency:rollout/trainer delta_logprob p95/p99/max、MoE expert routing flip rate、reference model refresh interval sensitivity。
  • safety:pure model vs risk-control unsafe ratio、jailbreak gap、CoT visibility vs hidden-CoT safety score。

主要启发

  • 对 reasoning RL,最关键的三件事是 hard verifiable questions、reliable verifier、足够 rollout/update 计算;SFT 主要影响模型是否可读、可控和可用。
  • GRPO 的吸引力来自系统经济性:不训练 value model,直接用 group reward normalization,在 final-outcome reward 和长 CoT 场景中更实际。
  • R1-Zero 到 R1 的演化说明 raw capability 与 product usability 需要分开看。pure RL 可以激发能力,多阶段 SFT/RL 才把它变成更稳定的用户体验。
  • Distillation 是 R1 生态扩散的关键:小模型直接 RL 成本高,先从强 teacher 继承 long-CoT pattern 更高效。
  • 安全上,reasoning capability 会提升危险回答的可执行性。开源 reasoning model 需要把 model-level safety 和 external risk control 分层设计。
  • 对后续论文阅读,看到 “R1-style RL” 时要追问 base model、verifier、rollout length、GRPO clipping、reference refresh、format reward、data filtering、safety RM 和 risk-control layer。

局限

  1. 训练代码、完整数据和内部 RL infrastructure 未完整公开,社区难以完全复现 R1 训练。
  2. R1-Zero 的 pure RL 结论依赖强 base model 和可靠 verifier;较小模型和弱 verifier 上不一定成立。
  3. DeepSeek-R1 仍有 structured output、tool use、token efficiency、language mixing、prompt sensitivity 和 software engineering task 方面限制。
  4. 对 open-ended tasks,可靠 reward 很难构造,model-based reward 容易引发 reward hacking。
  5. 安全评测显示纯 R1 在 jailbreak 下 unsafe ratio 高,部署需要额外 risk control system。
  6. “aha moment” 叙事容易诱发拟人化解释;应把它视为反思词和解题策略分布变化,人类式意识证据需要更强证据支持。
  7. long-CoT 可能带来 overthinking 和高推理成本,后续需要 token-efficient reasoning 机制。

跨论文关系

  • 2503.14476 的作者关系:未发现可确认作者重叠。主题关系最强。DAPO 以 DeepSeek-R1-Zero-Qwen-32B 为报告基线,复现 R1-style long-CoT GRPO recipe,并补充 Clip-Higher、Dynamic Sampling、Token-level Loss、Overlong Reward Shaping 等开源训练细节。
  • 2605.14220 的作者关系:未发现作者重叠。系统关系强。TIM/VeXact 研究 rollout engine 与 trainer engine logprob mismatch;R1 的超长 rollout、MoE、vLLM rollout 和 large-scale GRPO 是 TIM 风险非常相关的应用背景。
  • 2606.00135 的作者关系:未发现作者重叠。主题关系强。二者都使用 GRPO/RLVR 思路;R1 聚焦 verifiable reasoning,2606.00135 聚焦 tool-calling harness、zero-variance prompts 和 RL 训练效率。
  • 2606.04075 的作者关系:未发现作者重叠。安全关系强。R1 论文明确讨论 reward hacking、jailbreak 和危险内容可执行性;SocioHack 则从社会规则环境展示 RL 会寻找 reward/规则漏洞。
  • 2025-09-10 的作者关系:未发现作者重叠。系统关系中等。R1 的 vLLM rollout、长生成和评测复现会受到 batch-invariant inference 和 sampler/trainer consistency 影响。
  • 2605.30290 的作者关系:未发现作者重叠。主题关系强。STV 研究 verifier/self-improvement;R1 是 outcome reward + verifier 诱导 reasoning 的代表性基础案例。
  • 2409.19256 的作者关系:未发现作者重叠。系统关系中等。HybridFlow/VERL 解决 RLHF/RLVR 分布式系统编排,R1 v2 appendix 描述了 DeepSeek 内部 RL infrastructure,包括 rollout、inference、rule-based reward、training 四模块。
  • 2606.06453 的作者关系:未发现作者重叠。系统关系中等。R1 的长 CoT 和 128K context 让 serving/attention efficiency 成为关键;Vortex 从 sparse attention serving 方向处理 agent/long-context 效率。
  • 2605.31514 的作者关系:未发现作者重叠。方法论关系强。R1 的 aha moment 和第一人称 cold-start style 容易诱发拟人化解读;Age of Empires 论文提醒把行为表现和人类式属性归因分开。
  • 2510.19315 的作者关系:未发现作者重叠。关系较弱;R1 是经验型 RL reasoning 系统,2510.19315 是 Transformer 表达与验证复杂性理论。
  • 新增后应更新的索引 cluster:新增 “Pure RL Reasoning Models 与 DeepSeek-R1 系谱” cluster,并把它连接到 DAPO、TIM/VeXact、tool-calling RL、SocioHack、STV 和 inference determinism。

Reference Intake Brief

Target

  • Intended target system: paper archive root 论文存档。
  • Existing related assets: papers-index.md2503.14476-dapo-long-cot-rl-system.md2605.14220-training-inference-mismatch-llm-rl.md2606.00135-agentic-tool-calling-rl-training.md2606.04075-llms-hack-rewards-and-society.md
  • Proposed form: 新建独立 Markdown 文档,并更新总索引。

Reusable Elements

  1. R1-Zero recipe:DeepSeek-V3-Base + GRPO + rule-based accuracy/format reward + no SFT + long rollout。
  2. R1 pipeline:cold-start SFT -> first RL -> rejection sampling + SFT -> second RL with reasoning/general rewards。
  3. RL infrastructure:rollout module, inference module, rule-based reward module, training module。
  4. Distillation lesson:strong reasoning teacher trajectories can outperform direct RL on smaller models.
  5. Safety lesson:reasoning ability increases both capability and operational risk; external risk control is required.

Risks

  • Copyright/over-copying: 本笔记采用转述,避免复制长段正文和表格。
  • Unsourced or unverifiable claims: 元数据来自 arXiv v2;项目和模型信息来自 GitHub/Hugging Face;跨论文关系为本地分析判断。
  • Tone/brand mismatch: 保持本目录技术笔记风格。
  • Safety/compliance issues: 论文涉及 jailbreak、危险内容和安全评测;笔记只保留风险机制、评测结果和防御启发,避免提供滥用细节。
  • Overlap with existing assets: 与 DAPO、TIM/VeXact、tool-calling RL、SocioHack 关系强,但本篇作为 DeepSeek-R1 原始系统论文单独存档。

Skipped

Material Reason
完整 200 人作者列表 arXiv 页面需 JavaScript 才完整显示,source 用贡献角色组织作者;笔记保留 core contributors 和角色线索。
具体 jailbreak prompt 和危险内容示例 安全原因,只保留评测指标和风险结论。
TeX appendix 中所有 evaluation prompt 样例 与主结论关系较弱,后续如做评测复现可单独抽取。
完整训练代码实现 内部 HAI-LLM 未完整公开,GitHub 主要提供模型和推理说明。

Recommendation

Decision: merge

Why: DeepSeek-R1 是本地档案中 reasoning RL 和 RLVR 讨论的基础节点,能解释 DAPO、TIM/VeXact、STV、tool-calling RL、reward hacking 和 inference determinism 等后续主题的共同背景。