DeepSeek R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Source

Title: DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
arXiv: https://arxiv.org/abs/2501.12948
PDF v2: https://arxiv.org/pdf/2501.12948
TeX Source v2: https://arxiv.org/e-print/2501.12948
Initial HTML requested: https://ar5iv.labs.arxiv.org/html/2501.12948
Code/Project: https://github.com/deepseek-ai/DeepSeek-R1
Model Hub: https://huggingface.co/deepseek-ai/DeepSeek-R1
Authors: DeepSeek-AI and 199 other authors. Core contributors listed in v2 source include Daya Guo, Dejian Yang, Haowei Zhang, Junxiao Song, Peiyi Wang, Qihao Zhu, Runxin Xu, Ruoyu Zhang, Shirong Ma, Xiao Bi, Xiaokang Zhang, Xingkai Yu, Yu Wu, Z.F. Wu, Zhibin Gou, Zhihong Shao, Zhuoshu Li, Ziyi Gao.
Submitted: 2025-01-22
Current version read: v2, last revised 2026-01-04
Journal reference: Nature volume 645, pages 633-638 (2025)
Nature article: https://www.nature.com/articles/s41586-025-09422-z
Related DOI: https://doi.org/10.1038/s41586-025-09422-z
Nature peer review file: https://static-content.springer.com/esm/art%3A10.1038%2Fs41586-025-09422-z/MediaObjects/41586_2025_9422_MOESM2_ESM.pdf
Nature editorial context: https://www.nature.com/articles/d41586-025-02979-9
arXiv DOI: https://doi.org/10.48550/arXiv.2501.12948
Subjects: Computation and Language (cs.CL); Artificial Intelligence (cs.AI); Machine Learning (cs.LG)

作者与关系

DeepSeek-AI: DeepSeek-AI.
Core contributors: Daya Guo, Dejian Yang, Haowei Zhang, Junxiao Song, Peiyi Wang, Qihao Zhu, Runxin Xu, Ruoyu Zhang, Shirong Ma, Xiao Bi, Xiaokang Zhang, Xingkai Yu, Yu Wu, Z.F. Wu, Zhibin Gou, Zhihong Shao, Zhuoshu Li, Ziyi Gao。
R1-Zero / RL 发现线索：v2 source 说明 Peiyi Wang 与 Daya Guo 共同验证 outcome-based RL 能诱导 long-CoT emergence，并为 R1-Zero 奠定基础；Daya Guo 也贡献 MoE RL training stability。
GRPO / reward 线索：Junxiao Song 提出 GRPO 初版并引入 math rule-based reward；Peiyi Wang 与 Runxin Xu 后续 refine GRPO；Zhibin Gou 提出 large PPO clipping strategy，并与 Zhihong Shao、Junxiao Song 共同验证重要性。
数据、reward design、evaluation 线索：Qihao Zhu、Z.F. Wu、Dejian Yang 负责 code tasks；Zhihong Shao、Zhibin Gou、Junxiao Song 负责 math tasks；Peiyi Wang、Ruoyu Zhang、Runxin Xu、Yu Wu 负责 other reasoning and general tasks；Qihao Zhu 与 Zhihong Shao 参与 RL data selection；Zhuoshu Li 与 Yu Wu co-led data labeling。
系统线索：Xiao Bi、Xingkai Yu、Shirong Ma、Xiaokang Zhang、Haowei Zhang、Ziyi Gao 实现 RL pipeline，优化 system efficiency 并处理 large-scale training stability；source 中 code availability 注释提到分布式框架基于 internal HAI-LLM，inference framework 基于 vLLM。
蒸馏线索：Zhibin Gou led R1-distill series。

阅读目标与判断边界

本笔记关注：

v2 版本相对旧版补充的训练、数据、安全、作者角色和系统细节。
DeepSeek-R1-Zero 如何通过 pure RL 诱导 reasoning behavior。
DeepSeek-R1 为什么需要 cold-start、SFT、rejection sampling 和第二阶段 RL。
R1 与 DAPO、TIM/VeXact、tool-calling RL、SocioHack、安全风险和蒸馏论文线的关系。

判断边界：

用户最初给出 ar5iv 旧版 HTML；本笔记按用户后续要求使用当前最新 arXiv v2 和 v2 TeX source。
arXiv v2 PDF 为 17 页，TeX source 包含较长 appendix；本笔记把正文和 appendix 共同作为阅读对象。
DeepSeek-R1 的完整训练代码、数据和内部 HAI-LLM 框架未完整开源；公开权重和 README 不能完全复现实验。
论文涉及安全风险与 jailbreak，笔记保留机制、评测和防御启发，不记录可直接滥用的细节。

论文脉络

1. 研究问题、背景和价值

传统 reasoning model 依赖人类标注的 chain-of-thought traces、SFT 和偏好对齐。作者认为这种路径有两个限制：

人类推理轨迹昂贵，规模化困难。
人类写出的 reasoning pattern 会把模型限制在已有解题风格中，可能阻碍模型通过 trial-and-error 发现更适合自己的 reasoning strategy。

DeepSeek-R1 的问题定义是：如果只给 base model 足够难、可自动验证的任务和可靠 reward，模型能否通过 RL 自己发展 long-CoT reasoning？

这个问题的价值在于 post-training 路径选择。如果 reasoning capability 必须依赖大规模人工过程标注，系统扩展会被数据成本、标注风格和人工可解释模板限制；如果 outcome-based RL 能在强 base model 上稳定诱导 long-CoT，则 reasoning model 的瓶颈会转向 verifier 质量、rollout budget、训练稳定性和安全控制。

2. 已有解决方案与不足

已有方案大致有四类：

CoT prompting / few-shot demonstrations：通过提示或示例让模型输出中间推理步骤，部署简单，但依赖 base model 已有能力和 prompt 设计，训练层面没有持续提升模型策略。
Reasoning SFT：收集或生成高质量推理轨迹，再用监督学习让模型模仿这些轨迹。优势是可读性和格式可控，限制是数据成本高、轨迹风格容易固化，模型主要学习已有样式。
PPO / actor-critic 式 RLHF：可以直接优化 reward，但长 CoT final-reward 场景中 value model 难训、显存和计算开销高，advantage assignment 对超长输出也更敏感。
Model-based preference reward：适合 open-ended helpfulness，但在大规模 RL 中容易出现 reward hacking，尤其当 reward model 覆盖不足或偏好信号与真实任务目标偏离时。

R1 的切入点是把训练任务限制在数学、代码、逻辑等可验证任务上，用 rule-based reward 降低 reward model 风险，并用 GRPO 避免额外 value model 成本。

3. 作者可能的思考路径

DeepSeek-R1 的关键实验压力是归因问题：如果先用大量人工 CoT 做 SFT，再用 RL 提升分数，就很难判断 reasoning 行为来自人工轨迹模板，还是来自 outcome reward 对 base capability 的激发。要回答这个问题，最干净的入口是从 DeepSeek-V3-Base 直接做 rule-based outcome RL，只保留答案正确性和基本格式 reward。

这种设置会暴露 raw reasoning capability 的上限，也会暴露它的产品缺口。R1-Zero 如果开始写更长推理、反思和验证，就说明 strong base model 内部已有可被 verifier 激发的潜在能力；同时，它的可读性、语言一致性和安全控制会不稳定，说明 pure RL 产物还不能直接作为通用 assistant。

于是 R1 的后续 pipeline 就有了清晰分工：cold-start SFT 先给可读格式，第一阶段 RL 继续放大 reasoning，rejection sampling + general SFT 把可用轨迹整理成更广任务分布，第二阶段 RL 再补 helpfulness、harmlessness 和 general instruction-following。

4. 核心假设或切入点

核心假设是：强 base model 内部已经具备大量潜在 reasoning capability，关键是用 verifiable reward 和足够计算把能力“激发”出来。

R1-Zero 选择直接从 DeepSeek-V3-Base 出发，不做 reasoning SFT，用 GRPO 和 rule-based reward 训练。奖励只检查最终答案正确性和格式，不对推理过程本身加内容约束。这让模型能自由探索反思、验证、回溯、替代策略等行为。

R1-Zero 成功后，作者发现它存在 poor readability、language mixing、general instruction 能力不足等问题。因此 DeepSeek-R1 采用多阶段 pipeline，把 R1-Zero 的 raw reasoning capability 转成更可读和更通用的模型。

5. 方法 / 系统 / 理论框架

DeepSeek-R1-Zero

R1-Zero 使用 GRPO。对每个问题 $q$ ，从 old policy 采样一组 outputs $\{o_i\}$ ，用 group rewards 做 advantage normalization：

A_i = \frac{r_i-\mathrm{mean}(\{r_i\})}{\mathrm{std}(\{r_i\})}

然后优化 clipped ratio objective，并加入对 reference policy 的 KL 项。GRPO 避免训练额外 value model，因此比 PPO 更省 memory 和 compute，尤其适合长 CoT final-reward 场景。

R1-Zero 训练设置：

base model: DeepSeek-V3-Base，671B total parameters，37B activated per token。
learning rate: $3\times 10^{-6}$ 。
KL coefficient: $0.001$ 。
rollout temperature: $1$ 。
每题采样 16 outputs。
max length: step 8.2k 前 $32{,}768$ tokens，之后 $65{,}536$ tokens。
总训练 10,400 steps，约 1.6 epochs。
每 step 32 unique questions，batch size 512。
每 400 steps 用 latest policy 替换 reference model。
每次 rollout 生成 8,192 outputs，随机切成 16 mini-batches，只训练 1 inner epoch。

Reward design：

Accuracy reward：数学 final answer、代码测试、逻辑/选择题规则校验。
Format reward：要求 reasoning process 包在 <think>...</think> 中，answer 包在指定结构中。
rule reward = accuracy reward + format reward。
reasoning tasks 中避免 neural reward model，因为作者观察到大规模 RL 下 neural reward model 容易被 reward hacking。

R1-Zero 的结果：

AIME 2024 pass@1 从 15.6% 提升到 77.9%。
self-consistency / cons@16 后达到 86.7%。
response length 随训练显著增长。
reflective words 如 wait, mistake, verify, check 等使用频率增长 5 到 7 倍。
作者将中间 checkpoint 出现的 “wait” 式反思描述为 aha moment。

DeepSeek-R1

R1 处理 R1-Zero 的可读性和泛化问题，采用多阶段 pipeline：

Cold-start SFT：收集数千条可读、对话式、human-aligned thinking data。
第一阶段 RL：在 cold-start actor 上继续 reasoning RL，加入 language consistency reward。
Rejection sampling + SFT：从 first-stage RL checkpoint 采样并过滤正确、可读的 reasoning trajectories；加入 reasoning 和 non-reasoning datasets。
第二阶段 RL：混合 reasoning rule rewards 和 general helpful/safety reward model，进一步提升 helpfulness、harmlessness 和 general instruction-following。

Cold-start 数据：

从 R1-Zero 高温采样多条 reasoning trajectories。
保留最终答案正确且格式可读的样本。
数学用 sympy 和表达式比较辅助过滤。
过滤重复、格式混乱和 language mixing。
用 DeepSeek-V3 重写 reasoning 和 summary，使其更自然、更符合目标语言。

SFT 数据：

reasoning data 约 600k。
non-reasoning data 约 200k。
总计约 804,745 samples。
平均 tokens 约 5,355。
math 约 395k，code 约 211k，STEM 约 10k，logic 约 10k，general 约 178k。

Reward models：

helpful RM：66k preference pairs，DeepSeek-V3 多次判断减少 position bias，只保留分差明显的 pairs；训练 batch 256，lr 6e-6，1 epoch。
safety RM：106k prompts with safe/unsafe labels，point-wise safety classifier。
第二阶段 RL 中，reasoning data 用 rule reward，general data 用 reward model + format reward。
最后 400 steps 加入 general instruction data 与 preference-based rewards。
作者发现 model-based preference reward 训练步数过多会引发 reward hacking。

RL Infrastructure

appendix v2 给出 RL framework 四个模块：

Rollout Module：多个 vLLM workers 采样；DeepSeek-V3 MoE 使用跨节点 expert parallelism，hotspot experts redundant copies；MTP 用于 self-speculative decoding，降低最长样本完成时间。
Inference Module：加载 reward model 和 reference model，对 rollout samples forward。
Rule-based Reward Module：执行 answer matcher、format checker、code executor 等；用 async scheduling 与 rollout/inference 重叠。
Training Module：支持 PPO、GRPO、DPO；按长度排序和 Best-Fit packing 降低 padding；集成 DualPipe pipeline parallelism。

每个模块完成后，除 rule reward 外，模型实例会 offload 到 system memory 或 disk，以释放 VRAM。

6. 结论链条

论文的证据链是：

DeepSeek-V3-Base 已有足够潜在 reasoning capability 和 pretraining exposure。
R1-Zero 通过 verifiable outcome reward 与 GRPO，能够在无 SFT 的条件下诱导 long-CoT reasoning。
R1-Zero 的 reflective behavior、response length 增长、AIME pass@1 提升，支持 pure RL 可以激发 reasoning behavior。
R1-Zero 的可读性、语言混杂和 general capability 问题，需要 cold-start SFT、多阶段 SFT/RL 和 helpful/safety rewards 修正。
DeepSeek-R1 在 math/code/STEM/reasoning benchmarks 上达到 frontier 水平，并在 general preference benchmarks 上比 R1-Zero 更可用。
R1 的 generated trajectories 可以通过 SFT 蒸馏到小模型，且 distillation 对小模型比直接 RL 更高效。

关键实验/定理

结果 1：R1-Zero pure RL 诱导 long-CoT reasoning

设置：DeepSeek-V3-Base + GRPO + rule-based accuracy/format reward，无 SFT。
Baseline：训练初始的 DeepSeek-V3-Base policy、AIME human average 和 self-consistency decoding reference；论文主图没有给出同 base / 同数据预算下的 SFT-only 对照，这是因果归因的边界。
指标：AIME 2024 pass@1、consistency、response length、reflective word frequency。
结果：AIME pass@1 从 15.6% 提升到 77.9%；self-consistency 后 86.7%；response length 随训练增加；reflective words 增长 5 到 7 倍。
解读：强 base model 在 verifiable tasks 上可以通过 outcome-based RL 自发形成 reflection、verification 和 longer thinking。

结果 2：R1 multi-stage pipeline 提升可用性

设置：比较 R1-Zero、R1-Dev1、R1-Dev2、R1-Dev3、R1。
Baseline：R1-Zero 作为 pure RL 能力基线，R1-Dev1/Dev2/Dev3 作为阶段性消融；核心对照是 cold-start SFT、reasoning RL、rejection sampling + SFT、final RL 各阶段前后的模型。
指标：MMLU、IF-Eval、ArenaHard、LiveCodeBench、Codeforces、AIME、MATH-500、CNMO 等。
结果：R1-Zero 在 math/STEM 强但 IF-Eval 和 preference benchmarks 弱；Dev1 提升 readability/instruction-following 但 AIME 从 77.9 降到 59.0；Dev2 恢复 reasoning performance；Dev3 引入 reasoning + non-reasoning SFT，final R1 在 AlpacaEval2.0 从 Dev3 的 62.1 提升到 87.6，ArenaHard 从 75.6 提升到 92.3。
解读：cold-start/SFT 会暂时损伤 raw reasoning，但后续 reasoning RL 可恢复；final RL 的主要增益更多在 instruction-following 和 preference alignment。

结果 3：R1 与 frontier baselines 对比

设置：与 Claude-3.5-Sonnet-1022、GPT-4o-0513、DeepSeek-V3、OpenAI o1-mini、OpenAI o1-1217 比较。
Baseline：闭源 frontier models（Claude-3.5-Sonnet、GPT-4o、o1-mini、o1-1217）和自家前代 DeepSeek-V3；闭源 baseline 的采样、系统提示和评测细节不可完全对齐。
指标：MMLU-Pro、GPQA Diamond、LiveCodeBench、Codeforces、SWE Verified、AIME 2024、MATH-500、CNMO 2024、AlpacaEval2.0、ArenaHard。
结果：R1 在 AIME 2024 pass@1 为 79.8，接近 o1-1217 的 79.2；MATH-500 为 97.3，高于 o1-1217 的 96.4；LiveCodeBench 为 65.9，高于 o1-1217 的 63.4；Codeforces rating 2029，接近 o1-1217 的 2061；SWE Verified 49.2，接近 o1-1217 的 48.9；Aider-Polyglot 53.3，低于 o1-1217 的 61.7。
解读：R1 在可验证 math/code/STEM 上接近 frontier closed models，在软件工程和 tool-like workflows 上仍有空间。

结果 4：Distillation 比小模型直接大规模 RL 更经济

设置：用 DeepSeek-R1 生成 800k samples，对 Qwen/Llama dense models 做 SFT distillation；同时比较 Qwen2.5-32B-Zero 直接 RL。
Baseline：原始 Qwen/Llama dense models、Qwen2.5-32B-Zero 直接 RL、小模型常规 instruction-tuned baselines；teacher 数据来自 DeepSeek-R1，因此结果体现 teacher trajectory transfer 的效率。
指标：AIME 2024、MATH-500、GPQA Diamond、LiveCodeBench、Codeforces。
结果：DeepSeek-R1-Distill-Qwen-1.5B 在 math benchmark 上超过 GPT-4o/Claude-3.5 Sonnet 等非 reasoning baselines；DeepSeek-R1-Distill-Qwen-32B 的 AIME pass@1 为 72.6，明显高于 Qwen2.5-32B-Zero 的 47.0；DeepSeek-R1-Distill-Llama-70B 的 AIME cons@64 为 86.7。
解读：强 teacher 的 long-CoT trajectories 可高效迁移到小模型；小模型直接 RL 成本更高、收益更低。

结果 5：GRPO 在 long-CoT final-reward 场景中更实用

设置：appendix 比较 PPO 与 GRPO，在 DeepSeek-Coder-V2-Lite 16B MoE 的 MATH 任务上评估。
Baseline：带 value model 的 PPO，包含默认 $\lambda=0.95$ 与调到 $\lambda=1.0$ 的变体；GRPO 是去掉 value model 后的 group-relative alternative。
指标：MATH performance、训练开销、PPO GAE lambda 敏感性。
结果：PPO 在默认 $\lambda=0.95$ 下明显弱于 GRPO；调到 $\lambda=1.0$ 后接近 GRPO，但需要额外 value model 和调参。
解读：GRPO 不训练 value model，用 group reward 估计 advantage，更适合资源受限的大模型 long-CoT RL。

结果 6：安全评测显示原生 R1 需要外部风险控制

设置：安全 benchmark 和 jailbreak 场景，比较 Claude-3.7-Sonnet、o1、GPT-4o、Qwen2.5、DeepSeek-V3、DeepSeek-R1，含 risk control system。
Baseline：纯 DeepSeek-R1、带 external risk control 的 R1，以及 Claude/o1/GPT-4o/Qwen2.5/DeepSeek-V3 等对照模型；这里的关键对照是 model-only safety 与部署级 risk-control safety。
指标：安全分数、unsafe ratio、rejected ratio。
结果：R1 average safety score 95.0，纯模型括号内 85.9；HarmBench 纯模型 35.0，带 risk control 后 89.3。jailbreak 场景中 R1 unsafe ratio 从 origin 25.2 上升到 jailbreak 85.9；加 risk control system 后 origin 8.5、jailbreak 4.3。
解读：reasoning capability 会提升潜在危险内容的可执行性；纯模型安全性中等，外部 risk control 是部署必要层。

实验设置与 baseline 审计

维度	记录
模型与初始化	R1-Zero 从 DeepSeek-V3-Base 初始化，671B total / 37B active；R1 在 cold-start actor 上继续多阶段训练；distillation 覆盖 Qwen / Llama dense models
数据与任务	R1-Zero 使用可规则验证 reasoning tasks；R1 使用 cold-start SFT、rejection-sampled reasoning trajectories、non-reasoning datasets、helpfulness / safety data；distillation 使用 DeepSeek-R1 生成 800k samples
RL / 训练配置	R1-Zero：learning rate 3e-6；KL coefficient 0.001；temperature 1；每题 16 outputs；max length 32,768 -> 65,536；10,400 steps；约 1.6 epochs；每 step 32 questions / batch size 512；每 400 steps 更新 reference；每次 rollout 8,192 outputs、16 mini-batches、1 inner epoch
系统配置	Rollout Module 使用多个 vLLM workers；DeepSeek-V3 MoE 使用跨节点 expert parallelism 与 hotspot expert redundant copies；MTP 用于 self-speculative decoding；Training Module 支持 PPO / GRPO / DPO、length sorting、Best-Fit packing 和 DualPipe
技术报告训练配置	披露 R1-Zero 主要 RL 超参、max length schedule、batch / rollout 规模和训练步数；完整 HAI-LLM 内部框架、RL 数据构成和实例级结果未开源
未披露项	R1 / R1-Zero 训练 GPU 数、硬件型号、并行度、GPU hours、wall-clock、美元成本、完整 RL prompt mixture、reward 数据规模和 safety/risk-control 训练细节
评测协议	数学、代码、知识、开放生成、安全 benchmark；distillation 对比直接 RL 与常规 instruction-tuned baselines
统计报告	主表多为单点结果；部分安全和 peer-review 材料提供更丰富背景，但缺少完整多 seed / 置信区间
Baseline 强度	R1-Zero 前后对照、distillation vs direct RL、PPO vs GRPO、安全 risk-control 对照都较有价值；闭源和安全对比受版本、prompt、risk-control layer 影响
结论边界	R1 证明 outcome-based RL 可在强 base 上激发 long-CoT；完整复现仍依赖 DeepSeek-V3 base、内部 RL infrastructure、verifier 数据和安全系统

证据链强度评估

强证据

v2 source 给出较完整训练细节、数据配方、GRPO/PPO 比较、RL infrastructure、安全评测和作者贡献。
R1-Zero 从无 SFT 到 AIME pass@1 77.9 的过程是 pure RL reasoning emergence 的强实证信号。
阶段性 ablation 显示 cold-start、SFT 和 RL 各自影响 reasoning、readability 和 general helpfulness。
Distillation 对小模型的效果强，且和后续开源模型生态高度相关。

中等强度证据

“aha moment” 和 reflective word 统计有启发，但不应直接解释为人类式认知，只能说明 token-level reasoning pattern 和 self-correction phrase 增多。
与 o1-1217 的对比依赖官方报告和访问限制，部分评测细节可能不完全一致。
training cost、数据和内部 framework 细节仍不完全可复现。
R1-Zero/R1 的 base model 已包含大量数学、代码和可能的 reasoning traces，pure RL 结论应理解为“无需 human-labeled reasoning trajectories in post-training”，重点在强 base model 的 post-training 阶段。

需要谨慎的推论

R1 证明 verifiable reward + large-scale RL 在强 base model 上很有效，不说明所有任务都能用 pure RL 扩展。
对开放式写作、通用 helpfulness、安全对齐等难以验证任务，作者自己也承认 model-based reward 更易 reward hacking。
R1 的 tool use 和 structured output 仍弱，不能把 long-CoT text reasoning 等同于 agentic tool reasoning。
长 CoT 提高 accuracy，也带来 token inefficiency、overthinking、prompt sensitivity 和安全风险。

OpenReview / 审稿意见吸收

DeepSeek-R1 没有可用的 OpenReview forum。它在 Nature 发表的版本提供了公开 peer review file，可作为审稿意见来源：Nature article 页面列出 peer review file 下载入口，并记录 received 2025-02-14、accepted 2025-07-17、published 2025-09-17；Nature editorial 也把 R1 作为经过期刊 peer review 的 LLM 技术报告案例讨论。

审稿意见的主线如下：

认可点：审稿人整体认可 R1 的重要性，认为 outcome-based RL 诱导 reasoning behavior、开放权重和较完整方法说明对领域有高价值。R1 作为开源 reasoning model 的影响力和可复验价值，是论文进入 Nature 的关键支撑。
数据与可复现性：审稿人要求更清楚说明训练数据 mixture、prompt/data composition、RL cost、硬件与训练阶段成本。权重已公开，但 RL code、完整 pipeline 和 instance-level results 没有完整开放，审稿人要求解释或补充可复现材料。
因果归因与 baseline：审稿人追问 verbosity 与真实 reasoning gain 如何区分，要求更强的 RL vs SFT/prompting 对照、GRPO vs PPO 比较、阶段性 ablation 和统计显著性说明。这直接影响 “pure RL emergence” 的因果强度。
安全与责任：审稿人要求加入 model card、red teaming、攻击脆弱性、风险等级、公平性和开源部署风险讨论。后续 Nature 版本与 appendix 增加了安全评测和 risk control 描述，但完整部署风险仍超出论文可验证范围。
相关工作与表述：审稿人要求扩展 scaling laws、CoT、evaluation methodology、distillation scaling 等相关工作，并避免过强的智能化表述。这个意见提示归档时应把 R1 放在 scaling、verifier、distillation 和 RLHF/RLVR 的连续谱上看。

吸收情况判断：

已吸收较充分的部分：Nature 版本和 supplement 补充了训练细节、数据类别、GRPO/PPO 比较、RL infrastructure、安全评测、作者贡献和 peer review file。
仍保留边界的部分：完整训练数据、RL code、内部 HAI-LLM pipeline、instance-level evaluation results 和闭源 baseline 评测细节仍不完整；因此本笔记把 R1 的强结论限定在 “强 base model + verifiable tasks + large-scale GRPO” 范围内。
对本地索引的影响：R1 的 peer-reviewed Nature status 提升了它作为 reasoning RL 基础节点的可信度；审稿意见同时要求后续阅读 DAPO、TIM/VeXact、STV、Entropy Mechanism 等论文时继续追问 baseline、数据、reward hacking、rollout/trainer consistency 和 safety evaluation。

本地讨论补充

1. 讨论收敛点

初始分析使用 v2。用户最初提供的是 ar5iv 旧版 URL，后续明确要求使用更新版本；因此本笔记优先依据 arXiv v2 metadata、v2 PDF 和 v2 TeX source。
R1 的主线可以理解为：strong base model + reliable verifier + large-scale GRPO + long rollout budget。SFT 在 R1 中主要承担可读性、语言一致性和产品化行为塑形；reasoning emergence 的关键驱动来自 verifiable reward 与大规模 RL。

2. 修正后的理解

“pure RL” 的含义需要精确：R1-Zero 的 post-training 没有先做 SFT，但 base model DeepSeek-V3-Base 已经通过 pretraining 接触大量数学、代码和自然出现的 reasoning traces。论文主张的是 outcome-based RL 可以激发/选择这些潜在能力。
R1 与 DAPO 的关系很直接：DAPO 把 R1-style recipe 开源复现到 Qwen2.5-32B base 上，并显式处理 overlong、dynamic sampling、token-level loss 等工程问题。
R1 与 TIM/VeXact 的关系也很强：65,536 token max rollout、MoE、vLLM rollout、FSDP/训练路径会放大 rollout/trainer consistency 问题，虽然 R1 论文没有直接讨论 TIM。
R1 的 GRPO 和 Kimi k1.5 的 OMD-style RL 都有 reference / KL 约束，区别重点在 advantage 尺度和更新边界。GRPO 用 group mean/std normalization 把同题内相对好坏变成核心训练信号，再用 PPO-style clip 与 KL 控制策略更新；k1.5 的 OMD-style update 用 sampled reward mean baseline 保留 reward scale，并通过 mirror-descent / log-ratio regularization 限制步长。解读 GRPO 时应把 KL drift control 与 std(r) advantage scale control 分开看。

3. 后续复验指标

RL 训练中：effective prompt ratio、group reward variance、response length distribution、entropy、mean probability、format reward pass rate。
long-CoT behavior：reflective words frequency、backtracking token patterns、solution revision success rate、overthinking rate。
reward reliability：rule verifier false positive/false negative rate、reward hacking cases、model-based RM score vs external benchmark。
system consistency：rollout/trainer delta_logprob p95/p99/max、MoE expert routing flip rate、reference model refresh interval sensitivity。
safety：pure model vs risk-control unsafe ratio、jailbreak gap、CoT visibility vs hidden-CoT safety score。

主要启发

对 reasoning RL，最关键的三件事是 hard verifiable questions、reliable verifier、足够 rollout/update 计算；SFT 主要影响模型是否可读、可控和可用。
GRPO 的吸引力来自系统经济性：不训练 value model，直接用 group reward normalization，在 final-outcome reward 和长 CoT 场景中更实际；相对 k1.5 的 OMD-style mean baseline，GRPO 的 / std(r) 会更强地放大稀有成功轨迹，也需要处理 zero-variance group、verifier noise 和 reward false positive。
R1-Zero 到 R1 的演化说明 raw capability 与 product usability 需要分开看。pure RL 可以激发能力，多阶段 SFT/RL 才把它变成更稳定的用户体验。
Distillation 是 R1 生态扩散的关键：小模型直接 RL 成本高，先从强 teacher 继承 long-CoT pattern 更高效。
安全上，reasoning capability 会提升危险回答的可执行性。开源 reasoning model 需要把 model-level safety 和 external risk control 分层设计。
对后续论文阅读，看到 “R1-style RL” 时要追问 base model、verifier、rollout length、group size、group reward variance、GRPO clipping、reference refresh、format reward、data filtering、zero-variance group 处理、safety RM 和 risk-control layer。

局限

训练代码、完整数据和内部 RL infrastructure 未完整公开，社区难以完全复现 R1 训练。
R1-Zero 的 pure RL 结论依赖强 base model 和可靠 verifier；较小模型和弱 verifier 上不一定成立。
DeepSeek-R1 仍有 structured output、tool use、token efficiency、language mixing、prompt sensitivity 和 software engineering task 方面限制。
对 open-ended tasks，可靠 reward 很难构造，model-based reward 容易引发 reward hacking。
安全评测显示纯 R1 在 jailbreak 下 unsafe ratio 高，部署需要额外 risk control system。
“aha moment” 叙事容易诱发拟人化解释；应把它视为反思词和解题策略分布变化，人类式意识证据需要更强证据支持。
long-CoT 可能带来 overthinking 和高推理成本，后续需要 token-efficient reasoning 机制。
Nature peer review 仍强调数据、代码、完整 pipeline、统计显著性和 baseline 透明度不足；这些限制不会削弱 R1 的现象价值，但会限制社区对训练 recipe 的完整复现和因果拆解。

跨论文关系

与 2312.08935 的作者关系：存在直接作者重叠。Math-Shepherd 中的 Peiyi Wang、Runxin Xu、Zhihong Shao、Damai Dai、Deli Chen 和 Yu Wu 与 DeepSeek-R1 形成 DeepSeek/PKU reasoning verifier 到 R1 outcome RL 的前史关系。
与 2503.14476 的作者关系：未发现可确认作者重叠。主题关系最强。DAPO 以 DeepSeek-R1-Zero-Qwen-32B 为报告基线，复现 R1-style long-CoT GRPO recipe，并补充 Clip-Higher、Dynamic Sampling、Token-level Loss、Overlong Reward Shaping 等开源训练细节。
与 2605.14220 的作者关系：未发现作者重叠。系统关系强。TIM/VeXact 研究 rollout engine 与 trainer engine logprob mismatch；R1 的超长 rollout、MoE、vLLM rollout 和 large-scale GRPO 是 TIM 风险非常相关的应用背景。
与 2606.00135 的作者关系：未发现作者重叠。主题关系强。二者都使用 GRPO/RLVR 思路；R1 聚焦 verifiable reasoning，2606.00135 聚焦 tool-calling harness、zero-variance prompts 和 RL 训练效率。
与 2606.04075 的作者关系：未发现作者重叠。安全关系强。R1 论文明确讨论 reward hacking、jailbreak 和危险内容可执行性；SocioHack 则从社会规则环境展示 RL 会寻找 reward/规则漏洞。
与 2025-09-10 的作者关系：未发现作者重叠。系统关系中等。R1 的 vLLM rollout、长生成和评测复现会受到 batch-invariant inference 和 sampler/trainer consistency 影响。
与 2605.30290 的作者关系：未发现作者重叠。主题关系强。STV 研究 verifier/self-improvement；R1 是 outcome reward + verifier 诱导 reasoning 的代表性基础案例。
与 2409.19256 的作者关系：未发现作者重叠。系统关系中等。HybridFlow/VERL 解决 RLHF/RLVR 分布式系统编排，R1 v2 appendix 描述了 DeepSeek 内部 RL infrastructure，包括 rollout、inference、rule-based reward、training 四模块。
与 2605.31514 的作者关系：未发现作者重叠。方法论关系强。R1 的 aha moment 和第一人称 cold-start style 容易诱发拟人化解读；Age of Empires 论文提醒把行为表现和人类式属性归因分开。
与 2510.19315 的作者关系：未发现作者重叠。关系较弱；R1 是经验型 RL reasoning 系统，2510.19315 是 Transformer 表达与验证复杂性理论。
关系状态：本笔记的 跨论文关系 已把 DeepSeek-R1 连接到 DAPO、TIM/VeXact、tool-calling RL、SocioHack、STV 和 inference determinism。

Reference Intake Brief

Target

Intended target system: content/papers/2501.12948-deepseek-r1-rl-reasoning.md 论文存档。
Existing related assets: content/utility/papers-index.md、2503.14476-dapo-long-cot-rl-system.md、2605.14220-training-inference-mismatch-llm-rl.md、2606.00135-agentic-tool-calling-rl-training.md、2606.04075-llms-hack-rewards-and-society.md。
Proposed form: 维护独立 Markdown 文档，并同步总索引。

Reusable Elements

R1-Zero recipe：DeepSeek-V3-Base + GRPO + rule-based accuracy/format reward + no SFT + long rollout。
R1 pipeline：cold-start SFT -> first RL -> rejection sampling + SFT -> second RL with reasoning/general rewards。
RL infrastructure：rollout module, inference module, rule-based reward module, training module。
Distillation lesson：strong reasoning teacher trajectories can outperform direct RL on smaller models.
Safety lesson：reasoning ability increases both capability and operational risk; external risk control is required.
Peer review lesson：R1 的核心现象得到高影响力期刊 peer review 加持，但审稿意见要求持续追问数据、baseline、统计显著性、代码/pipeline 可复现性和安全责任。

Risks

Copyright/over-copying: 本笔记采用转述，避免复制长段正文和表格。
Unsourced or unverifiable claims: 元数据来自 arXiv v2；项目和模型信息来自 GitHub/Hugging Face；跨论文关系为本地分析判断。
Tone/brand mismatch: 保持本目录技术笔记风格。
Safety/compliance issues: 论文涉及 jailbreak、危险内容和安全评测；笔记只保留风险机制、评测结果和防御启发，避免提供滥用细节。
Overlap with existing assets: 与 DAPO、TIM/VeXact、tool-calling RL、SocioHack 关系强，但本篇作为 DeepSeek-R1 原始系统论文单独存档。

Skipped

Material	Reason
完整 200 人作者列表	arXiv 页面需 JavaScript 才完整显示，source 用贡献角色组织作者；笔记保留 core contributors 和角色线索。
具体 jailbreak prompt 和危险内容示例	安全原因，只保留评测指标和风险结论。
TeX appendix 中所有 evaluation prompt 样例	与主结论关系较弱，后续如做评测复现可单独抽取。
完整训练代码实现	内部 HAI-LLM 未完整公开，GitHub 主要提供模型和推理说明。
OpenReview forum	未发现对应公开 forum；本篇改用 Nature peer review file 作为审稿意见来源。

Recommendation

Decision: merge

Why: DeepSeek-R1 是本地档案中 reasoning RL 和 RLVR 讨论的基础节点，能解释 DAPO、TIM/VeXact、STV、tool-calling RL、reward hacking 和 inference determinism 等后续主题的共同背景。

Source #

作者与关系 #

阅读目标与判断边界 #

论文脉络 #

1. 研究问题、背景和价值 #

2. 已有解决方案与不足 #

3. 作者可能的思考路径 #

4. 核心假设或切入点 #

5. 方法 / 系统 / 理论框架 #

DeepSeek-R1-Zero #

DeepSeek-R1 #

RL Infrastructure #

6. 结论链条 #

关键实验/定理 #

结果 1：R1-Zero pure RL 诱导 long-CoT reasoning #

结果 2：R1 multi-stage pipeline 提升可用性 #

结果 3：R1 与 frontier baselines 对比 #

结果 4：Distillation 比小模型直接大规模 RL 更经济 #

结果 5：GRPO 在 long-CoT final-reward 场景中更实用 #

结果 6：安全评测显示原生 R1 需要外部风险控制 #

实验设置与 baseline 审计 #

证据链强度评估 #

强证据 #

中等强度证据 #

需要谨慎的推论 #

OpenReview / 审稿意见吸收 #

本地讨论补充 #

1. 讨论收敛点 #

2. 修正后的理解 #

3. 后续复验指标 #

主要启发 #

局限 #

跨论文关系 #

Reference Intake Brief #

Target #

Reusable Elements #

Risks #

Skipped #

Recommendation #