2605.30290-self-trained-verification

Self Trained Verification for Training and Test Time Self Improvement

这篇论文提出 Self Trained Verification (STV):先让同一个模型在看到参考答案时充当“带特权信息的 verifier teacher”,再用 on policy distillation 和 verdict RL 训练一个推理时无需参考答案的 verifier;这个 verifier 能显著改善 test time verification refinement loop,并进一步通过 Verifier i...

2026-06-07 v2, last revised 2026 05 31 Source RLMethodology

Source

作者与关系

  • Chen Henry Wu: Carnegie Mellon University, email domain cs.cmu.edu
  • Aditi Raghunathan: Carnegie Mellon University, email domain cs.cmu.edu

关系判断:

  • 同机构作者群:两位作者均属 Carnegie Mellon University,论文、代码仓库和项目页都落在 Aditi Raghunathan 相关的 AR-FORUM / A|Raghunathan Lab 线索下。
  • 跨机构桥接:论文署名没有跨机构作者;资助和资源层面出现 DARPA expMath、Schmidt Sciences、NSF、Apple、Open Philanthropy、Google,以及 CMU FLAME Cluster compute。
  • 通讯与项目组织:Aditi Raghunathan 为实验室 PI 线索,Chen Henry Wu 为第一作者;具体 equal contribution 或通讯作者脚注未在 TeX source 中单独标注。
  • 与已存档作者重叠:未发现与当前归档论文作者重叠。
  • 与已存档论文的主题或方法关系:和 2606.00135 共同涉及 RL、VERL 生态和多轮训练/评测闭环;和 2606.04075 共同涉及 reward/verifier hacking 风险;和 2606.06453 共享 CMU 机构背景,但作者群不同。
  • 需要后续确认:后续版本是否补充更完整的训练超参、checkpoint、模型发布和作者贡献声明。

一句话结论

这篇论文提出 Self-Trained Verification (STV):先让同一个模型在看到参考答案时充当“带特权信息的 verifier teacher”,再用 on-policy distillation 和 verdict RL 训练一个推理时无需参考答案的 verifier;这个 verifier 能显著改善 test-time verification-refinement loop,并进一步通过 Verifier-in-the-Loop (ViL) 训练生成器,使已在 RLVR 上收敛的 generator 继续提升,甚至在测试时不使用 verifier 的 round-0 pass@1 也继续上升。

阅读目标与判断边界

本笔记关注:

  1. STV 如何把“参考答案辅助诊断”转化为 verifier 训练信号。
  2. STV 对 test-time V-R loop、training-time ViL 和 standalone generator 能力的证据链。
  3. 它和已有 RLVR、自我纠错、process reward model、reward hacking 讨论的关系。

判断边界:

  • 论文主要验证 hard math 和 scientific reasoning;代码、开放任务、真实 agent 任务和长程开放式推理仍是开放问题。
  • STV 训练需要 reference solution 或 oracle solution 作为 teacher 条件,适用于“有答案或可验证结果”的训练集。
  • 主实验以 Qwen3 系列为核心,包含不同 verifier 尺寸的扩展,但没有证明任意模型族都能获得同等收益。
  • ViL 的提升来自冻结 STV verifier 反馈与可验证 final answer reward 的组合,不能直接推论为无监督自我改进。

论文脉络

1. 问题背景

推理模型的自我提升通常有两个位置:

  1. test time:verification-refinement (V-R) loop。生成器先给答案,verifier 判断并给反馈,生成器再修正。
  2. training time:self-training 或 RLVR。模型把自己生成、可验证的尝试转化为训练信号。

两条路线的共同瓶颈是 verifier。final-answer reward 可以判断答案对错,但很难告诉模型“错在推理链的哪一步”。未训练的 self-verifier 常见问题是分数越来越高、准确率停滞,或者给出泛泛反馈,导致 refinement loop 变成围绕错误答案的自我确认。

2. 核心假设或切入点

作者抓住一个不对称性:模型独立审查自己的错误很难,但如果给它参考答案,它往往能比较候选解和参考解,从而指出缺口。

因此,STV 把同一个模型拆成两个角色:

  • reference-conditioned teacher verifier:输入包含问题 xx、候选解 yr1y_{r-1} 和参考解 y(x)y^*(x)
  • student verifier:输入只包含问题 xx 和候选解 yr1y_{r-1},推理时使用这个版本。

teacher 有特权信息,student 学 teacher 的 verdict 和 natural-language feedback 分布。训练后,student 在没有参考答案时也能更可靠地拒绝错误解,并给出更有行动性的修正建议。

3. 方法 / 系统 / 理论框架

V-R loop 形式如下:

  • 初始轮:y0G(x)y_0 \sim G(\cdot \mid x)
  • rr 轮 verifier:(vr,fr)V(x,yr1)(v_r, f_r) \sim V(\cdot \mid x, y_{r-1}),其中 vrv_r 是 accept/reject,frf_r 是反馈。
  • 若 reject,生成器根据 x,yr1,frx, y_{r-1}, f_r 生成修正版 yry_r
  • loop 在 accept 或最大轮数 RR 后停止。

STV 训练 verifier:

  • teacher 分布:V(x,yr1,y(x))V^*(\cdot \mid x, y_{r-1}, y^*(x))
  • student 分布:Vθ(x,yr1)V_\theta(\cdot \mid x, y_{r-1})
  • on-policy distillation (OPD):用 Jensen-Shannon / alpha-divergence 让 student 分布贴近 teacher 分布;(x,yr1)(x, y_{r-1}) 来自 generator rollout。
  • verdict RL:用可验证答案给 verdict accuracy reward,鼓励 vrv_r 和候选解正确性一致。
  • 总目标:LSTV=LOPD+λLRLL_{\mathrm{STV}} = L_{\mathrm{OPD}} + \lambda L_{\mathrm{RL}}

作者强调 OPD 相比 SFT 更适合这里:SFT 学的是 teacher 采样出的序列,部署时 student 生成自己的前缀,一旦偏离 teacher 前缀就遇到训练外状态;OPD 用 student 自己的 on-policy 分布做匹配,能缓解这种前缀漂移。

ViL 训练 generator:

  • 冻结训练好的 STV verifier。
  • 每个 episode 展开一段多轮 V-R:生成器给初稿,verifier 给 verdict/feedback,生成器继续修正。
  • reward 仍然是最终答案与 y(x)y^*(x) 的可验证正确性。
  • 只更新 generator,verifier 固定。

这个设计的关键点是:verifier 的自然语言反馈作为额外上下文进入生成器训练,但最终 reward 仍是可验证结果,降低了纯语言反馈本身不可验证带来的风险。

4. 结论链条

作者先证明 STV verifier 比未训练 verifier、只做 verdict RL、SFT verifier 和 meta-verifier proxy 更能推动 V-R loop;再证明这种 verifier 的收益可以叠加在已经 RLVR 收敛的 generator 上;最后用 ViL 显示 generator 在有 verifier 的最终轮表现和无 verifier 的 round-0 表现都能继续提升。

整体证据链可以概括为:

  1. reference-conditioned diagnosis 提供可规模化的 feedback-quality supervision。
  2. OPD + verdict RL 训练出更校准、更有诊断能力的 verifier。
  3. 更好的 verifier 让 test-time refinement 不再只提升“自信度”,而能提升真实正确率。
  4. 把 verifier feedback 放入 RL generator training 后,生成器学会更好使用诊断反馈,并把一部分能力内化到首轮答案里。

关键实验/定理

结果 1:STV 改善 hard math 的 V-R loop

  • 设置:Qwen3-8B 作为 base generator 和 verifier;DAPO math problems 按 Qwen3-8B 32-rollout pass@1 分成 Hard (0<pass@1<0.20 < \mathrm{pass@1} < 0.2) 和 Hardest (pass@1=0\mathrm{pass@1}=0);每个 test bin 约 150 题;每题 32 条独立 V-R loop,最多 20 轮。
  • 指标:每轮 pass@1。
  • 结果:STV verifier 的 final-round pass@1 相比未训练 verifier pipeline 最高约 2x;在 base generator 设置下,STV-guided 8B final round 达到 Hardest 5.5%、Hard 27.4%,超过无 verification 的 Qwen3-32B 2.7% / 17.8%。
  • 解读:在 hard reasoning 上,训练 verifier 带来的 test-time compute scaling 可以超过单纯增大 generator。

结果 2:SciKnowEval 科学推理泛化

  • 设置:SciKnowEval,覆盖 chemistry、biology、physics、materials science;按 Qwen3-8B pass@1 切成 Hardest 和 Hard。
  • 指标:pass@1。
  • 结果:Hardest 上 No verification 1.5,No verifier training 2.1,STV verifier 21.0;Hard 上 No verification 11.5,No verifier training 11.4,STV verifier 42.4。STV-guided 8B 超过更大 Qwen3-32B 和 Qwen3-235B-A22B 对比项。
  • 解读:STV 的收益不限于数学题,至少能迁移到部分科学推理任务。

结果 3:更强 generator 不能吸收 STV 的收益

  • 设置:continual-trained generator 先用 RLVR 在训练集收敛,再比较 self-verification 与 STV verifier。
  • 指标:Hardest/Hard pass@1 across refinement rounds。
  • 结果:RLVR-converged generator 起点更高,Hardest/Hard 为 10.8% / 37.2%;STV 初始化自该 continual-trained generator 后仍显著优于 self-verification。
  • 解读:generator 的 RLVR 提升没有替代 verifier 训练;verification 是独立能力瓶颈。

结果 4:小 verifier 经 STV 后可接近大 verifier

  • 设置:1.7B、4B、8B 不同规模 verifier 验证 8B generator。
  • 指标:pass@1。
  • 结果:4B STV verifier 达到 26.4%,接近 8B STV 的 27.4%;1.7B STV verifier 达到 21.7%,接近未训练 8B verifier 的 20.6%。
  • 解读:训练 verifier 比直接扩大 verifier 尺寸更划算,存在 weak-to-strong verification 可能性。

结果 5:ViL 让 RLVR 收敛后的 generator 继续提升

  • 设置:从已 RLVR 收敛的 generator 出发,冻结 STV verifier,把 V-R loop 放进 generator RL 训练。
  • 指标:round-0 pass@1 和 final-round pass@1。
  • 结果:round 0 还未使用 verifier 时,Hardest 从 10.7% 到 14.7% (+37%),Hard 从 36.7% 到 47.7% (+30%);同样额外步数继续标准 RLVR 没有收益。带 STV verifier 的 final round 在 Hardest 达到 27.3%,高于 RLVR-only longer 的 16.1%。
  • 解读:ViL 不只是教模型在测试时利用 verifier,也把部分诊断能力内化到 generator 的首轮生成里。

结果 6:oracle 使用方式消融

  • 设置:比较 RLVR-only、ViL+self-verify、prefix-conditioning、ViL+STV verifier。
  • 指标:Round 0 和 Round 20 pass@1。
  • 结果:RLVR-only 23.7 / 30.4;ViL+self-verify 29.8 / 39.4;prefix-conditioning 29.1 / 38.5;ViL+STV verifier 31.2 / 43.3。
  • 解读:直接给参考答案前缀不如训练诊断反馈;即使不用 oracle 的 self-verify ViL 也有训练时自我提升,但 STV verifier 的更好反馈会在多轮中继续拉开差距。

结果 7:STV 同时改善 verdict calibration 和 feedback quality

  • 设置:precision-coverage 分析;以及用 ground-truth verdict 固定 verdict 正确性,只替换 feedback。
  • 指标:accepted solution precision、coverage、delta pass@1。
  • 结果:在相同 coverage 下,STV verifier precision 约高 3x 到 5x;在 ground-truth verdict 下,untrained feedback 在 Hard final round 带来 +5.2%,STV feedback 在此基础上再加 +3.2%。
  • 解读:STV 的贡献既来自更准确的 accept/reject,也来自更有用的自然语言诊断反馈。

结果 8:V-R 和 BoN 的分布效应不同

  • 设置:matched compute 下比较 refinement (V-R) 和 Best-of-N;同时比较 STV verifier 与 base verifier。
  • 指标:pass@k、pass@1。
  • 结果:在 base generator 和 STV generator 上,V-R 优于 BoN;continual-trained generator 是例外,因为它主要针对 round-0 accuracy 训练,尚未学会用反馈重塑输出。
  • 解读:STV-guided refinement 的收益更接近“根据反馈重塑输出分布”,超过单纯从已有样本里挑最优。

证据链强度评估

强证据

  • 方法核心有明确训练信号:reference-conditioned teacher 提供 feedback-quality target,student 在无 reference 条件下学习该分布。
  • test-time V-R 收益有多条对比:未训练 verifier、verdict-RL、SFT、meta-verifier proxy、不同模型尺寸和科学推理迁移。
  • ViL 的 round-0 提升很关键:从 RLVR-converged generator 出发,同等 compute 延长 RLVR 无收益,而 ViL 有明显收益。
  • calibration 和 feedback-quality 分析能解释为什么 STV 有效,也让结论不只停留在终点分数。

中等强度证据

  • weak-to-strong verifier 结果有启发,但主要围绕 Qwen3 体系和 DAPO hard split。
  • SciKnowEval 说明跨领域潜力,但仍属于可验证、答案相对明确的科学推理。
  • BoN vs V-R 说明 refinement 可重塑分布,但图中部分结论依赖 generator 是否已经学过 feedback 使用方式。

需要谨慎的推论

  • STV 依赖 reference solution 作为训练时特权信息;无标准答案、开放式任务、主观偏好任务会更难直接套用。
  • 论文用 GPT-5.2 作为 meta-verifier proxy,不能完全代表被引用工作的原始 meta-verifier。
  • 主实验复用同一训练问题来源训练 verifier 和 generator,作者也承认 verifier 数据选择仍待研究。
  • 更强 verifier 可能提升模型能力,也可能降低高阶推理任务门槛;安全评估需要和能力评估同步推进。

主要启发

  • 对 RLVR 研究来说,最终答案 reward 的稀疏性仍是瓶颈;自然语言 diagnostic feedback 可以作为可验证 reward 的上下文增强。
  • verifier 训练的关键可能在“让模型学习如何指出错误”,同时保留 accept/reject 判断能力。
  • reference solution 可以成为一种 privileged information,用来训练部署时看不到 reference 的模型能力。
  • on-policy distillation 在自生成文本反馈任务中很重要,因为 verifier 部署时会面对自己生成的前缀。
  • test-time scaling 的质量取决于 verifier calibration;分数上升但准确率不升是 refinement loop 的 reward hacking 信号。
  • ViL 提供了一个从 test-time loop 走向 training-time improvement 的模式:把一个冻结的强反馈模型放入生成器 RL episode 中,让生成器学会吸收反馈。

局限

  1. 适用范围仍集中在有 reference solution 或可验证 final answer 的任务。
  2. 主要模型族是 Qwen3,跨架构、闭源模型和更大规模模型仍需验证。
  3. 代码仓库给出 reference implementation,但论文正文没有完整展开所有训练超参、成本和 checkpoint 发布情况。
  4. ViL 训练与 evaluation 都围绕最多 20 轮 V-R,compute-optimal 的 verifier training、generator training 和 test-time rounds 分配仍未解决。
  5. 对代码、开放式推理、agent 工具使用、多模态任务的迁移仍是 future work。
  6. 论文主要展示能力提升和 verifier calibration,对安全滥用、过度自信、错误反馈连锁放大的系统性评估仍有限。

跨论文关系

  • 2606.00135 的作者关系:未发现作者重叠。主题上都涉及 RL 后训练和多轮闭环。2606.00135 研究 tool-calling RL 的评测脆弱性与训练效率,2605.30290 研究 reasoning verifier 如何进入 test-time 和 training-time self-improvement。两者都说明 harness/loop/feedback 设计是模型能力表现的一部分。
  • 2606.04075 的作者关系:未发现作者重叠。主题上都涉及 reward hacking 或 verifier/reward 失真。2606.04075 关注 RL 在社会规则中寻找漏洞,2605.30290 关注 untrained verifier 在 refinement loop 中自信上升但准确率停滞的问题,并用 STV 改善 verifier calibration。
  • 2606.06453 的作者关系:未发现作者重叠,但同属 Carnegie Mellon University 机构网络。2606.06453 是 CMU core systems 线,关注 sparse attention serving;本论文是 CMU AR-FORUM/Raghunathan Lab 线,关注可信推理、验证与自我提升。
  • 2510.19315 的作者关系:未发现作者重叠。主题上都使用 verification 相关语言,但 2510.19315 是形式语言/复杂度层面的 Transformer 表示与验证,本论文是经验型 verifier training。
  • 2605.31514 的作者关系:未发现作者重叠。方法论上都提醒研究者区分“行为表象”和“可靠能力”:前者讨论拟人化归因,本论文讨论 self-verification 分数上升和真实准确率的脱钩。
  • 新增后应更新的索引 cluster:新增 “Reasoning verification 与 self-improvement” cluster,并在跨论文关系中连接 RL/tool-calling、reward hacking 和 CMU 系统论文。

Reference Intake Brief

Target

  • Intended target system: paper archive root 论文存档。
  • Existing related assets: papers-index.md2606.00135-agentic-tool-calling-rl-training.md2606.04075-llms-hack-rewards-and-society.md2606.06453-vortex-sparse-attention-serving.md
  • Proposed form: 新建独立 Markdown 文档,并更新总索引。

Reusable Elements

  1. STV 方法模式:reference-conditioned teacher -> on-policy distillation -> unconditioned verifier。
  2. ViL 训练模式:frozen verifier feedback inside generator RL episode。
  3. verifier 评测 checklist:verdict calibration、feedback quality、precision-coverage、V-R vs BoN、round-0 vs final-round pass@1。

Risks

  • Copyright/over-copying: 本笔记采用转述,未复制长段 feedback example 或 prompt。
  • Unsourced or unverifiable claims: 版本、作者、机构、项目链接来自 arXiv/TeX/GitHub;跨论文关系为本地分析判断。
  • Tone/brand mismatch: 保持论文技术笔记风格。
  • Safety/compliance issues: 论文提升推理和自我改进能力;本笔记保留机制和评测,不沉淀可直接滥用的任务流程。
  • Overlap with existing assets: 与 2606.00135 同属 RL/loop 主题,但本篇重点是 verifier training 与 reasoning self-improvement。

Skipped

Material Reason
附录中的完整 verifier feedback examples 示例较长,笔记只保留结论,避免长段复制。
图中所有曲线点 正文和表格已给出关键数值;完整曲线可回看论文 PDF。
全量 BibTeX 当前索引只需要关键引用关系,后续做专题综述时再抽取。

Recommendation

Decision: merge

Why: 该论文补齐了本目录在 reasoning verifier、test-time scaling、RLVR 后训练和训练时自我提升上的主题节点,并与已归档的 RL 安全、tool-calling RL 和 CMU systems 论文形成清晰关系。