2605.30290-self-trained-verification
Self Trained Verification for Training and Test Time Self Improvement
这篇论文提出 Self Trained Verification (STV):先让同一个模型在看到参考答案时充当“带特权信息的 verifier teacher”,再用 on policy distillation 和 verdict RL 训练一个推理时无需参考答案的 verifier;这个 verifier 能显著改善 test time verification refinement loop,并进一步通过 Verifier i...
Source
- Title: Self-Trained Verification for Training- and Test-Time Self-Improvement
- alphaXiv: https://www.alphaxiv.org/abs/2605.30290
- arXiv: https://arxiv.org/abs/2605.30290
- PDF: https://arxiv.org/pdf/2605.30290
- TeX Source: https://arxiv.org/e-print/2605.30290
- Code/Project: https://github.com/ar-forum/stv
- Website: https://ar-forum.github.io/stv-webpage/
- Authors: Chen Henry Wu, Aditi Raghunathan
- Submitted: 2026-05-28
- Current version read: v2, last revised 2026-05-31
- Subjects: Machine Learning (cs.LG); Artificial Intelligence (cs.AI); Computation and Language (cs.CL)
作者与关系
- Chen Henry Wu: Carnegie Mellon University, email domain
cs.cmu.edu。 - Aditi Raghunathan: Carnegie Mellon University, email domain
cs.cmu.edu。
关系判断:
- 同机构作者群:两位作者均属 Carnegie Mellon University,论文、代码仓库和项目页都落在 Aditi Raghunathan 相关的 AR-FORUM / A|Raghunathan Lab 线索下。
- 跨机构桥接:论文署名没有跨机构作者;资助和资源层面出现 DARPA expMath、Schmidt Sciences、NSF、Apple、Open Philanthropy、Google,以及 CMU FLAME Cluster compute。
- 通讯与项目组织:Aditi Raghunathan 为实验室 PI 线索,Chen Henry Wu 为第一作者;具体 equal contribution 或通讯作者脚注未在 TeX source 中单独标注。
- 与已存档作者重叠:未发现与当前归档论文作者重叠。
- 与已存档论文的主题或方法关系:和
2606.00135共同涉及 RL、VERL 生态和多轮训练/评测闭环;和2606.04075共同涉及 reward/verifier hacking 风险;和2606.06453共享 CMU 机构背景,但作者群不同。 - 需要后续确认:后续版本是否补充更完整的训练超参、checkpoint、模型发布和作者贡献声明。
一句话结论
这篇论文提出 Self-Trained Verification (STV):先让同一个模型在看到参考答案时充当“带特权信息的 verifier teacher”,再用 on-policy distillation 和 verdict RL 训练一个推理时无需参考答案的 verifier;这个 verifier 能显著改善 test-time verification-refinement loop,并进一步通过 Verifier-in-the-Loop (ViL) 训练生成器,使已在 RLVR 上收敛的 generator 继续提升,甚至在测试时不使用 verifier 的 round-0 pass@1 也继续上升。
阅读目标与判断边界
本笔记关注:
- STV 如何把“参考答案辅助诊断”转化为 verifier 训练信号。
- STV 对 test-time V-R loop、training-time ViL 和 standalone generator 能力的证据链。
- 它和已有 RLVR、自我纠错、process reward model、reward hacking 讨论的关系。
判断边界:
- 论文主要验证 hard math 和 scientific reasoning;代码、开放任务、真实 agent 任务和长程开放式推理仍是开放问题。
- STV 训练需要 reference solution 或 oracle solution 作为 teacher 条件,适用于“有答案或可验证结果”的训练集。
- 主实验以 Qwen3 系列为核心,包含不同 verifier 尺寸的扩展,但没有证明任意模型族都能获得同等收益。
- ViL 的提升来自冻结 STV verifier 反馈与可验证 final answer reward 的组合,不能直接推论为无监督自我改进。
论文脉络
1. 问题背景
推理模型的自我提升通常有两个位置:
- test time:verification-refinement (V-R) loop。生成器先给答案,verifier 判断并给反馈,生成器再修正。
- training time:self-training 或 RLVR。模型把自己生成、可验证的尝试转化为训练信号。
两条路线的共同瓶颈是 verifier。final-answer reward 可以判断答案对错,但很难告诉模型“错在推理链的哪一步”。未训练的 self-verifier 常见问题是分数越来越高、准确率停滞,或者给出泛泛反馈,导致 refinement loop 变成围绕错误答案的自我确认。
2. 核心假设或切入点
作者抓住一个不对称性:模型独立审查自己的错误很难,但如果给它参考答案,它往往能比较候选解和参考解,从而指出缺口。
因此,STV 把同一个模型拆成两个角色:
- reference-conditioned teacher verifier:输入包含问题
、候选解 和参考解 。 - student verifier:输入只包含问题
和候选解 ,推理时使用这个版本。
teacher 有特权信息,student 学 teacher 的 verdict 和 natural-language feedback 分布。训练后,student 在没有参考答案时也能更可靠地拒绝错误解,并给出更有行动性的修正建议。
3. 方法 / 系统 / 理论框架
V-R loop 形式如下:
- 初始轮:
。 - 第
轮 verifier: ,其中 是 accept/reject, 是反馈。 - 若 reject,生成器根据
生成修正版 。 - loop 在 accept 或最大轮数
后停止。
STV 训练 verifier:
- teacher 分布:
。 - student 分布:
。 - on-policy distillation (OPD):用 Jensen-Shannon / alpha-divergence 让 student 分布贴近 teacher 分布;
来自 generator rollout。 - verdict RL:用可验证答案给 verdict accuracy reward,鼓励
和候选解正确性一致。 - 总目标:
。
作者强调 OPD 相比 SFT 更适合这里:SFT 学的是 teacher 采样出的序列,部署时 student 生成自己的前缀,一旦偏离 teacher 前缀就遇到训练外状态;OPD 用 student 自己的 on-policy 分布做匹配,能缓解这种前缀漂移。
ViL 训练 generator:
- 冻结训练好的 STV verifier。
- 每个 episode 展开一段多轮 V-R:生成器给初稿,verifier 给 verdict/feedback,生成器继续修正。
- reward 仍然是最终答案与
的可验证正确性。 - 只更新 generator,verifier 固定。
这个设计的关键点是:verifier 的自然语言反馈作为额外上下文进入生成器训练,但最终 reward 仍是可验证结果,降低了纯语言反馈本身不可验证带来的风险。
4. 结论链条
作者先证明 STV verifier 比未训练 verifier、只做 verdict RL、SFT verifier 和 meta-verifier proxy 更能推动 V-R loop;再证明这种 verifier 的收益可以叠加在已经 RLVR 收敛的 generator 上;最后用 ViL 显示 generator 在有 verifier 的最终轮表现和无 verifier 的 round-0 表现都能继续提升。
整体证据链可以概括为:
- reference-conditioned diagnosis 提供可规模化的 feedback-quality supervision。
- OPD + verdict RL 训练出更校准、更有诊断能力的 verifier。
- 更好的 verifier 让 test-time refinement 不再只提升“自信度”,而能提升真实正确率。
- 把 verifier feedback 放入 RL generator training 后,生成器学会更好使用诊断反馈,并把一部分能力内化到首轮答案里。
关键实验/定理
结果 1:STV 改善 hard math 的 V-R loop
- 设置:Qwen3-8B 作为 base generator 和 verifier;DAPO math problems 按 Qwen3-8B 32-rollout pass@1 分成 Hard (
) 和 Hardest ( );每个 test bin 约 150 题;每题 32 条独立 V-R loop,最多 20 轮。 - 指标:每轮 pass@1。
- 结果:STV verifier 的 final-round pass@1 相比未训练 verifier pipeline 最高约 2x;在 base generator 设置下,STV-guided 8B final round 达到 Hardest 5.5%、Hard 27.4%,超过无 verification 的 Qwen3-32B 2.7% / 17.8%。
- 解读:在 hard reasoning 上,训练 verifier 带来的 test-time compute scaling 可以超过单纯增大 generator。
结果 2:SciKnowEval 科学推理泛化
- 设置:SciKnowEval,覆盖 chemistry、biology、physics、materials science;按 Qwen3-8B pass@1 切成 Hardest 和 Hard。
- 指标:pass@1。
- 结果:Hardest 上 No verification 1.5,No verifier training 2.1,STV verifier 21.0;Hard 上 No verification 11.5,No verifier training 11.4,STV verifier 42.4。STV-guided 8B 超过更大 Qwen3-32B 和 Qwen3-235B-A22B 对比项。
- 解读:STV 的收益不限于数学题,至少能迁移到部分科学推理任务。
结果 3:更强 generator 不能吸收 STV 的收益
- 设置:continual-trained generator 先用 RLVR 在训练集收敛,再比较 self-verification 与 STV verifier。
- 指标:Hardest/Hard pass@1 across refinement rounds。
- 结果:RLVR-converged generator 起点更高,Hardest/Hard 为 10.8% / 37.2%;STV 初始化自该 continual-trained generator 后仍显著优于 self-verification。
- 解读:generator 的 RLVR 提升没有替代 verifier 训练;verification 是独立能力瓶颈。
结果 4:小 verifier 经 STV 后可接近大 verifier
- 设置:1.7B、4B、8B 不同规模 verifier 验证 8B generator。
- 指标:pass@1。
- 结果:4B STV verifier 达到 26.4%,接近 8B STV 的 27.4%;1.7B STV verifier 达到 21.7%,接近未训练 8B verifier 的 20.6%。
- 解读:训练 verifier 比直接扩大 verifier 尺寸更划算,存在 weak-to-strong verification 可能性。
结果 5:ViL 让 RLVR 收敛后的 generator 继续提升
- 设置:从已 RLVR 收敛的 generator 出发,冻结 STV verifier,把 V-R loop 放进 generator RL 训练。
- 指标:round-0 pass@1 和 final-round pass@1。
- 结果:round 0 还未使用 verifier 时,Hardest 从 10.7% 到 14.7% (+37%),Hard 从 36.7% 到 47.7% (+30%);同样额外步数继续标准 RLVR 没有收益。带 STV verifier 的 final round 在 Hardest 达到 27.3%,高于 RLVR-only longer 的 16.1%。
- 解读:ViL 不只是教模型在测试时利用 verifier,也把部分诊断能力内化到 generator 的首轮生成里。
结果 6:oracle 使用方式消融
- 设置:比较 RLVR-only、ViL+self-verify、prefix-conditioning、ViL+STV verifier。
- 指标:Round 0 和 Round 20 pass@1。
- 结果:RLVR-only 23.7 / 30.4;ViL+self-verify 29.8 / 39.4;prefix-conditioning 29.1 / 38.5;ViL+STV verifier 31.2 / 43.3。
- 解读:直接给参考答案前缀不如训练诊断反馈;即使不用 oracle 的 self-verify ViL 也有训练时自我提升,但 STV verifier 的更好反馈会在多轮中继续拉开差距。
结果 7:STV 同时改善 verdict calibration 和 feedback quality
- 设置:precision-coverage 分析;以及用 ground-truth verdict 固定 verdict 正确性,只替换 feedback。
- 指标:accepted solution precision、coverage、delta pass@1。
- 结果:在相同 coverage 下,STV verifier precision 约高 3x 到 5x;在 ground-truth verdict 下,untrained feedback 在 Hard final round 带来 +5.2%,STV feedback 在此基础上再加 +3.2%。
- 解读:STV 的贡献既来自更准确的 accept/reject,也来自更有用的自然语言诊断反馈。
结果 8:V-R 和 BoN 的分布效应不同
- 设置:matched compute 下比较 refinement (V-R) 和 Best-of-N;同时比较 STV verifier 与 base verifier。
- 指标:pass@k、pass@1。
- 结果:在 base generator 和 STV generator 上,V-R 优于 BoN;continual-trained generator 是例外,因为它主要针对 round-0 accuracy 训练,尚未学会用反馈重塑输出。
- 解读:STV-guided refinement 的收益更接近“根据反馈重塑输出分布”,超过单纯从已有样本里挑最优。
证据链强度评估
强证据
- 方法核心有明确训练信号:reference-conditioned teacher 提供 feedback-quality target,student 在无 reference 条件下学习该分布。
- test-time V-R 收益有多条对比:未训练 verifier、verdict-RL、SFT、meta-verifier proxy、不同模型尺寸和科学推理迁移。
- ViL 的 round-0 提升很关键:从 RLVR-converged generator 出发,同等 compute 延长 RLVR 无收益,而 ViL 有明显收益。
- calibration 和 feedback-quality 分析能解释为什么 STV 有效,也让结论不只停留在终点分数。
中等强度证据
- weak-to-strong verifier 结果有启发,但主要围绕 Qwen3 体系和 DAPO hard split。
- SciKnowEval 说明跨领域潜力,但仍属于可验证、答案相对明确的科学推理。
- BoN vs V-R 说明 refinement 可重塑分布,但图中部分结论依赖 generator 是否已经学过 feedback 使用方式。
需要谨慎的推论
- STV 依赖 reference solution 作为训练时特权信息;无标准答案、开放式任务、主观偏好任务会更难直接套用。
- 论文用 GPT-5.2 作为 meta-verifier proxy,不能完全代表被引用工作的原始 meta-verifier。
- 主实验复用同一训练问题来源训练 verifier 和 generator,作者也承认 verifier 数据选择仍待研究。
- 更强 verifier 可能提升模型能力,也可能降低高阶推理任务门槛;安全评估需要和能力评估同步推进。
主要启发
- 对 RLVR 研究来说,最终答案 reward 的稀疏性仍是瓶颈;自然语言 diagnostic feedback 可以作为可验证 reward 的上下文增强。
- verifier 训练的关键可能在“让模型学习如何指出错误”,同时保留 accept/reject 判断能力。
- reference solution 可以成为一种 privileged information,用来训练部署时看不到 reference 的模型能力。
- on-policy distillation 在自生成文本反馈任务中很重要,因为 verifier 部署时会面对自己生成的前缀。
- test-time scaling 的质量取决于 verifier calibration;分数上升但准确率不升是 refinement loop 的 reward hacking 信号。
- ViL 提供了一个从 test-time loop 走向 training-time improvement 的模式:把一个冻结的强反馈模型放入生成器 RL episode 中,让生成器学会吸收反馈。
局限
- 适用范围仍集中在有 reference solution 或可验证 final answer 的任务。
- 主要模型族是 Qwen3,跨架构、闭源模型和更大规模模型仍需验证。
- 代码仓库给出 reference implementation,但论文正文没有完整展开所有训练超参、成本和 checkpoint 发布情况。
- ViL 训练与 evaluation 都围绕最多 20 轮 V-R,compute-optimal 的 verifier training、generator training 和 test-time rounds 分配仍未解决。
- 对代码、开放式推理、agent 工具使用、多模态任务的迁移仍是 future work。
- 论文主要展示能力提升和 verifier calibration,对安全滥用、过度自信、错误反馈连锁放大的系统性评估仍有限。
跨论文关系
- 与
2606.00135的作者关系:未发现作者重叠。主题上都涉及 RL 后训练和多轮闭环。2606.00135研究 tool-calling RL 的评测脆弱性与训练效率,2605.30290研究 reasoning verifier 如何进入 test-time 和 training-time self-improvement。两者都说明 harness/loop/feedback 设计是模型能力表现的一部分。 - 与
2606.04075的作者关系:未发现作者重叠。主题上都涉及 reward hacking 或 verifier/reward 失真。2606.04075关注 RL 在社会规则中寻找漏洞,2605.30290关注 untrained verifier 在 refinement loop 中自信上升但准确率停滞的问题,并用 STV 改善 verifier calibration。 - 与
2606.06453的作者关系:未发现作者重叠,但同属 Carnegie Mellon University 机构网络。2606.06453是 CMU core systems 线,关注 sparse attention serving;本论文是 CMU AR-FORUM/Raghunathan Lab 线,关注可信推理、验证与自我提升。 - 与
2510.19315的作者关系:未发现作者重叠。主题上都使用 verification 相关语言,但2510.19315是形式语言/复杂度层面的 Transformer 表示与验证,本论文是经验型 verifier training。 - 与
2605.31514的作者关系:未发现作者重叠。方法论上都提醒研究者区分“行为表象”和“可靠能力”:前者讨论拟人化归因,本论文讨论 self-verification 分数上升和真实准确率的脱钩。 - 新增后应更新的索引 cluster:新增 “Reasoning verification 与 self-improvement” cluster,并在跨论文关系中连接 RL/tool-calling、reward hacking 和 CMU 系统论文。
Reference Intake Brief
Target
- Intended target system:
paper archive root论文存档。 - Existing related assets:
papers-index.md、2606.00135-agentic-tool-calling-rl-training.md、2606.04075-llms-hack-rewards-and-society.md、2606.06453-vortex-sparse-attention-serving.md。 - Proposed form: 新建独立 Markdown 文档,并更新总索引。
Reusable Elements
- STV 方法模式:reference-conditioned teacher -> on-policy distillation -> unconditioned verifier。
- ViL 训练模式:frozen verifier feedback inside generator RL episode。
- verifier 评测 checklist:verdict calibration、feedback quality、precision-coverage、V-R vs BoN、round-0 vs final-round pass@1。
Risks
- Copyright/over-copying: 本笔记采用转述,未复制长段 feedback example 或 prompt。
- Unsourced or unverifiable claims: 版本、作者、机构、项目链接来自 arXiv/TeX/GitHub;跨论文关系为本地分析判断。
- Tone/brand mismatch: 保持论文技术笔记风格。
- Safety/compliance issues: 论文提升推理和自我改进能力;本笔记保留机制和评测,不沉淀可直接滥用的任务流程。
- Overlap with existing assets: 与
2606.00135同属 RL/loop 主题,但本篇重点是 verifier training 与 reasoning self-improvement。
Skipped
| Material | Reason |
|---|---|
| 附录中的完整 verifier feedback examples | 示例较长,笔记只保留结论,避免长段复制。 |
| 图中所有曲线点 | 正文和表格已给出关键数值;完整曲线可回看论文 PDF。 |
| 全量 BibTeX | 当前索引只需要关键引用关系,后续做专题综述时再抽取。 |
Recommendation
Decision: merge
Why: 该论文补齐了本目录在 reasoning verifier、test-time scaling、RLVR 后训练和训练时自我提升上的主题节点,并与已归档的 RL 安全、tool-calling RL 和 CMU systems 论文形成清晰关系。