Self Trained Verification for Training and Test Time Self Improvement

Source

Title: Self-Trained Verification for Training- and Test-Time Self-Improvement
alphaXiv: https://www.alphaxiv.org/abs/2605.30290
arXiv: https://arxiv.org/abs/2605.30290
PDF: https://arxiv.org/pdf/2605.30290
HTML: https://arxiv.org/html/2605.30290v2
TeX Source: https://arxiv.org/e-print/2605.30290
Code/Project: https://github.com/ar-forum/stv
Website: https://ar-forum.github.io/stv-webpage/
Authors: Chen Henry Wu, Aditi Raghunathan
Submitted: 2026-05-28
Current version read: v2, last revised 2026-05-31
Status checked: 2026-06-23；未发现公开 OpenReview 审稿页面；Chen Wu 个人 CV 标注该稿 under review of NeurIPS 2026。
Subjects: Machine Learning (cs.LG); Artificial Intelligence (cs.AI); Computation and Language (cs.CL)

作者与关系

Chen Henry Wu: Carnegie Mellon University.
Aditi Raghunathan: Carnegie Mellon University.

判断边界

这篇目前是强 preprint 信号：arXiv v2 和代码已公开，但截至 2026-06-23 未看到公开 peer review；作者 CV 标注 under review of NeurIPS 2026。
实验主要围绕 Qwen3、DAPO hard math split 和 SciKnowEval；跨模型族、代码、agent、工具调用、多模态任务仍需复验。
STV 训练 verifier 需要 reference solution / oracle solution。数学、科学、代码这类可验证任务天然适配；开放式偏好任务和多轮 agentic workflow 的 oracle 形态更复杂。
论文展示的是 verifier feedback 带来的能力提升和 calibration 改善；它没有系统评估安全滥用、过度自信反馈链、verifier reward hacking 或 production-scale wall-clock cost。

论文脉络

推理模型已经能用最终答案奖励做 RLVR，但长链推理里，最终答案只告诉模型整条解法成败。它不给出错误位置，也不给出修正方向。test-time Verification-Refinement (V-R, 验证-修正) loop 看起来能补上这个缺口：generator 先给答案，verifier 判断并反馈，generator 再修正。问题在于普通 self-verifier 往往会进入一种虚假的进步：verifier score 变高，真实 accuracy 原地不动，反馈语言越来越自信，解法仍然错。

这正是 STV 抓住的缝隙。模型单独审查自己的候选解时容易被表面合理性影响；一旦给它参考答案，任务从“独立判断对错”变成“比较候选解和已知正确解”。这个比较任务更容易产生具体诊断：哪里跳步、哪里用了错误条件、哪里漏掉边界情况。STV 把这种带 reference 的模型当 teacher，把无 reference 的模型当 student。

训练时有两条信号。第一条是 OPD：teacher 输入问题、候选解和参考解，student 只输入问题和候选解，student 在自己的 on-policy 分布上贴近 teacher 的 verdict 和 natural-language feedback。第二条是 verdict RL：用可验证 final answer 给 accept / reject 施加正确性奖励，避免 student 只学到漂亮反馈而丢掉校准。整体目标写作：

L_{\mathrm{STV}}(\theta)=L_{\mathrm{OPD}}(\theta)+\lambda L_{\mathrm{RL}}(\theta).

OPD 的位置很关键。普通 Supervised Fine-Tuning (SFT, 监督微调) 学的是 teacher 已经写好的反馈轨迹；部署时 student 会生成自己的前缀，一旦偏离 teacher trace，反馈质量就容易掉。OPD 让 student 在自己会访问的状态上对齐 teacher，直接处理 verifier 生成分布漂移。

训练好 verifier 后，论文继续把它放进 generator RL episode。ViL 固定 STV verifier，只更新 generator：每个 episode 展开一段 V-R loop，verifier 给 verdict 和 natural-language feedback，generator 根据反馈修正，最终 reward 仍然来自答案正确性。这个设计避免把语言反馈本身当不可验证 reward，同时让 generator 在训练中反复遇到“错误-诊断-修正”的上下文。最重要的观测是，训练结束后即使测试时拿掉 verifier，generator 的首轮答案也更强。

方法结构

模块	输入	输出	训练信号	作用
Reference-conditioned teacher verifier	problem, candidate solution, reference solution	verdict, feedback	reference privilege	产生高质量诊断分布
Student STV verifier	problem, candidate solution	verdict, feedback	OPD + verdict RL	部署时无 reference 地给反馈
V-R loop	problem, candidate, verifier feedback	refined candidate	test-time compute	用反馈修正错误解
ViL generator training	multi-turn V-R episode	updated generator	final answer reward	把反馈使用能力内化到 generator

和 PRM / process reward 相比，STV 不直接给每个 step 打 correctness label。它训练的是一个能给自然语言诊断的 verifier。这个 verifier 可以在 test-time refinement 中使用，也可以作为训练时上下文进入 generator RL。

关键实验/定理

实验设置与 baseline 审计

模型与任务：核心设置使用 Qwen3-8B；数学来自 DAPO math problems，按 Qwen3-8B 32-rollout pass@1 切成 Hardest 和 Hard；科学推理使用 SciKnowEval，覆盖 chemistry、biology、physics、materials science。
测试协议：每个 bin 约 150 题；每题 32 条独立 V-R chains；最多 20 rounds。
主要 baseline：untrained verifier、verdict-RL verifier、SFT verifier、meta-verifier proxy、larger generator without verification、Best-of-N (BoN) resampling、RLVR-only longer training、ViL+self-verify、prefix-conditioning。
开源实现：GitHub README 给出 prepare_verifier_data.py、prepare_verifier_distill_data.py、run_opd_rl_verifier_hard.sh、prepare_generator_feedback_data.py、run_grpo_generator_feedback_hard_qwen3_8b.sh 和 run_experiment0.py。pipeline 从 DAPO rollouts 开始，默认 Hardest / Hard bins，rollout_n=8；V-R evaluation 示例使用 max_rounds=20、chains_per_problem=32。
计算边界：项目 README 说明训练假设单个 8-GPU node，并依赖 customized verl、vLLM 和 FlashAttention。论文报告的是能力曲线，production setting 还要单独核算 verifier call、20-round loop、32-chain evaluation 和 generator feedback data preparation 的 wall-clock。

证据链 1：STV 让 V-R loop 真正随 test-time compute 变好

在 hard DAPO math 上，STV verifier 的 final-round pass@1 相比未训练 verifier pipeline 最高约 2x。base generator 设置下，STV-guided 8B final round 达到 Hardest 5.5%、Hard 27.4%，高于无 verification 的 Qwen3-32B 2.7% / 17.8%。在 SciKnowEval 的 Hardest split 上，No verification 为 1.5，No verifier training 为 2.1，STV verifier 达到 21.0；Hard split 上从 11.4 附近提升到 42.4。

这个结果更适合读成 hard problem zone 里的 test-time compute 分配证据：训练过的 verifier 能把额外 test-time compute 转化为有效修正；未训练 verifier 会很快进入 score inflation，而 STV 的 score 和真实 accuracy 更同步。

证据链 2：ViL 在 RLVR plateau 后仍能推动 generator

ViL 从 RLVR-converged generator 出发，冻结 STV verifier，把多轮 V-R 放进 generator RL 训练。论文报告 round 0 还未使用 verifier 时，Hardest 从 10.7% 到 14.7%，Hard 从 36.7% 到 47.7%；同等额外步数继续标准 RLVR 没有收益。带 STV verifier 的 final round 在 Hardest 达到 27.3%，高于 RLVR-only longer 的 16.1%。

这组实验是全文最有价值的部分。它说明 verifier feedback 不只服务测试时 scaffold；训练时反复使用反馈后，generator 的首轮策略也改变了。换句话说，ViL 把一部分“如何根据诊断修正错误”的能力写回了 generator。

证据链 3：oracle 的作用来自诊断，而非直接灌答案

oracle 使用方式消融里，RLVR-only 为 23.7 / 30.4；ViL+self-verify 为 29.8 / 39.4；prefix-conditioning 为 29.1 / 38.5；ViL+STV verifier 为 31.2 / 43.3。直接给 reference 前缀没有超过 ViL+STV；不用 oracle 的 self-verify ViL 也能带来明显训练时收益。

这个消融把 STV 的位置压得更准：reference solution 的价值主要在训练 verifier 的诊断分布，而非把答案文本直接塞进 generator。STV verifier 在多轮测试时继续拉开差距，说明更好的 feedback quality 会随 rounds 累积。

证据链 4：calibration 和 feedback quality 支撑机制解释

论文用 precision-coverage 和 feedback ablation 解释 STV 的机制。在相同 coverage 下，STV verifier precision 约高 3x 到 5x；把 verdict 固定为 ground-truth 后，只替换 feedback，untrained feedback 在 Hard final round 带来 +5.2%，STV feedback 在此基础上再加 +3.2%。

这说明 STV 同时改善两件事：accept/reject calibration，以及自然语言反馈的可操作性。前者决定是否停止或重试，后者决定下一轮该往哪里改。

证据链 5：V-R 和 BoN 的分布效应不同

在 matched compute 下，V-R refinement 大多优于 BoN resampling。这个结果说明 STV-guided refinement 不只是从已有候选池里挑一个更好的答案；feedback 会改变后续生成分布，让 generator 走到普通重采样未必覆盖到的修正路径。continual-trained generator 是例外，因为它已经偏向 round-0 accuracy，还没有充分学会使用反馈。

社区评价与认可度边界

截至 2026-06-23，这篇的外部评价应按“早期强 preprint”处理。

正面信号：arXiv v2 已发布，项目页和 reference implementation 已公开；alphaXiv、X、LinkedIn 和若干论文速读站点有传播，讨论点集中在 verifier bottleneck、14x scientific reasoning、ViL 突破 RLVR plateau。
开源信号：GitHub 仓库提供 customized verl fork 和完整 pipeline skeleton；检索时仓库约 11 stars / 1 fork，采用度仍处早期。
审稿信号：未发现公开 OpenReview 评审；Chen Wu CV 标注 under review of NeurIPS 2026，正式 peer-review 背书尚未出现。
复现信号：有代码入口，但缺第三方复现、checkpoint 生态和 production-scale cost 报告。

因此，这篇可以作为 verifier/self-improvement 线的重要候选节点，不宜写成已被广泛验证的成熟结论。更稳妥的评价是：方向强、结果亮、工程入口存在，外部认可和独立复现仍需要时间。

与相邻论文的关系

对照对象	共同点	关键差异
PRM800K	都试图让模型看到过程中的错误，而非只看最终答案	PRM800K 依赖人工 step labels；STV 用 reference-conditioned teacher 生成 verifier feedback
Math-Shepherd	都把 final correctness 变成更细的过程信号	Math-Shepherd 对每个 prefix 做 completion-based potential estimation 并训练 PRM；STV 训练自然语言 verifier，不直接为每个 step 贴 label
SRPO	都利用错误定位和后续修正来改善 long-horizon credit assignment	SRPO 选择 reset prefix 并直接更新 suffix policy gradient；STV 训练 verifier，再通过 V-R / ViL 影响 generator
2502.10581 process supervision theory	都讨论 outcome signal 如何变成 process-like signal	2502.10581 给统计理论边界；STV 给实践侧 verifier training recipe
V-STaR / RISE / ReVISE / SCoRe	都属于 self-verification / self-correction 研究	STV 的新增点是 reference-conditioned teacher + OPD，以及 ViL 后 round-0 generator gain
2504.13837 RLVR boundary	都关注 RL 后训练是否真正扩展能力	STV 需要继续用 pass@k、coverage 和 base-prior analysis 检查 round-0 gain 的来源
2506.10947 Spurious Rewards	都提醒 reward/verifier 信号可能被误读	STV 的后续复验应加入 dummy verifier、spurious feedback、independent verifier 和 human audit

证据链强度评估

强证据

方法核心有明确训练信号：reference-conditioned teacher 提供 feedback-quality target，student 在无 reference 条件下学习该分布。
V-R loop 的主要 baseline 覆盖较好：未训练 verifier、verdict-RL、SFT、meta-verifier proxy、更大 generator、BoN。
ViL 的 round-0 gain 直接触及 RLVR plateau 后如何继续训练的问题，且同 compute 延长 RLVR 的对照很有价值。
calibration / precision-coverage / feedback-only ablation 让结论不只停留在终点分数。

中等强度证据

weak-to-strong verifier 结果有启发，但主要围绕 Qwen3 generator 和同类 verifier family。
SciKnowEval 支持跨领域潜力，但仍然属于有明确答案的可验证科学推理。
V-R vs BoN 说明反馈可以重塑分布，但结论依赖 generator 是否已经学过 feedback use。

需要谨慎的推论

STV 依赖 reference solution 作为训练时特权信息，开放式偏好任务很难直接套用。
meta-verifier proxy 使用 GPT-5.2，不等价于被引用 meta-verifier 方法的完整复现。
DAPO hard split、Qwen3 family 和同源训练问题可能让结果更贴近当前 setting；跨任务泛化要看第三方复验。
更强 verifier 会提高模型解决 hard reasoning 的能力，也可能降低滥用门槛；安全评估需要跟能力评估一起做。

主要启发

RLVR 的瓶颈不只在 reward sparse，也在 verifier 无法给出可操作反馈。STV 把 reference solution 变成训练时的 privileged information，为 feedback quality 提供了可扩展监督。
自我验证需要先训练 verifier。普通 self-verification 很容易进入 score inflation；真正有用的是 calibrated verdict 和能改变下一轮生成分布的 feedback。
ViL 是从 test-time scaling 回流到 training-time scaling 的重要模式：训练时用 verifier scaffold，测试时可以部分移除 scaffold，观察 round-0 能力是否保留。
对后续论文审计，单看 final-round accuracy 不够；必须同时记录 round-0 pass@1、pass@k、verifier score calibration、feedback ablation、BoN matched compute 和独立 verifier 复验。

局限

适用范围集中在有 reference solution 或可验证 final answer 的任务；开放式对齐、偏好写作、多轮 agent 协作需要新的 oracle 设计。
主要模型族是 Qwen3，跨架构、闭源模型、更大规模模型和不同 RL recipe 仍需验证。
V-R evaluation 使用最多 20 rounds、32 chains / problem；测试时成本很高，适合 hard problem routing，未必适合普通生产请求。
ViL 训练依赖 frozen verifier feedback、generator feedback data preparation 和 customized verl fork；工程复现成本高于普通 GRPO / DAPO recipe。
论文主要展示能力提升和 calibration，对 verifier 被优化、错误反馈连锁放大、reward hacking 和安全滥用的评估不足。
开源仓库提供 reference implementation，但当前外部采用度和第三方复现信号仍少。

OpenReview / 审稿意见吸收

Venue status: 当前档案未记录公开 peer-review 状态。
Public reviews: 当前档案未记录可可靠匹配的 OpenReview / ARR / 会议 reviewer comments。
Ratings / confidence: 无公开评分可用于校准。
Reviewer consensus: 暂无。
Main criticisms: 暂无公开 reviewer 质疑可引用；可信度主要由论文、技术报告、项目证据和本地一致性检查决定。
Author response: 暂无公开 rebuttal 记录。
对本文可信度的影响: 按未完成公开审稿吸收处理，结论需要依赖实验设置、baseline 强度、复现证据和跨论文一致性校准。

本地讨论补充

1. 社区评价

这篇不宜描述成已经被广泛认可。更准确的状态是：早期关注度较高的 preprint，方向与当前 verifier / self-improvement 热点一致，结果在 paper setting 下很强，但正式审稿、独立复现和大规模采用仍缺。

2. 与重采样类 credit assignment 的区别

Math-Shepherd 和 SRPO 都通过“固定 prefix 后看后续 outcome”获取局部信号；STV 的作用点不同。它先训练 verifier，让 verifier 输出 verdict 和 natural-language feedback，再把反馈放进 V-R 或 ViL。它不直接训练每个 prefix 的 process reward，也不直接对 suffix token 做 group-relative update。

3. 文档更新动机

原始归档覆盖事实较完整，但表达更像初读时的结构化摘要。更新后的重点改为三条判断：STV 的问题意识是 verifier bottleneck；最有价值的实验证据是 ViL 的 round-0 gain；当前认可度属于强 preprint，仍要等待审稿和第三方复现。

跨论文关系

与 LLM-as-a-Verifier：STV 用 reference-conditioned teacher、OPD 和 verdict RL 训练 verifier；LLM-as-a-Verifier 直接读取冻结 LLM 的 score-token logits，并沿 granularity、repetition 和 criteria 扩展 verification compute。两者共同把 verifier 接入 test-time selection 与训练反馈，训练成本和 calibration 路径不同。
与 2305.20050 PRM800K：PRM800K 提供人工 step-level verifier 的历史起点；STV 用 reference-conditioned self-teacher 绕开人工 feedback-quality label。
与 2312.08935 Math-Shepherd：Math-Shepherd 用 completer + answer checker 生成 step potential labels；STV 用 reference solution 训练 verifier feedback。两者都是 automatic process supervision 的不同支路。
与 2605.25507 SRPO：SRPO 把 reset prefix 和 suffix resampling 直接接入 policy gradient；STV 把诊断能力先沉淀为 verifier，再进入 test-time refinement 和 generator RL episode。
与 2502.10581 process supervision theory：理论论文说明 outcome supervision 在覆盖假设下可以转化为 process-like reward；STV 从工程上展示 reference-conditioned feedback 如何补充 outcome-only RLVR。
与 2504.13837 RLVR boundary：STV 的 round-0 gain 需要继续用 pass@k / coverage 证明是否扩展 reasoning boundary，而不只是提高 sampling efficiency。
与 2506.10947 Spurious Rewards：STV 后续需要 dummy verifier、spurious feedback 和 independent verifier audit，避免把 verifier artifact 误读为真实 reasoning gain。
与 2510.20270 ImpossibleBench：两篇存在 Aditi Raghunathan 作者重叠；共同提示 feedback loop 的质量决定能力收益和 reward hacking 风险。

Reference Intake Brief

Target

Intended target system: content/papers/2605.30290-self-trained-verification.md 论文存档。
Existing related assets: 2305.20050 PRM800K, 2312.08935 Math-Shepherd, 2605.25507 SRPO, 2502.10581 process supervision theory, 2504.13837 RLVR boundary, 2506.10947 Spurious Rewards, content/utility/papers-index.md。
Proposed form: 更新既有 Markdown 文档，强化问题驱动叙事、实验设置、社区评价和跨论文关系。

Reusable Elements

STV 方法模式：reference-conditioned teacher -> on-policy distillation -> unconditioned verifier。
ViL 训练模式：frozen verifier feedback inside generator RL episode。
verifier 评测 checklist：verdict calibration、feedback quality、precision-coverage、V-R vs BoN、round-0 vs final-round pass@1、independent verifier audit。
社区评价模板：preprint status、OpenReview availability、code maturity、third-party reproduction、adoption signal。

Risks

Copyright/over-copying: 使用转述；未复制长段 prompt、feedback example 或代码。
Unsourced or unverifiable claims: 社区评价截至 2026-06-23；认可度判断基于 arXiv、项目页、GitHub、alphaXiv、公开 CV 和公开搜索结果。
Tone/brand mismatch: 更新为分析型技术笔记，减少初读式结果罗列。
Safety/compliance issues: 论文提升 reasoning self-improvement；归档内容保留机制、边界和安全审计，不沉淀可直接滥用的任务流程。
Overlap with existing assets: 与 PRM / process supervision / reset credit assignment 笔记存在主题重叠；本篇保留 verifier feedback 和 ViL 作为独立节点。

Skipped

Material	Reason
附录中的完整 verifier feedback examples	示例较长，笔记只保留机制和结论。
图中所有曲线点	关键数值已覆盖，完整曲线留给论文 PDF / 项目页。
全量 prompt 和 shell 脚本参数	GitHub README 和代码仓库已有入口；笔记只记录工程边界。

Recommendation

Decision: keep and track

Why: STV 是 reasoning verifier 和 training-time self-improvement 的强候选节点。它把 reference solution 变成可训练 verifier feedback 的信号，并用 ViL 展示 RLVR plateau 后的继续提升；当前仍处 preprint 阶段，后续需要持续跟踪 NeurIPS 2026 审稿、第三方复现、checkpoint / code 成熟度和安全审计。

Source #

作者与关系 #

判断边界 #

论文脉络 #

方法结构 #

关键实验/定理 #

实验设置与 baseline 审计 #

证据链 1：STV 让 V-R loop 真正随 test-time compute 变好 #

证据链 2：ViL 在 RLVR plateau 后仍能推动 generator #

证据链 3：oracle 的作用来自诊断，而非直接灌答案 #

证据链 4：calibration 和 feedback quality 支撑机制解释 #

证据链 5：V-R 和 BoN 的分布效应不同 #

社区评价与认可度边界 #

与相邻论文的关系 #

证据链强度评估 #

强证据 #

中等强度证据 #

需要谨慎的推论 #

主要启发 #

局限 #

OpenReview / 审稿意见吸收 #

本地讨论补充 #

1. 社区评价 #

2. 与重采样类 credit assignment 的区别 #

3. 文档更新动机 #

跨论文关系 #

Reference Intake Brief #

Target #

Reusable Elements #

Risks #

Skipped #

Recommendation #