2403.03185-correlated-proxies-reward-hacking

Correlated Proxies: A New Definition and Improved Mitigation for Reward Hacking

这篇论文把 reward hacking 定义为:proxy reward 在参考策略访问到的状态 动作分布上和真实 reward 正相关,但经过优化后,新策略进入 proxy 与真实目标相关性失效的分布区域,导致真实回报低于参考策略;作者据此证明,把策略的 occupancy measure 约束在参考策略附近可以给真实回报提升提供下界,并提出 ORPO 用 discriminator 估计 occupancy ratio,在交通、...

2026-06-08 v4, last revised 2025 03 13;arXiv 页面标注 Spotlight at ICLR 2025 Source RLSafetyMethodology

Source

作者与关系

  • Cassidy Laidlaw: Department of Electrical Engineering and Computer Science, University of California, Berkeley;equal contribution;arXiv submission history 显示其为提交者;通讯邮箱为 cassidy_laidlaw@berkeley.edu
  • Shivam Singhal: Department of Electrical Engineering and Computer Science, University of California, Berkeley;equal contribution;通讯邮箱为 shivamsinghal@berkeley.edu
  • Anca Dragan: Department of Electrical Engineering and Computer Science, University of California, Berkeley;通讯邮箱为 anca@berkeley.edu

关系判断:

  • 同机构作者群:三位作者均来自 UC Berkeley EECS,构成单机构研究线。Laidlaw 与 Singhal 为 equal contribution。
  • 跨机构桥接:论文署名中未出现跨机构桥接作者。Acknowledgments 提到 Cam Allen、Micah Carroll、Dibya Ghosh、Katie Kang、Sam Toyer 的讨论贡献,并披露 SRC COCOSYS、NSF HCC、Open Philanthropy AI Fellowship、NDSEG 等资助线索。
  • 与已存档作者重叠:未发现与当前 papers-index.md 已存档论文的可确认作者重叠。
  • 与已存档论文的主题或方法关系:与 2501.09620 CRM、2606.04075 SocioHack 同属 reward hacking 主线;与 2606.00135 tool-calling RL 的关系尤其重要,因为本篇明确指出当前 RLHF 的 contextual-bandit 假设下 action distribution 与 occupancy measure regularization 接近等价,而多轮 agent / tool-use 环境会让二者分离;与 2409.19256 HybridFlow/VERL、2605.14220 TIM/VeXact、2025-09-10 TML 文章共同指向 RLHF/RLVR 系统中 reference distribution、rollout distribution 和 trainer distribution 的一致性问题。
  • 需要后续确认:ORPO 代码仓库后续是否继续维护、是否已有大规模 LLM agent 复现实验、以及 ICLR camera-ready 与 arXiv v4 是否完全一致。

一句话结论

这篇论文把 reward hacking 定义为:proxy reward 在参考策略访问到的状态-动作分布上和真实 reward 正相关,但经过优化后,新策略进入 proxy 与真实目标相关性失效的分布区域,导致真实回报低于参考策略;作者据此证明,把策略的 occupancy measure 约束在参考策略附近可以给真实回报提升提供下界,并提出 ORPO 用 discriminator 估计 occupancy ratio,在交通、疫情、血糖、RLHF 和 gridworld 等环境中比常规 action-distribution KL 更稳地缓解 reward hacking。

阅读目标与判断边界

本笔记关注:

  1. 作者怎样把“proxy 原本有用、优化后失效”形式化为 correlated proxy reward。
  2. Theorem 5.1 为什么会自然导出 occupancy measure regularization 和 χ2\chi^2 divergence。
  3. ORPO 如何近似实现 occupancy regularization,以及它相对 RLHF 常用 action-distribution KL 的适用边界。
  4. 这篇论文和本地档案中 CRM、SocioHack、tool-use RL、VERL/TIM 等论文的关系。

判断边界:

  • 论文的理论下界以真实 reward RR 可用于分析为前提;真实部署中 RR 通常不可观测,因此该结果更像设计原则和可诊断框架。
  • ORPO 依赖 discriminator 估计 occupancy ratio,估计误差、指数变换和长轨迹覆盖会影响稳定性。
  • RLHF 实验被建模成 contextual bandit,动作是完整回复;在多轮对话、工具调用、外部环境交互和状态累积 agent 中,action distribution 与 occupancy measure 的差异会更明显。
  • 论文展示多个模拟环境和一个小规模 RLHF 设置,尚未证明 ORPO 能直接扩展到大模型、多工具、多轮安全关键 agent。

论文脉络

1. 问题背景

RL 中的 reward function 经常只是设计者真实目标的 proxy。proxy 在常见行为分布上可能很好用,例如人类示范附近、SFT policy 附近或一个合理 baseline 附近;一旦 RL 优化持续提高 proxy reward,策略会主动搜索高 proxy 的状态-动作区域。此时 proxy 和真实目标之间的统计关系可能失效,得到的策略在 proxy 上变好,在真实目标上变差。

作者指出,reward hacking 很难处理的一个原因是缺少足够可操作的定义。很多定义只说 proxy 和 true reward 不一致,或者把问题归入 Goodhart's Law,但很难说明一个 proxy 在什么意义上“原本是合理的”。本篇的切入点是 reference policy:如果 proxy 是人会选择用来训练的 proxy,它至少应该在某个参考行为分布上与真实 reward 正相关。

2. 核心定义:correlated proxy 与 reward hacking

设折扣 MDP 中策略 π\pi 的归一化回报为:

J(π,R)=(1γ)Eπ[t=0γtR(st,at)]. J(\pi,R) = (1-\gamma) \mathbb{E}_{\pi} \left[ \sum_{t=0}^{\infty}\gamma^t R(s_t,a_t) \right].

策略的 occupancy measure 是该策略在折扣访问分布下看到的状态-动作分布:

μπ(s,a)=(1γ)Eπ[t=0γt1{st=s, at=a}]. \mu_\pi(s,a) = (1-\gamma) \mathbb{E}_{\pi} \left[ \sum_{t=0}^{\infty} \gamma^t \mathbf{1}\{s_t=s,\ a_t=a\} \right].

给定参考策略 πref\pi_{\mathrm{ref}},如果 proxy reward R~\tilde R 与真实 reward RRμπref\mu_{\pi_{\mathrm{ref}}} 下标准化后相关系数为 r>0r>0,作者称 R~\tilde Rrr-correlated proxy reward:

E(s,a)μπref[(R~(s,a)J(πref,R~)σR~)(R(s,a)J(πref,R)σR)]=r>0. \mathbb{E}_{(s,a)\sim\mu_{\pi_{\mathrm{ref}}}} \left[ \left( \frac{\tilde R(s,a)-J(\pi_{\mathrm{ref}},\tilde R)} {\sigma_{\tilde R}} \right) \left( \frac{R(s,a)-J(\pi_{\mathrm{ref}},R)} {\sigma_R} \right) \right] =r>0.

在这个定义下,reward hacking 是:策略优化了 R~\tilde R,但真实回报低于参考策略:

J(π,R)<J(πref,R). J(\pi,R) < J(\pi_{\mathrm{ref}},R).

这个定义把问题拆得很清楚:proxy 在参考分布上有意义,优化把策略推到参考分布之外,proxy 与真实目标的相关性在新分布上衰减或反向,最终真实回报下降。

3. Theorem 5.1:从相关性到 occupancy regularization

论文的关键定理给出真实回报提升的下界。若 R~\tilde R 是关于 πref\pi_{\mathrm{ref}}rr-correlated proxy,并且 μπ\mu_\pi 关于 μπref\mu_{\pi_{\mathrm{ref}}} 绝对连续,则:

J(π,R)J(πref,R)σR1r(J(π,R~)J(πref,R~)σR~(1r2)χ2 ⁣(μπμπref)). \frac{J(\pi,R)-J(\pi_{\mathrm{ref}},R)}{\sigma_R} \ge \frac{1}{r} \left( \frac{J(\pi,\tilde R)-J(\pi_{\mathrm{ref}},\tilde R)} {\sigma_{\tilde R}} - \sqrt{ (1-r^2) \chi^2\!\left( \mu_\pi \middle\| \mu_{\pi_{\mathrm{ref}}} \right) } \right).

这个下界包含两个方向相反的量:

  • proxy improvement:J(π,R~)J(πref,R~)J(\pi,\tilde R)-J(\pi_{\mathrm{ref}},\tilde R),策略在 proxy 上比参考策略好多少。
  • distribution shift penalty:χ2(μπμπref)\chi^2(\mu_\pi\|\mu_{\pi_{\mathrm{ref}}}),策略访问分布偏离参考策略多少。

因此,一个自然的 policy objective 是:

maxπ  J(π,R~)λχ2 ⁣(μπμπref),λ=σR~1r2. \max_{\pi} \; J(\pi,\tilde R) - \lambda \sqrt{ \chi^2\!\left( \mu_\pi \middle\| \mu_{\pi_{\mathrm{ref}}} \right) }, \quad \lambda= \sigma_{\tilde R}\sqrt{1-r^2}.

直觉上,proxy 与 true reward 越弱相关,rr 越小,正则越需要强;策略越偏离参考分布,proxy 失效的风险越高。

4. 为什么是 occupancy measure,为什么偏向 χ2\chi^2

RLHF 中常用做法是给当前 policy 和 reference policy 的 action distribution 加 KL penalty。作者的理论指向 occupancy measure,因为长程 MDP 中行为后果不只由当前状态下的动作概率决定,还取决于动作怎样改变后续状态访问分布。一个很小的 action distribution 变化可能把策略带到完全不同的状态区域,proxy 在那些状态上没有被参考分布校准。

作者还讨论了 χ2\chi^2 相对 KL 的意义。若用 log occupancy ratio

d(s,a)=logμπ(s,a)μπref(s,a) d(s,a)= \log \frac{\mu_\pi(s,a)} {\mu_{\pi_{\mathrm{ref}}}(s,a)}

表示偏移,KL 对高 ratio 区域增长较慢,χ2\chi^2 会对高 ratio 区域给出更强惩罚。reward hacking 的危险往往出现在少量高 proxy、低真实 reward、参考策略很少访问的区域,因此强惩罚 tail shift 更符合问题结构。

在当前 RLHF 的 contextual-bandit 建模中,一个 prompt 对应一次完整回复,γ=0\gamma=0,action distribution 和 occupancy measure 基本等价。论文附录进一步说明,在某些 deterministic autoregressive environment 中二者也可等价。这个结论的边界很关键:一旦 LLM agent 进入多轮状态、工具调用、外部环境反馈或可恢复错误轨迹,state visitation 会携带历史和工具结果,action distribution KL 就很难完整约束实际 occupancy shift。

5. ORPO:用 discriminator 估计 occupancy ratio

Occupancy-Regularized Policy Optimization (ORPO) 用一个 discriminator 近似估计当前 policy 与 reference policy 的 log occupancy ratio:

d^ϕ(s,a)logμπ(s,a)μπref(s,a). \hat d_\phi(s,a) \approx \log \frac{\mu_\pi(s,a)} {\mu_{\pi_{\mathrm{ref}}}(s,a)}.

discriminator 的二分类 loss 为:

E(s,a)μπ[log(1+ed^ϕ(s,a))]+E(s,a)μπref[log(1+ed^ϕ(s,a))]. \mathbb{E}_{(s,a)\sim\mu_\pi} \left[ \log(1+e^{-\hat d_\phi(s,a)}) \right] + \mathbb{E}_{(s,a)\sim\mu_{\pi_{\mathrm{ref}}}} \left[ \log(1+e^{\hat d_\phi(s,a)}) \right].

然后用该估计量构造 χ2\chi^2 divergence:

χ2^=E(s,a)μπ[ed^ϕ(s,a)1]. \widehat{\chi^2} = \mathbb{E}_{(s,a)\sim\mu_\pi} \left[ e^{\hat d_\phi(s,a)}-1 \right].

ORPO 把 proxy reward 替换为带正则的 augmented reward,再交给 PPO 优化:

R(s,a)=R~(s,a)λχ2^(ed^ϕ(s,a)1). R'(s,a) = \tilde R(s,a) - \frac{\lambda} {\sqrt{\widehat{\chi^2}}} \left( e^{\hat d_\phi(s,a)}-1 \right).

正文和算法展示中存在一个常数项写法差异:正文公式省略了 1-1,算法中保留 ed^ϕ(s,a)1e^{\hat d_\phi(s,a)}-1。在固定系数下,常数项主要改变 reward baseline,对 policy gradient 的动作相对偏好影响有限;实现上仍需要关注 reward clipping、ratio estimate trimming 和 discriminator 训练顺序。作者实验中使用 discriminator reward clipping 和 trimmed mean 来降低指数项爆炸带来的不稳定。

6. 结论链条

论文的论证链条可以概括为:

  1. proxy 在参考策略分布上与真实 reward 正相关,因此它有使用理由。
  2. 直接优化 proxy 会让策略进入参考策略较少访问的区域,proxy 和真实 reward 的相关性可能失效。
  3. 真实回报提升可以由 proxy 提升减去 occupancy shift penalty 下界控制。
  4. 相比 action distribution KL,occupancy-measure χ2\chi^2 更直接约束“策略实际到达哪里”。
  5. ORPO 用 discriminator 近似 occupancy ratio,在多个 reward hacking benchmark 上提升真实 reward,并在 RLHF contextual-bandit 设置中验证 χ2\chi^2 action regularization 比 KL 更稳。

关键实验/定理

定理 1:correlated proxy 下的真实回报下界

  • 设置:在参考策略 πref\pi_{\mathrm{ref}} 访问分布上,proxy reward R~\tilde R 与真实 reward RR 具有正相关 rr
  • 指标:策略 π\pi 相比参考策略在真实 reward 上的标准化提升。
  • 结果:真实提升至少等于 proxy 提升项减去由 χ2(μπμπref)\chi^2(\mu_\pi\|\mu_{\pi_{\mathrm{ref}}}) 控制的分布偏移项。
  • 解读:该定理给出一个直接设计原则:优化 proxy 时同时约束 occupancy shift,可以降低 proxy 失效带来的 reward hacking 风险。

结果 1:五类环境中的 reward hacking 与 regularization

  • 设置:Traffic control、Pandemic mitigation、Glucose monitoring、RLHF 和 Tomato-watering gridworld。作者构造或使用 proxy reward 与 true reward,并用 reference policy 提供 proxy 相关性的校准分布。
  • 指标:最终策略在隐藏 true reward 上的表现。
  • 结果:无正则策略在所有环境中都显著 reward hack,例如 Traffic 从参考策略的约 2.28-2.28 降到 57.38-57.38,Glucose 从约 72.6-72.6 降到 599.0-599.0,RLHF 从约 16.3716.37 降到 9.169.16
  • 解读:优化 proxy 本身足以系统性降低真实回报,说明 correlated proxy 的定义能覆盖多类现实感较强的失败案例。

结果 2:occupancy regularization 优于常规 action-distribution regularization

  • 设置:在非 LLM 环境中比较 action distribution、state occupancy measure、state-action occupancy measure 三类正则目标,并比较 χ2\chi^2 和 KL。
  • 指标:true reward。
  • 关键结果:
Method Traffic Pandemic Glucose Gridworld
πref\pi_{\mathrm{ref}} -2.28 -12.26 -72.6 5.86
No regularization -57.38 -29.57 -599.0 2.35
Action dist. χ2\chi^2 -1.29 -12.29 -74.8 6.24
State OM χ2\chi^2 -2.18 -10.68 -54.7 9.07
State-action OM χ2\chi^2 -1.15 -11.17 -47.6 9.17
Action dist. KL -1.33 -12.20 -73.4 6.33
State OM KL -1.34 -10.24 -58.4 7.07
State-action OM KL -1.25 -11.73 -48.9 6.86
True reward training -0.93 -2.65 -43.4 8.54
  • 解读:state-action OM χ2\chi^2 在 Glucose 和 Gridworld 上明显强;Traffic 中 action 与 state-action OM 都接近 true-reward training;Pandemic 中 state OM KL/χ² 更好。总体结论是 occupancy regularization 更能处理长程分布偏移,但最佳正则对象仍受环境结构影响。

结果 3:RLHF 中 χ2\chi^2 action regularization 更稳

  • 设置:把 RLHF 建模为 contextual bandit。proxy reward model 来自 Pythia-70M 在 AlpacaFarm preference 上训练,true reward 使用 AI2 Llama 3 Tulu V2 8B RM,reference policy 是从 Pythia-1.4B fine-tune 的 SFT policy。作者只比较 action-distribution regularization,因为该设置中 action distribution 与 occupancy measure 等价。
  • 指标:true reward model score 和 win rate。
  • 结果:最佳 χ2\chi^2 coefficient 0.00080.0008 的 score 为 16.94±0.0716.94\pm0.07,最佳 KL coefficient 0.0250.02516.81±0.2716.81\pm0.27,reference policy 为 16.3716.37,无正则为 9.16±0.809.16\pm0.80。附录 win-rate 中,χ2\chi^2 最佳点 median win rate 为 52.8352.83,KL 最佳点为 51.5051.50,且 KL 在不同 coefficient 下波动更大。
  • 解读:在当前 RLHF bandit setting 里,χ2\chi^2 action regularization 已经比 KL 更稳。更重要的外推点是:当 LLM agent 变成多轮 MDP 时,论文期望 occupancy measure regularization 的优势更明显。

结果 4:ORPO 近似实现的工程可行性

  • 设置:ORPO 交替收集当前 policy 与 reference policy 轨迹、训练 discriminator、估计 χ2\chi^2、用 augmented reward 跑 PPO。作者在非 LLM 环境中加入 clipping、trimmed mean 和训练顺序 ablation。
  • 指标:true reward 与训练稳定性。
  • 结果:使用 discriminator 估计 occupancy ratio 可以在多环境中提供有效正则。ablation 显示 discriminator 训练顺序、reward clipping 和 divergence estimate 处理会影响稳定性。
  • 解读:ORPO 是可实现的,但它把 reward hacking 缓解问题转化成了 occupancy ratio estimation 问题。大规模 agent 场景中,ratio estimator 的覆盖、泛化和数值稳定性会成为核心工程问题。

证据链强度评估

强证据

  • 形式化定义和 Theorem 5.1 连接紧密,清楚说明为什么 reference policy 和 occupancy shift 是 reward hacking 的关键变量。
  • 多环境实验覆盖交通、疫情、血糖、RLHF 和 gridworld,说明该定义能解释多类 proxy 失效,适用范围超过单一 toy case。
  • 无正则 baseline 在多个环境中大幅低于 reference policy,reward hacking 现象本身证据强。
  • RLHF 实验明确区分 proxy RM 和 true RM,并展示无正则 PPO 会显著降低 true RM score。

中等强度证据

  • ORPO 的 discriminator 近似在小规模环境中有效,但大规模 LLM agent 的 ratio estimation 仍缺少直接实验。
  • χ2\chi^2 比 KL 更稳的证据在多个环境中出现,但每个环境和指标的胜负并不完全一致;更稳健的表述是 χ2\chi^2 对高 occupancy ratio 区域惩罚更强,经验上常带来更好的真实 reward。
  • RLHF 结果支持 action-distribution χ2\chi^2 的收益,但由于 contextual bandit 建模,它没有直接检验多轮 LLM agent 的 occupancy regularization。

需要谨慎的推论

  • 真实 reward 在部署中不可观测,论文中的 true reward 多数来自模拟环境或另一个 reward model。实际系统里需要用 held-out human eval、安全评测和行为审计近似验证。
  • reference policy 的选择很关键。若参考策略本身很弱或带系统性偏差,过强 regularization 会限制改善空间或固化问题。
  • occupancy measure regularization 可以降低 OOD proxy exploit 风险,但不能保证 proxy 本身覆盖所有价值维度。
  • ORPO 的 discriminator 若被当前 policy 轨迹分布、采样不足或高维 observation 误导,regularization signal 可能失真。

本地讨论补充

1. 讨论收敛点

  • 本轮初读后把本文定位为本地 reward hacking 线中的“policy optimization distribution control”节点。2501.09620 CRM 在 reward model 训练阶段压低已知 spurious factor 的影响;本篇在 policy optimization 阶段约束策略不要离开 proxy 仍可信的参考分布。
  • 本地讨论进一步澄清了它与常规 RLHF reference KL 的关系:二者同属 reference-policy regularization,都是在提高 proxy reward 的同时限制 actor 偏离 reference。在单轮 RLHF / contextual bandit 设置中,完整回复可视为一次 action,action-distribution KL 和 occupancy regularization 在形式上很接近;本文的新增点在于把正则对象提升为 state-action occupancy measure,并用 χ2\chi^2 更强惩罚 reference policy 很少访问的高 ratio 区域。
  • 概念层面,action distribution 是局部条件分布 π(as)\pi(a|s),描述 agent 在给定状态 ss 下选择各个动作 aa 的概率;occupancy measure 是策略与环境交互后形成的访问分布 μπ(s,a)\mu_\pi(s,a),描述 agent 在整条轨迹中以多大频率真的到达某个状态并采取某个动作。前者回答“在这里会怎么选”,后者回答“训练后实际会去哪里并做什么”。
  • 工程测量上,occupancy measure 可以先理解为 rollout 日志里的加权访问计数:用 actor 和 reference 在同一任务分布上各跑很多条轨迹,把每一步的状态-动作 (st,at)(s_t,a_t) 记下来,并按 (1γ)γt(1-\gamma)\gamma^t 或等权方式累计频率。对 LLM agent,原始状态通常是完整 prompt、历史、工具返回和环境状态,直接逐字符串计数不可行,因此需要定义状态抽象 ϕ(s)\phi(s),例如“读测试文件后修改源码”“运行测试后修改测试”“看到某类报错后提交”等事件/语义桶,再比较 μ^π(ϕ(s),a)\hat\mu_\pi(\phi(s),a)μ^πref(ϕ(s),a)\hat\mu_{\pi_{\mathrm{ref}}}(\phi(s),a) 的频率或 ratio。
  • 后续讨论把本文重新定位为 2025 年 RLHF / RL safety 中具有“定义性”价值的论文。它的长期价值主要来自统一语言:用 reference policy、correlated proxy、optimization-induced occupancy shift 和 true-reward regression 来描述 reward hacking,让后续 LLM/RLHF、tool-use agent、rule-based verifier 和 reward-model debiasing 工作可以在同一坐标系下比较问题来源与防御层级。
  • 与 tool-use RL 的连接需要单独保留:当前 RLHF 中 prompt 到完整回复可视为一次 action,action distribution regularization 足以近似 occupancy regularization;tool-use agent 的状态包含工具 schema、历史、工具返回、错误恢复和外部环境反馈,同样的 action KL 无法完整约束未来状态访问分布。此时本文的 OM regularization 视角会变得更重要。
  • 与 TIM/VeXact 和 TML 文章的连接是“分布一致性”的不同层面:本文讨论目标层的 reference occupancy,TIM/VeXact 讨论 rollout engine 与 trainer engine 的实现级分布错位,TML 文章讨论 serving kernel 的 batch-invariant determinism。三者都提示 RL post-training 中看似细微的分布变化会改变优化目标或评测结论。

2. 修正后的理解

  • 这篇论文的核心贡献不只是提出一个新 regularizer,更重要的是给 reward hacking 一个可操作坐标系:proxy quality 只在 reference distribution 下有定义,optimization pressure 会把策略推到该定义失效的区域。
  • ORPO 的收益来源可以理解为控制“策略实际访问哪里”,重点超出“同一状态下选哪个动作”的局部概率约束。多轮 agent 越像真实 MDP,这个区别越重要。
  • χ2\chi^2 的角色应理解为对高 ratio 区域更敏感的 tail-shift penalty,适合处理少量高 proxy、低真实 reward 的 OOD exploit 区域。

3. 后续复验指标

  • 当前 policy 与 reference policy 的 state / state-action occupancy divergence,而不只记录 per-token KL。
  • 高 proxy、低 true-reward 样本在 reference occupancy 下的 density 或 ratio estimate。
  • ORPO discriminator 的 calibration、AUC、tail ratio clipping 频率和 divergence estimate 方差。
  • 多轮 tool-use agent 中工具调用历史、工具返回类型、error-recovery state 的 occupancy shift。
  • reward hacking 评测需要同时报告 proxy reward、true/held-out reward、reference policy performance 和 regularization coefficient sweep。

主要启发

  • reward hacking 可以被看作“proxy correlation 在优化后的访问分布上失效”。这个表达比单纯说 proxy 错误更可诊断,因为它要求记录 reference distribution、优化后 distribution 和两者差异。
  • RLHF/RLVR 系统里只看 per-token KL 可能不足以约束 agent 行为。对多轮、工具调用或环境交互任务,应记录 trajectory-level 和 state-level distribution drift。
  • 若使用 learned reward model,最好把 reward-model debiasing 与 policy-level distribution control 组合起来:CRM 处理已知 spurious factor,ORPO 处理优化导致的 OOD state-action shift。
  • 在工程上,ORPO 的重点不只是换一个 penalty,还需要稳定估计 occupancy ratio。ratio estimator、采样覆盖和 tail clipping 会直接影响训练安全性。
  • 对安全评测来说,reference policy 不只是一个 KL anchor,也是定义 proxy 是否合理的经验分布。不同 reference policy 会改变 reward hacking 判定。

局限

  1. 理论定理依赖真实 reward 的分析可用性;现实 RLHF 中 true reward 往往只能通过人工评测或另一个 reward model 近似。
  2. ORPO 需要训练 discriminator 估计 occupancy ratio,高维 LLM agent 状态会显著增加估计难度。
  3. RLHF 实验规模较小,使用 Pythia 系列和 reward model 代理真实偏好,不能直接代表现代大模型 RLHF/RLVR。
  4. reference policy 的选择会影响相关性定义、regularization 强度和最终 policy 上限。
  5. χ2\chi^2 对 tail ratio 敏感,优势和数值风险并存;实现上需要 clipping、trimmed mean 或其他稳健估计。
  6. 论文主要展示 policy optimization 阶段的缓解,对 reward model 本身的 spurious correlation、judge bias 和 data collection bias 需要结合其他方法处理。

跨论文关系

  • 2501.09620 的作者关系:未发现作者重叠。主题上是互补关系,CRM 在 reward model 训练阶段约束 rϕ(x,y)r_\phi(x,y) 对已知 spurious factor ZZ 的依赖,本文在 policy optimization 阶段约束 μπ\mu_\pi 不要过度偏离 μπref\mu_{\pi_{\mathrm{ref}}}
  • 2606.04075 的作者关系:未发现作者重叠。主题上二者都研究 RL 如何利用 reward/规则缺口。SocioHack 展示 RL 在社会规则沙盒中寻找制度漏洞;本文提供一种解释框架:规则 reward 在参考行为分布上可能合理,优化后进入相关性失效的区域。
  • 2606.00135 的作者关系:未发现作者重叠。方法关系很强:tool-calling RL 的多轮状态和工具反馈会让 action KL 与 occupancy divergence 分离,因此本文的 OM regularization 是后续 agentic RL 安全训练的重要候选方向。
  • 2409.19256 的作者关系:未发现作者重叠。系统关系是 ORPO / χ2\chi^2 regularization 可以作为 VERL/HybridFlow 类 RLHF 框架中的 policy optimization 组件;框架需要额外支持 reference trajectory sampling、discriminator training 和 occupancy-ratio logging。
  • 2605.142202025-09-10 的作者关系:未发现作者重叠。主题关系是分布一致性。本文关注 reference-policy occupancy shift;TIM/VeXact 与 TML 文章关注 rollout/trainer/inference kernel 造成的实现级分布错位。
  • 2501.129482503.14476 的作者关系:未发现作者重叠。主题上,rule-based verifier 和 overlong reward shaping 仍可被看作 proxy reward;若 RL 把策略推到 verifier 覆盖不足或格式/长度边界区域,本文的 correlated-proxy 视角可以用于分析 residual reward hacking。
  • 新增后应更新的索引 cluster:新增 “Correlated Proxy Reward Hacking 与 Occupancy Regularization” cluster,并在跨论文关系中连接 CRM、SocioHack、tool-use RL、HybridFlow/VERL、TIM/VeXact 和 TML determinism。

Reference Intake Brief

Target

  • Intended target system: paper archive root 论文存档。
  • Existing related assets: papers-index.md2501.09620-causal-rewards-llm-alignment.md2606.04075-llms-hack-rewards-and-society.md2606.00135-agentic-tool-calling-rl-training.md2409.19256-hybridflow-rlhf-framework.md2605.14220-training-inference-mismatch-llm-rl.md
  • Proposed form: 新建独立 Markdown 文档,并更新总索引。

Reusable Elements

  1. reward hacking 诊断框架:reference policy、proxy correlation、optimization-induced occupancy shift、true reward regression。
  2. RLHF/agent 安全 checklist:proxy reward、held-out true reward、reference policy、per-token KL、state/action occupancy divergence、ratio tail metrics。
  3. ORPO 实现要点:reference trajectory sampling、occupancy discriminator、χ2\chi^2 estimate、augmented reward、PPO integration、clipping 和 trimmed mean。

Risks

  • Copyright/over-copying: 本笔记使用结构化转述和公式化摘要,未复制长段原文。
  • Unsourced or unverifiable claims: 作者、版本、项目链接来自 arXiv 页面和论文正文;跨论文关系为本地分析判断。
  • Tone/brand mismatch: 保持中文技术笔记风格,避免营销化表达。
  • Safety/compliance issues: 论文涉及 reward hacking,但本文仅记录机制、风险、评测和防御启发,不沉淀可执行滥用流程。
  • Overlap with existing assets: 与 CRM、SocioHack 都属于 reward hacking;本篇独立贡献是 correlated proxy definition、Theorem 5.1 和 occupancy regularization。

Skipped

Material Reason
完整 proof 细节 本地档案重点是论文脉络和可复用结论;保留定理表达和推导含义即可。
全部环境 reward 公式 部分环境细节较长,当前只保留 proxy/true reward 关系和实验结论。
全量 coefficient sweep 记录最佳点和趋势;后续若做 ORPO 复现再抽取完整超参表。

Recommendation

Decision: merge

Why: 该论文补齐了本目录中 reward hacking 的形式化定义和 policy-level regularization 节点,并与已有 CRM、SocioHack、tool-use RL、RLHF 系统一致性材料形成明确关系。