2403.03185-correlated-proxies-reward-hacking
Correlated Proxies: A New Definition and Improved Mitigation for Reward Hacking
这篇论文把 reward hacking 定义为:proxy reward 在参考策略访问到的状态 动作分布上和真实 reward 正相关,但经过优化后,新策略进入 proxy 与真实目标相关性失效的分布区域,导致真实回报低于参考策略;作者据此证明,把策略的 occupancy measure 约束在参考策略附近可以给真实回报提升提供下界,并提出 ORPO 用 discriminator 估计 occupancy ratio,在交通、...
Source
- Title: Correlated Proxies: A New Definition and Improved Mitigation for Reward Hacking
- arXiv: https://arxiv.org/abs/2403.03185
- HTML v4: https://arxiv.org/html/2403.03185v4
- PDF v4: https://arxiv.org/pdf/2403.03185v4
- TeX Source v4: https://arxiv.org/e-print/2403.03185v4
- Code/Project: https://github.com/cassidylaidlaw/orpo
- Authors: Cassidy Laidlaw, Shivam Singhal, Anca Dragan
- Submitted: 2024-03-05
- Current version read: v4, last revised 2025-03-13;arXiv 页面标注 Spotlight at ICLR 2025
- Subjects: Machine Learning (cs.LG); Artificial Intelligence (cs.AI)
- DOI: https://doi.org/10.48550/arXiv.2403.03185
作者与关系
- Cassidy Laidlaw: Department of Electrical Engineering and Computer Science, University of California, Berkeley;equal contribution;arXiv submission history 显示其为提交者;通讯邮箱为
cassidy_laidlaw@berkeley.edu。 - Shivam Singhal: Department of Electrical Engineering and Computer Science, University of California, Berkeley;equal contribution;通讯邮箱为
shivamsinghal@berkeley.edu。 - Anca Dragan: Department of Electrical Engineering and Computer Science, University of California, Berkeley;通讯邮箱为
anca@berkeley.edu。
关系判断:
- 同机构作者群:三位作者均来自 UC Berkeley EECS,构成单机构研究线。Laidlaw 与 Singhal 为 equal contribution。
- 跨机构桥接:论文署名中未出现跨机构桥接作者。Acknowledgments 提到 Cam Allen、Micah Carroll、Dibya Ghosh、Katie Kang、Sam Toyer 的讨论贡献,并披露 SRC COCOSYS、NSF HCC、Open Philanthropy AI Fellowship、NDSEG 等资助线索。
- 与已存档作者重叠:未发现与当前
papers-index.md已存档论文的可确认作者重叠。 - 与已存档论文的主题或方法关系:与
2501.09620CRM、2606.04075SocioHack 同属 reward hacking 主线;与2606.00135tool-calling RL 的关系尤其重要,因为本篇明确指出当前 RLHF 的 contextual-bandit 假设下 action distribution 与 occupancy measure regularization 接近等价,而多轮 agent / tool-use 环境会让二者分离;与2409.19256HybridFlow/VERL、2605.14220TIM/VeXact、2025-09-10TML 文章共同指向 RLHF/RLVR 系统中 reference distribution、rollout distribution 和 trainer distribution 的一致性问题。 - 需要后续确认:ORPO 代码仓库后续是否继续维护、是否已有大规模 LLM agent 复现实验、以及 ICLR camera-ready 与 arXiv v4 是否完全一致。
一句话结论
这篇论文把 reward hacking 定义为:proxy reward 在参考策略访问到的状态-动作分布上和真实 reward 正相关,但经过优化后,新策略进入 proxy 与真实目标相关性失效的分布区域,导致真实回报低于参考策略;作者据此证明,把策略的 occupancy measure 约束在参考策略附近可以给真实回报提升提供下界,并提出 ORPO 用 discriminator 估计 occupancy ratio,在交通、疫情、血糖、RLHF 和 gridworld 等环境中比常规 action-distribution KL 更稳地缓解 reward hacking。
阅读目标与判断边界
本笔记关注:
- 作者怎样把“proxy 原本有用、优化后失效”形式化为 correlated proxy reward。
- Theorem 5.1 为什么会自然导出 occupancy measure regularization 和
divergence。 - ORPO 如何近似实现 occupancy regularization,以及它相对 RLHF 常用 action-distribution KL 的适用边界。
- 这篇论文和本地档案中 CRM、SocioHack、tool-use RL、VERL/TIM 等论文的关系。
判断边界:
- 论文的理论下界以真实 reward
可用于分析为前提;真实部署中 通常不可观测,因此该结果更像设计原则和可诊断框架。 - ORPO 依赖 discriminator 估计 occupancy ratio,估计误差、指数变换和长轨迹覆盖会影响稳定性。
- RLHF 实验被建模成 contextual bandit,动作是完整回复;在多轮对话、工具调用、外部环境交互和状态累积 agent 中,action distribution 与 occupancy measure 的差异会更明显。
- 论文展示多个模拟环境和一个小规模 RLHF 设置,尚未证明 ORPO 能直接扩展到大模型、多工具、多轮安全关键 agent。
论文脉络
1. 问题背景
RL 中的 reward function 经常只是设计者真实目标的 proxy。proxy 在常见行为分布上可能很好用,例如人类示范附近、SFT policy 附近或一个合理 baseline 附近;一旦 RL 优化持续提高 proxy reward,策略会主动搜索高 proxy 的状态-动作区域。此时 proxy 和真实目标之间的统计关系可能失效,得到的策略在 proxy 上变好,在真实目标上变差。
作者指出,reward hacking 很难处理的一个原因是缺少足够可操作的定义。很多定义只说 proxy 和 true reward 不一致,或者把问题归入 Goodhart's Law,但很难说明一个 proxy 在什么意义上“原本是合理的”。本篇的切入点是 reference policy:如果 proxy 是人会选择用来训练的 proxy,它至少应该在某个参考行为分布上与真实 reward 正相关。
2. 核心定义:correlated proxy 与 reward hacking
设折扣 MDP 中策略
策略的 occupancy measure 是该策略在折扣访问分布下看到的状态-动作分布:
给定参考策略
在这个定义下,reward hacking 是:策略优化了
这个定义把问题拆得很清楚:proxy 在参考分布上有意义,优化把策略推到参考分布之外,proxy 与真实目标的相关性在新分布上衰减或反向,最终真实回报下降。
3. Theorem 5.1:从相关性到 occupancy regularization
论文的关键定理给出真实回报提升的下界。若
这个下界包含两个方向相反的量:
- proxy improvement:
,策略在 proxy 上比参考策略好多少。 - distribution shift penalty:
,策略访问分布偏离参考策略多少。
因此,一个自然的 policy objective 是:
直觉上,proxy 与 true reward 越弱相关,
4. 为什么是 occupancy measure,为什么偏向
RLHF 中常用做法是给当前 policy 和 reference policy 的 action distribution 加 KL penalty。作者的理论指向 occupancy measure,因为长程 MDP 中行为后果不只由当前状态下的动作概率决定,还取决于动作怎样改变后续状态访问分布。一个很小的 action distribution 变化可能把策略带到完全不同的状态区域,proxy 在那些状态上没有被参考分布校准。
作者还讨论了
表示偏移,KL 对高 ratio 区域增长较慢,
在当前 RLHF 的 contextual-bandit 建模中,一个 prompt 对应一次完整回复,
5. ORPO:用 discriminator 估计 occupancy ratio
Occupancy-Regularized Policy Optimization (ORPO) 用一个 discriminator 近似估计当前 policy 与 reference policy 的 log occupancy ratio:
discriminator 的二分类 loss 为:
然后用该估计量构造
ORPO 把 proxy reward 替换为带正则的 augmented reward,再交给 PPO 优化:
正文和算法展示中存在一个常数项写法差异:正文公式省略了
6. 结论链条
论文的论证链条可以概括为:
- proxy 在参考策略分布上与真实 reward 正相关,因此它有使用理由。
- 直接优化 proxy 会让策略进入参考策略较少访问的区域,proxy 和真实 reward 的相关性可能失效。
- 真实回报提升可以由 proxy 提升减去 occupancy shift penalty 下界控制。
- 相比 action distribution KL,occupancy-measure
更直接约束“策略实际到达哪里”。 - ORPO 用 discriminator 近似 occupancy ratio,在多个 reward hacking benchmark 上提升真实 reward,并在 RLHF contextual-bandit 设置中验证
action regularization 比 KL 更稳。
关键实验/定理
定理 1:correlated proxy 下的真实回报下界
- 设置:在参考策略
访问分布上,proxy reward 与真实 reward 具有正相关 。 - 指标:策略
相比参考策略在真实 reward 上的标准化提升。 - 结果:真实提升至少等于 proxy 提升项减去由
控制的分布偏移项。 - 解读:该定理给出一个直接设计原则:优化 proxy 时同时约束 occupancy shift,可以降低 proxy 失效带来的 reward hacking 风险。
结果 1:五类环境中的 reward hacking 与 regularization
- 设置:Traffic control、Pandemic mitigation、Glucose monitoring、RLHF 和 Tomato-watering gridworld。作者构造或使用 proxy reward 与 true reward,并用 reference policy 提供 proxy 相关性的校准分布。
- 指标:最终策略在隐藏 true reward 上的表现。
- 结果:无正则策略在所有环境中都显著 reward hack,例如 Traffic 从参考策略的约
降到 ,Glucose 从约 降到 ,RLHF 从约 降到 。 - 解读:优化 proxy 本身足以系统性降低真实回报,说明 correlated proxy 的定义能覆盖多类现实感较强的失败案例。
结果 2:occupancy regularization 优于常规 action-distribution regularization
- 设置:在非 LLM 环境中比较 action distribution、state occupancy measure、state-action occupancy measure 三类正则目标,并比较
和 KL。 - 指标:true reward。
- 关键结果:
| Method | Traffic | Pandemic | Glucose | Gridworld |
|---|---|---|---|---|
| -2.28 | -12.26 | -72.6 | 5.86 | |
| No regularization | -57.38 | -29.57 | -599.0 | 2.35 |
| Action dist. |
-1.29 | -12.29 | -74.8 | 6.24 |
| State OM |
-2.18 | -10.68 | -54.7 | 9.07 |
| State-action OM |
-1.15 | -11.17 | -47.6 | 9.17 |
| Action dist. KL | -1.33 | -12.20 | -73.4 | 6.33 |
| State OM KL | -1.34 | -10.24 | -58.4 | 7.07 |
| State-action OM KL | -1.25 | -11.73 | -48.9 | 6.86 |
| True reward training | -0.93 | -2.65 | -43.4 | 8.54 |
- 解读:state-action OM
在 Glucose 和 Gridworld 上明显强;Traffic 中 action 与 state-action OM 都接近 true-reward training;Pandemic 中 state OM KL/χ² 更好。总体结论是 occupancy regularization 更能处理长程分布偏移,但最佳正则对象仍受环境结构影响。
结果 3:RLHF 中 action regularization 更稳
- 设置:把 RLHF 建模为 contextual bandit。proxy reward model 来自 Pythia-70M 在 AlpacaFarm preference 上训练,true reward 使用 AI2 Llama 3 Tulu V2 8B RM,reference policy 是从 Pythia-1.4B fine-tune 的 SFT policy。作者只比较 action-distribution regularization,因为该设置中 action distribution 与 occupancy measure 等价。
- 指标:true reward model score 和 win rate。
- 结果:最佳
coefficient 的 score 为 ,最佳 KL coefficient 为 ,reference policy 为 ,无正则为 。附录 win-rate 中, 最佳点 median win rate 为 ,KL 最佳点为 ,且 KL 在不同 coefficient 下波动更大。 - 解读:在当前 RLHF bandit setting 里,
action regularization 已经比 KL 更稳。更重要的外推点是:当 LLM agent 变成多轮 MDP 时,论文期望 occupancy measure regularization 的优势更明显。
结果 4:ORPO 近似实现的工程可行性
- 设置:ORPO 交替收集当前 policy 与 reference policy 轨迹、训练 discriminator、估计
、用 augmented reward 跑 PPO。作者在非 LLM 环境中加入 clipping、trimmed mean 和训练顺序 ablation。 - 指标:true reward 与训练稳定性。
- 结果:使用 discriminator 估计 occupancy ratio 可以在多环境中提供有效正则。ablation 显示 discriminator 训练顺序、reward clipping 和 divergence estimate 处理会影响稳定性。
- 解读:ORPO 是可实现的,但它把 reward hacking 缓解问题转化成了 occupancy ratio estimation 问题。大规模 agent 场景中,ratio estimator 的覆盖、泛化和数值稳定性会成为核心工程问题。
证据链强度评估
强证据
- 形式化定义和 Theorem 5.1 连接紧密,清楚说明为什么 reference policy 和 occupancy shift 是 reward hacking 的关键变量。
- 多环境实验覆盖交通、疫情、血糖、RLHF 和 gridworld,说明该定义能解释多类 proxy 失效,适用范围超过单一 toy case。
- 无正则 baseline 在多个环境中大幅低于 reference policy,reward hacking 现象本身证据强。
- RLHF 实验明确区分 proxy RM 和 true RM,并展示无正则 PPO 会显著降低 true RM score。
中等强度证据
- ORPO 的 discriminator 近似在小规模环境中有效,但大规模 LLM agent 的 ratio estimation 仍缺少直接实验。
比 KL 更稳的证据在多个环境中出现,但每个环境和指标的胜负并不完全一致;更稳健的表述是 对高 occupancy ratio 区域惩罚更强,经验上常带来更好的真实 reward。 - RLHF 结果支持 action-distribution
的收益,但由于 contextual bandit 建模,它没有直接检验多轮 LLM agent 的 occupancy regularization。
需要谨慎的推论
- 真实 reward 在部署中不可观测,论文中的 true reward 多数来自模拟环境或另一个 reward model。实际系统里需要用 held-out human eval、安全评测和行为审计近似验证。
- reference policy 的选择很关键。若参考策略本身很弱或带系统性偏差,过强 regularization 会限制改善空间或固化问题。
- occupancy measure regularization 可以降低 OOD proxy exploit 风险,但不能保证 proxy 本身覆盖所有价值维度。
- ORPO 的 discriminator 若被当前 policy 轨迹分布、采样不足或高维 observation 误导,regularization signal 可能失真。
本地讨论补充
1. 讨论收敛点
- 本轮初读后把本文定位为本地 reward hacking 线中的“policy optimization distribution control”节点。
2501.09620CRM 在 reward model 训练阶段压低已知 spurious factor 的影响;本篇在 policy optimization 阶段约束策略不要离开 proxy 仍可信的参考分布。 - 本地讨论进一步澄清了它与常规 RLHF reference KL 的关系:二者同属 reference-policy regularization,都是在提高 proxy reward 的同时限制 actor 偏离 reference。在单轮 RLHF / contextual bandit 设置中,完整回复可视为一次 action,action-distribution KL 和 occupancy regularization 在形式上很接近;本文的新增点在于把正则对象提升为 state-action occupancy measure,并用
更强惩罚 reference policy 很少访问的高 ratio 区域。 - 概念层面,action distribution 是局部条件分布
,描述 agent 在给定状态 下选择各个动作 的概率;occupancy measure 是策略与环境交互后形成的访问分布 ,描述 agent 在整条轨迹中以多大频率真的到达某个状态并采取某个动作。前者回答“在这里会怎么选”,后者回答“训练后实际会去哪里并做什么”。 - 工程测量上,occupancy measure 可以先理解为 rollout 日志里的加权访问计数:用 actor 和 reference 在同一任务分布上各跑很多条轨迹,把每一步的状态-动作
记下来,并按 或等权方式累计频率。对 LLM agent,原始状态通常是完整 prompt、历史、工具返回和环境状态,直接逐字符串计数不可行,因此需要定义状态抽象 ,例如“读测试文件后修改源码”“运行测试后修改测试”“看到某类报错后提交”等事件/语义桶,再比较 与 的频率或 ratio。 - 后续讨论把本文重新定位为 2025 年 RLHF / RL safety 中具有“定义性”价值的论文。它的长期价值主要来自统一语言:用 reference policy、correlated proxy、optimization-induced occupancy shift 和 true-reward regression 来描述 reward hacking,让后续 LLM/RLHF、tool-use agent、rule-based verifier 和 reward-model debiasing 工作可以在同一坐标系下比较问题来源与防御层级。
- 与 tool-use RL 的连接需要单独保留:当前 RLHF 中 prompt 到完整回复可视为一次 action,action distribution regularization 足以近似 occupancy regularization;tool-use agent 的状态包含工具 schema、历史、工具返回、错误恢复和外部环境反馈,同样的 action KL 无法完整约束未来状态访问分布。此时本文的 OM regularization 视角会变得更重要。
- 与 TIM/VeXact 和 TML 文章的连接是“分布一致性”的不同层面:本文讨论目标层的 reference occupancy,TIM/VeXact 讨论 rollout engine 与 trainer engine 的实现级分布错位,TML 文章讨论 serving kernel 的 batch-invariant determinism。三者都提示 RL post-training 中看似细微的分布变化会改变优化目标或评测结论。
2. 修正后的理解
- 这篇论文的核心贡献不只是提出一个新 regularizer,更重要的是给 reward hacking 一个可操作坐标系:proxy quality 只在 reference distribution 下有定义,optimization pressure 会把策略推到该定义失效的区域。
- ORPO 的收益来源可以理解为控制“策略实际访问哪里”,重点超出“同一状态下选哪个动作”的局部概率约束。多轮 agent 越像真实 MDP,这个区别越重要。
的角色应理解为对高 ratio 区域更敏感的 tail-shift penalty,适合处理少量高 proxy、低真实 reward 的 OOD exploit 区域。
3. 后续复验指标
- 当前 policy 与 reference policy 的 state / state-action occupancy divergence,而不只记录 per-token KL。
- 高 proxy、低 true-reward 样本在 reference occupancy 下的 density 或 ratio estimate。
- ORPO discriminator 的 calibration、AUC、tail ratio clipping 频率和 divergence estimate 方差。
- 多轮 tool-use agent 中工具调用历史、工具返回类型、error-recovery state 的 occupancy shift。
- reward hacking 评测需要同时报告 proxy reward、true/held-out reward、reference policy performance 和 regularization coefficient sweep。
主要启发
- reward hacking 可以被看作“proxy correlation 在优化后的访问分布上失效”。这个表达比单纯说 proxy 错误更可诊断,因为它要求记录 reference distribution、优化后 distribution 和两者差异。
- RLHF/RLVR 系统里只看 per-token KL 可能不足以约束 agent 行为。对多轮、工具调用或环境交互任务,应记录 trajectory-level 和 state-level distribution drift。
- 若使用 learned reward model,最好把 reward-model debiasing 与 policy-level distribution control 组合起来:CRM 处理已知 spurious factor,ORPO 处理优化导致的 OOD state-action shift。
- 在工程上,ORPO 的重点不只是换一个 penalty,还需要稳定估计 occupancy ratio。ratio estimator、采样覆盖和 tail clipping 会直接影响训练安全性。
- 对安全评测来说,reference policy 不只是一个 KL anchor,也是定义 proxy 是否合理的经验分布。不同 reference policy 会改变 reward hacking 判定。
局限
- 理论定理依赖真实 reward 的分析可用性;现实 RLHF 中 true reward 往往只能通过人工评测或另一个 reward model 近似。
- ORPO 需要训练 discriminator 估计 occupancy ratio,高维 LLM agent 状态会显著增加估计难度。
- RLHF 实验规模较小,使用 Pythia 系列和 reward model 代理真实偏好,不能直接代表现代大模型 RLHF/RLVR。
- reference policy 的选择会影响相关性定义、regularization 强度和最终 policy 上限。
对 tail ratio 敏感,优势和数值风险并存;实现上需要 clipping、trimmed mean 或其他稳健估计。 - 论文主要展示 policy optimization 阶段的缓解,对 reward model 本身的 spurious correlation、judge bias 和 data collection bias 需要结合其他方法处理。
跨论文关系
- 与
2501.09620的作者关系:未发现作者重叠。主题上是互补关系,CRM 在 reward model 训练阶段约束对已知 spurious factor 的依赖,本文在 policy optimization 阶段约束 不要过度偏离 。 - 与
2606.04075的作者关系:未发现作者重叠。主题上二者都研究 RL 如何利用 reward/规则缺口。SocioHack 展示 RL 在社会规则沙盒中寻找制度漏洞;本文提供一种解释框架:规则 reward 在参考行为分布上可能合理,优化后进入相关性失效的区域。 - 与
2606.00135的作者关系:未发现作者重叠。方法关系很强:tool-calling RL 的多轮状态和工具反馈会让 action KL 与 occupancy divergence 分离,因此本文的 OM regularization 是后续 agentic RL 安全训练的重要候选方向。 - 与
2409.19256的作者关系:未发现作者重叠。系统关系是 ORPO /regularization 可以作为 VERL/HybridFlow 类 RLHF 框架中的 policy optimization 组件;框架需要额外支持 reference trajectory sampling、discriminator training 和 occupancy-ratio logging。 - 与
2605.14220和2025-09-10的作者关系:未发现作者重叠。主题关系是分布一致性。本文关注 reference-policy occupancy shift;TIM/VeXact 与 TML 文章关注 rollout/trainer/inference kernel 造成的实现级分布错位。 - 与
2501.12948、2503.14476的作者关系:未发现作者重叠。主题上,rule-based verifier 和 overlong reward shaping 仍可被看作 proxy reward;若 RL 把策略推到 verifier 覆盖不足或格式/长度边界区域,本文的 correlated-proxy 视角可以用于分析 residual reward hacking。 - 新增后应更新的索引 cluster:新增 “Correlated Proxy Reward Hacking 与 Occupancy Regularization” cluster,并在跨论文关系中连接 CRM、SocioHack、tool-use RL、HybridFlow/VERL、TIM/VeXact 和 TML determinism。
Reference Intake Brief
Target
- Intended target system:
paper archive root论文存档。 - Existing related assets:
papers-index.md、2501.09620-causal-rewards-llm-alignment.md、2606.04075-llms-hack-rewards-and-society.md、2606.00135-agentic-tool-calling-rl-training.md、2409.19256-hybridflow-rlhf-framework.md、2605.14220-training-inference-mismatch-llm-rl.md。 - Proposed form: 新建独立 Markdown 文档,并更新总索引。
Reusable Elements
- reward hacking 诊断框架:reference policy、proxy correlation、optimization-induced occupancy shift、true reward regression。
- RLHF/agent 安全 checklist:proxy reward、held-out true reward、reference policy、per-token KL、state/action occupancy divergence、ratio tail metrics。
- ORPO 实现要点:reference trajectory sampling、occupancy discriminator、
estimate、augmented reward、PPO integration、clipping 和 trimmed mean。
Risks
- Copyright/over-copying: 本笔记使用结构化转述和公式化摘要,未复制长段原文。
- Unsourced or unverifiable claims: 作者、版本、项目链接来自 arXiv 页面和论文正文;跨论文关系为本地分析判断。
- Tone/brand mismatch: 保持中文技术笔记风格,避免营销化表达。
- Safety/compliance issues: 论文涉及 reward hacking,但本文仅记录机制、风险、评测和防御启发,不沉淀可执行滥用流程。
- Overlap with existing assets: 与 CRM、SocioHack 都属于 reward hacking;本篇独立贡献是 correlated proxy definition、Theorem 5.1 和 occupancy regularization。
Skipped
| Material | Reason |
|---|---|
| 完整 proof 细节 | 本地档案重点是论文脉络和可复用结论;保留定理表达和推导含义即可。 |
| 全部环境 reward 公式 | 部分环境细节较长,当前只保留 proxy/true reward 关系和实验结论。 |
| 全量 coefficient sweep | 记录最佳点和趋势;后续若做 ORPO 复现再抽取完整超参表。 |
Recommendation
Decision: merge
Why: 该论文补齐了本目录中 reward hacking 的形式化定义和 policy-level regularization 节点,并与已有 CRM、SocioHack、tool-use RL、RLHF 系统一致性材料形成明确关系。