Correlated Proxies: A New Definition and Improved Mitigation for Reward Hacking

Source

Title: Correlated Proxies: A New Definition and Improved Mitigation for Reward Hacking
arXiv: https://arxiv.org/abs/2403.03185
HTML v4: https://arxiv.org/html/2403.03185v4
PDF v4: https://arxiv.org/pdf/2403.03185v4
TeX Source v4: https://arxiv.org/e-print/2403.03185v4
Code/Project: https://github.com/cassidylaidlaw/orpo
Authors: Cassidy Laidlaw, Shivam Singhal, Anca Dragan
Submitted: 2024-03-05
Current version read: v4, last revised 2025-03-13；arXiv 页面标注 Spotlight at ICLR 2025
Subjects: Machine Learning (cs.LG); Artificial Intelligence (cs.AI)
DOI: https://doi.org/10.48550/arXiv.2403.03185

作者与关系

Cassidy Laidlaw: Department of Electrical Engineering and Computer Science, University of California, Berkeley.
Shivam Singhal: Department of Electrical Engineering and Computer Science, University of California, Berkeley.
Anca Dragan: Department of Electrical Engineering and Computer Science, University of California, Berkeley.

阅读目标与判断边界

本笔记关注：

作者怎样把“proxy 原本有用、优化后失效”形式化为 correlated proxy reward。
Theorem 5.1 为什么会自然导出 occupancy measure regularization 和 $\chi^2$ divergence。
ORPO 如何近似实现 occupancy regularization，以及它相对 RLHF 常用 action-distribution KL 的适用边界。
这篇论文和本地档案中 CRM、SocioHack、tool-use RL、VERL/TIM 等论文的关系。

判断边界：

论文的理论下界以真实 reward $R$ 可用于分析为前提；真实部署中 $R$ 通常不可观测，因此该结果更像设计原则和可诊断框架。
ORPO 依赖 discriminator 估计 occupancy ratio，估计误差、指数变换和长轨迹覆盖会影响稳定性。
RLHF 实验被建模成 contextual bandit，动作是完整回复；在多轮对话、工具调用、外部环境交互和状态累积 agent 中，action distribution 与 occupancy measure 的差异会更明显。
论文展示多个模拟环境和一个小规模 RLHF 设置，尚未证明 ORPO 能直接扩展到大模型、多工具、多轮安全关键 agent。

论文脉络

1. 问题背景

RL 中的 reward function 经常只是设计者真实目标的 proxy。proxy 在常见行为分布上可能很好用，例如人类示范附近、SFT policy 附近或一个合理 baseline 附近；一旦 RL 优化持续提高 proxy reward，策略会主动搜索高 proxy 的状态-动作区域。此时 proxy 和真实目标之间的统计关系可能失效，得到的策略在 proxy 上变好，在真实目标上变差。

作者指出，reward hacking 很难处理的一个原因是缺少足够可操作的定义。很多定义只说 proxy 和 true reward 不一致，或者把问题归入 Goodhart's Law，但很难说明一个 proxy 在什么意义上“原本是合理的”。本篇的切入点是 reference policy：如果 proxy 是人会选择用来训练的 proxy，它至少应该在某个参考行为分布上与真实 reward 正相关。

2. 核心定义：correlated proxy 与 reward hacking

设折扣 MDP 中策略 $\pi$ 的归一化回报为：

J(\pi,R) = (1-\gamma) \mathbb{E}_{\pi} \left[ \sum_{t=0}^{\infty}\gamma^t R(s_t,a_t) \right].

策略的 occupancy measure 是该策略在折扣访问分布下看到的状态-动作分布：

\mu_\pi(s,a) = (1-\gamma) \mathbb{E}_{\pi} \left[ \sum_{t=0}^{\infty} \gamma^t \mathbf{1}\{s_t=s,\ a_t=a\} \right].

给定参考策略 $\pi_{\mathrm{ref}}$ ，如果 proxy reward $\tilde R$ 与真实 reward $R$ 在 $\mu_{\pi_{\mathrm{ref}}}$ 下标准化后相关系数为 $r>0$ ，作者称 $\tilde R$ 是 $r$ -correlated proxy reward：

\mathbb{E}_{(s,a)\sim\mu_{\pi_{\mathrm{ref}}}} \left[ \left( \frac{\tilde R(s,a)-J(\pi_{\mathrm{ref}},\tilde R)} {\sigma_{\tilde R}} \right) \left( \frac{R(s,a)-J(\pi_{\mathrm{ref}},R)} {\sigma_R} \right) \right] =r>0.

在这个定义下，reward hacking 是：策略优化了 $\tilde R$ ，但真实回报低于参考策略：

J(\pi,R) < J(\pi_{\mathrm{ref}},R).

这个定义把问题拆得很清楚：proxy 在参考分布上有意义，优化把策略推到参考分布之外，proxy 与真实目标的相关性在新分布上衰减或反向，最终真实回报下降。

3. Theorem 5.1：从相关性到 occupancy regularization

论文的关键定理给出真实回报提升的下界。若 $\tilde R$ 是关于 $\pi_{\mathrm{ref}}$ 的 $r$ -correlated proxy，并且 $\mu_\pi$ 关于 $\mu_{\pi_{\mathrm{ref}}}$ 绝对连续，则：

\frac{J(\pi,R)-J(\pi_{\mathrm{ref}},R)}{\sigma_R} \ge \frac{1}{r} \left( \frac{J(\pi,\tilde R)-J(\pi_{\mathrm{ref}},\tilde R)} {\sigma_{\tilde R}} - \sqrt{ (1-r^2) \chi^2\!\left( \mu_\pi \middle\| \mu_{\pi_{\mathrm{ref}}} \right) } \right).

这个下界包含两个方向相反的量：

proxy improvement： $J(\pi,\tilde R)-J(\pi_{\mathrm{ref}},\tilde R)$ ，策略在 proxy 上比参考策略好多少。
distribution shift penalty： $\chi^2(\mu_\pi\|\mu_{\pi_{\mathrm{ref}}})$ ，策略访问分布偏离参考策略多少。

因此，一个自然的 policy objective 是：

\max_{\pi} \; J(\pi,\tilde R) - \lambda \sqrt{ \chi^2\!\left( \mu_\pi \middle\| \mu_{\pi_{\mathrm{ref}}} \right) }, \quad \lambda= \sigma_{\tilde R}\sqrt{1-r^2}.

直觉上，proxy 与 true reward 越弱相关， $r$ 越小，正则越需要强；策略越偏离参考分布，proxy 失效的风险越高。

4. 为什么是 occupancy measure，为什么偏向 $\chi^2$

RLHF 中常用做法是给当前 policy 和 reference policy 的 action distribution 加 KL penalty。作者的理论指向 occupancy measure，因为长程 MDP 中行为后果不只由当前状态下的动作概率决定，还取决于动作怎样改变后续状态访问分布。一个很小的 action distribution 变化可能把策略带到完全不同的状态区域，proxy 在那些状态上没有被参考分布校准。

作者还讨论了 $\chi^2$ 相对 KL 的意义。若用 log occupancy ratio

d(s,a)= \log \frac{\mu_\pi(s,a)} {\mu_{\pi_{\mathrm{ref}}}(s,a)}

表示偏移，KL 对高 ratio 区域增长较慢， $\chi^2$ 会对高 ratio 区域给出更强惩罚。reward hacking 的危险往往出现在少量高 proxy、低真实 reward、参考策略很少访问的区域，因此强惩罚 tail shift 更符合问题结构。

在当前 RLHF 的 contextual-bandit 建模中，一个 prompt 对应一次完整回复， $\gamma=0$ ，action distribution 和 occupancy measure 基本等价。论文附录进一步说明，在某些 deterministic autoregressive environment 中二者也可等价。这个结论的边界很关键：一旦 LLM agent 进入多轮状态、工具调用、外部环境反馈或可恢复错误轨迹，state visitation 会携带历史和工具结果，action distribution KL 就很难完整约束实际 occupancy shift。

5. ORPO：用 discriminator 估计 occupancy ratio

Occupancy-Regularized Policy Optimization (ORPO) 用一个 discriminator 近似估计当前 policy 与 reference policy 的 log occupancy ratio：

\hat d_\phi(s,a) \approx \log \frac{\mu_\pi(s,a)} {\mu_{\pi_{\mathrm{ref}}}(s,a)}.

discriminator 的二分类 loss 为：

\mathbb{E}_{(s,a)\sim\mu_\pi} \left[ \log(1+e^{-\hat d_\phi(s,a)}) \right] + \mathbb{E}_{(s,a)\sim\mu_{\pi_{\mathrm{ref}}}} \left[ \log(1+e^{\hat d_\phi(s,a)}) \right].

然后用该估计量构造 $\chi^2$ divergence：

\widehat{\chi^2} = \mathbb{E}_{(s,a)\sim\mu_\pi} \left[ e^{\hat d_\phi(s,a)}-1 \right].

ORPO 把 proxy reward 替换为带正则的 augmented reward，再交给 PPO 优化：

R'(s,a) = \tilde R(s,a) - \frac{\lambda} {\sqrt{\widehat{\chi^2}}} \left( e^{\hat d_\phi(s,a)}-1 \right).

正文和算法展示中存在一个常数项写法差异：正文公式省略了 $-1$ ，算法中保留 $e^{\hat d_\phi(s,a)}-1$ 。在固定系数下，常数项主要改变 reward baseline，对 policy gradient 的动作相对偏好影响有限；实现上仍需要关注 reward clipping、ratio estimate trimming 和 discriminator 训练顺序。作者实验中使用 discriminator reward clipping 和 trimmed mean 来降低指数项爆炸带来的不稳定。

6. 结论链条

论文的论证链条可以概括为：

proxy 在参考策略分布上与真实 reward 正相关，因此它有使用理由。
直接优化 proxy 会让策略进入参考策略较少访问的区域，proxy 和真实 reward 的相关性可能失效。
真实回报提升可以由 proxy 提升减去 occupancy shift penalty 下界控制。
相比 action distribution KL，occupancy-measure $\chi^2$ 更直接约束“策略实际到达哪里”。
ORPO 用 discriminator 近似 occupancy ratio，在多个 reward hacking benchmark 上提升真实 reward，并在 RLHF contextual-bandit 设置中验证 $\chi^2$ action regularization 比 KL 更稳。

关键实验/定理

定理 1：correlated proxy 下的真实回报下界

设置：在参考策略 $\pi_{\mathrm{ref}}$ 访问分布上，proxy reward $\tilde R$ 与真实 reward $R$ 具有正相关 $r$ 。
指标：策略 $\pi$ 相比参考策略在真实 reward 上的标准化提升。
结果：真实提升至少等于 proxy 提升项减去由 $\chi^2(\mu_\pi\|\mu_{\pi_{\mathrm{ref}}})$ 控制的分布偏移项。
解读：该定理给出一个直接设计原则：优化 proxy 时同时约束 occupancy shift，可以降低 proxy 失效带来的 reward hacking 风险。

结果 1：五类环境中的 reward hacking 与 regularization

设置：Traffic control、Pandemic mitigation、Glucose monitoring、RLHF 和 Tomato-watering gridworld。作者构造或使用 proxy reward 与 true reward，并用 reference policy 提供 proxy 相关性的校准分布。
指标：最终策略在隐藏 true reward 上的表现。
结果：无正则策略在所有环境中都显著 reward hack，例如 Traffic 从参考策略的约 $-2.28$ 降到 $-57.38$ ，Glucose 从约 $-72.6$ 降到 $-599.0$ ，RLHF 从约 $16.37$ 降到 $9.16$ 。
解读：优化 proxy 本身足以系统性降低真实回报，说明 correlated proxy 的定义能覆盖多类现实感较强的失败案例。

结果 2：occupancy regularization 优于常规 action-distribution regularization

设置：在非 LLM 环境中比较 action distribution、state occupancy measure、state-action occupancy measure 三类正则目标，并比较 $\chi^2$ 和 KL。
指标：true reward。
关键结果：

Method	Traffic	Pandemic	Glucose	Gridworld
$\pi_{\mathrm{ref}}$	-2.28	-12.26	-72.6	5.86
No regularization	-57.38	-29.57	-599.0	2.35
Action dist. $\chi^2$	-1.29	-12.29	-74.8	6.24
State OM $\chi^2$	-2.18	-10.68	-54.7	9.07
State-action OM $\chi^2$	-1.15	-11.17	-47.6	9.17
Action dist. KL	-1.33	-12.20	-73.4	6.33
State OM KL	-1.34	-10.24	-58.4	7.07
State-action OM KL	-1.25	-11.73	-48.9	6.86
True reward training	-0.93	-2.65	-43.4	8.54

解读：state-action OM $\chi^2$ 在 Glucose 和 Gridworld 上明显强；Traffic 中 action 与 state-action OM 都接近 true-reward training；Pandemic 中 state OM KL/χ² 更好。总体结论是 occupancy regularization 更能处理长程分布偏移，但最佳正则对象仍受环境结构影响。

结果 3：RLHF 中 $\chi^2$ action regularization 更稳

设置：把 RLHF 建模为 contextual bandit。proxy reward model 来自 Pythia-70M 在 AlpacaFarm preference 上训练，true reward 使用 AI2 Llama 3 Tulu V2 8B RM，reference policy 是从 Pythia-1.4B fine-tune 的 SFT policy。作者只比较 action-distribution regularization，因为该设置中 action distribution 与 occupancy measure 等价。
指标：true reward model score 和 win rate。
结果：最佳 $\chi^2$ coefficient $0.0008$ 的 score 为 $16.94\pm0.07$ ，最佳 KL coefficient $0.025$ 为 $16.81\pm0.27$ ，reference policy 为 $16.37$ ，无正则为 $9.16\pm0.80$ 。附录 win-rate 中， $\chi^2$ 最佳点 median win rate 为 $52.83$ ，KL 最佳点为 $51.50$ ，且 KL 在不同 coefficient 下波动更大。
解读：在当前 RLHF bandit setting 里， $\chi^2$ action regularization 已经比 KL 更稳。更重要的外推点是：当 LLM agent 变成多轮 MDP 时，论文期望 occupancy measure regularization 的优势更明显。

结果 4：ORPO 近似实现的工程可行性

设置：ORPO 交替收集当前 policy 与 reference policy 轨迹、训练 discriminator、估计 $\chi^2$ 、用 augmented reward 跑 PPO。作者在非 LLM 环境中加入 clipping、trimmed mean 和训练顺序 ablation。
指标：true reward 与训练稳定性。
结果：使用 discriminator 估计 occupancy ratio 可以在多环境中提供有效正则。ablation 显示 discriminator 训练顺序、reward clipping 和 divergence estimate 处理会影响稳定性。
解读：ORPO 是可实现的，但它把 reward hacking 缓解问题转化成了 occupancy ratio estimation 问题。大规模 agent 场景中，ratio estimator 的覆盖、泛化和数值稳定性会成为核心工程问题。

证据链强度评估

强证据

形式化定义和 Theorem 5.1 连接紧密，清楚说明为什么 reference policy 和 occupancy shift 是 reward hacking 的关键变量。
多环境实验覆盖交通、疫情、血糖、RLHF 和 gridworld，说明该定义能解释多类 proxy 失效，适用范围超过单一 toy case。
无正则 baseline 在多个环境中大幅低于 reference policy，reward hacking 现象本身证据强。
RLHF 实验明确区分 proxy RM 和 true RM，并展示无正则 PPO 会显著降低 true RM score。

中等强度证据

ORPO 的 discriminator 近似在小规模环境中有效，但大规模 LLM agent 的 ratio estimation 仍缺少直接实验。
$\chi^2$ 比 KL 更稳的证据在多个环境中出现，但每个环境和指标的胜负并不完全一致；更稳健的表述是 $\chi^2$ 对高 occupancy ratio 区域惩罚更强，经验上常带来更好的真实 reward。
RLHF 结果支持 action-distribution $\chi^2$ 的收益，但由于 contextual bandit 建模，它没有直接检验多轮 LLM agent 的 occupancy regularization。

需要谨慎的推论

真实 reward 在部署中不可观测，论文中的 true reward 多数来自模拟环境或另一个 reward model。实际系统里需要用 held-out human eval、安全评测和行为审计近似验证。
reference policy 的选择很关键。若参考策略本身很弱或带系统性偏差，过强 regularization 会限制改善空间或固化问题。
occupancy measure regularization 可以降低 OOD proxy exploit 风险，但不能保证 proxy 本身覆盖所有价值维度。
ORPO 的 discriminator 若被当前 policy 轨迹分布、采样不足或高维 observation 误导，regularization signal 可能失真。

OpenReview / 审稿意见吸收

Venue status: 当前档案未记录公开 peer-review 状态。
Public reviews: 当前档案未记录可可靠匹配的 OpenReview / ARR / 会议 reviewer comments。
Ratings / confidence: 无公开评分可用于校准。
Reviewer consensus: 暂无。
Main criticisms: 暂无公开 reviewer 质疑可引用；可信度主要由论文、技术报告、项目证据和本地一致性检查决定。
Author response: 暂无公开 rebuttal 记录。
对本文可信度的影响: 按未完成公开审稿吸收处理，结论需要依赖实验设置、baseline 强度、复现证据和跨论文一致性校准。

本地讨论补充

1. 讨论收敛点

本轮初读后把本文定位为本地 reward hacking 线中的“policy optimization distribution control”节点。2501.09620 CRM 在 reward model 训练阶段压低已知 spurious factor 的影响；本篇在 policy optimization 阶段约束策略不要离开 proxy 仍可信的参考分布。
本地讨论进一步澄清了它与常规 RLHF reference KL 的关系：二者同属 reference-policy regularization，都是在提高 proxy reward 的同时限制 actor 偏离 reference。在单轮 RLHF / contextual bandit 设置中，完整回复可视为一次 action，action-distribution KL 和 occupancy regularization 在形式上很接近；本文的新增点在于把正则对象提升为 state-action occupancy measure，并用 $\chi^2$ 更强惩罚 reference policy 很少访问的高 ratio 区域。
概念层面，action distribution 是局部条件分布 $\pi(a|s)$ ，描述 agent 在给定状态 $s$ 下选择各个动作 $a$ 的概率；occupancy measure 是策略与环境交互后形成的访问分布 $\mu_\pi(s,a)$ ，描述 agent 在整条轨迹中以多大频率真的到达某个状态并采取某个动作。前者回答“在这里会怎么选”，后者回答“训练后实际会去哪里并做什么”。
工程测量上，occupancy measure 可以先理解为 rollout 日志里的加权访问计数：用 actor 和 reference 在同一任务分布上各跑很多条轨迹，把每一步的状态-动作 $(s_t,a_t)$ 记下来，并按 $(1-\gamma)\gamma^t$ 或等权方式累计频率。对 LLM agent，原始状态通常是完整 prompt、历史、工具返回和环境状态，直接逐字符串计数不可行，因此需要定义状态抽象 $\phi(s)$ ，例如“读测试文件后修改源码”“运行测试后修改测试”“看到某类报错后提交”等事件/语义桶，再比较 $\hat\mu_\pi(\phi(s),a)$ 与 $\hat\mu_{\pi_{\mathrm{ref}}}(\phi(s),a)$ 的频率或 ratio。
后续讨论把本文重新定位为 2025 年 RLHF / RL safety 中具有“定义性”价值的论文。它的长期价值主要来自统一语言：用 reference policy、correlated proxy、optimization-induced occupancy shift 和 true-reward regression 来描述 reward hacking，让后续 LLM/RLHF、tool-use agent、rule-based verifier 和 reward-model debiasing 工作可以在同一坐标系下比较问题来源与防御层级。
与 tool-use RL 的连接需要单独保留：当前 RLHF 中 prompt 到完整回复可视为一次 action，action distribution regularization 足以近似 occupancy regularization；tool-use agent 的状态包含工具 schema、历史、工具返回、错误恢复和外部环境反馈，同样的 action KL 无法完整约束未来状态访问分布。此时本文的 OM regularization 视角会变得更重要。
与 TIM/VeXact 和 TML 文章的连接是“分布一致性”的不同层面：本文讨论目标层的 reference occupancy，TIM/VeXact 讨论 rollout engine 与 trainer engine 的实现级分布错位，TML 文章讨论 serving kernel 的 batch-invariant determinism。三者都提示 RL post-training 中看似细微的分布变化会改变优化目标或评测结论。

2. 修正后的理解

这篇论文的核心贡献不只是提出一个新 regularizer，更重要的是给 reward hacking 一个可操作坐标系：proxy quality 只在 reference distribution 下有定义，optimization pressure 会把策略推到该定义失效的区域。
ORPO 的收益来源可以理解为控制“策略实际访问哪里”，重点超出“同一状态下选哪个动作”的局部概率约束。多轮 agent 越像真实 MDP，这个区别越重要。
$\chi^2$ 的角色应理解为对高 ratio 区域更敏感的 tail-shift penalty，适合处理少量高 proxy、低真实 reward 的 OOD exploit 区域。

3. 后续复验指标

当前 policy 与 reference policy 的 state / state-action occupancy divergence，而不只记录 per-token KL。
高 proxy、低 true-reward 样本在 reference occupancy 下的 density 或 ratio estimate。
ORPO discriminator 的 calibration、AUC、tail ratio clipping 频率和 divergence estimate 方差。
多轮 tool-use agent 中工具调用历史、工具返回类型、error-recovery state 的 occupancy shift。
reward hacking 评测需要同时报告 proxy reward、true/held-out reward、reference policy performance 和 regularization coefficient sweep。

主要启发

reward hacking 可以被看作“proxy correlation 在优化后的访问分布上失效”。这个表达比单纯说 proxy 错误更可诊断，因为它要求记录 reference distribution、优化后 distribution 和两者差异。
RLHF/RLVR 系统里只看 per-token KL 可能不足以约束 agent 行为。对多轮、工具调用或环境交互任务，应记录 trajectory-level 和 state-level distribution drift。
若使用 learned reward model，最好把 reward-model debiasing 与 policy-level distribution control 组合起来：CRM 处理已知 spurious factor，ORPO 处理优化导致的 OOD state-action shift。
在工程上，ORPO 的重点不只是换一个 penalty，还需要稳定估计 occupancy ratio。ratio estimator、采样覆盖和 tail clipping 会直接影响训练安全性。
对安全评测来说，reference policy 不只是一个 KL anchor，也是定义 proxy 是否合理的经验分布。不同 reference policy 会改变 reward hacking 判定。

局限

理论定理依赖真实 reward 的分析可用性；现实 RLHF 中 true reward 往往只能通过人工评测或另一个 reward model 近似。
ORPO 需要训练 discriminator 估计 occupancy ratio，高维 LLM agent 状态会显著增加估计难度。
RLHF 实验规模较小，使用 Pythia 系列和 reward model 代理真实偏好，不能直接代表现代大模型 RLHF/RLVR。
reference policy 的选择会影响相关性定义、regularization 强度和最终 policy 上限。
$\chi^2$ 对 tail ratio 敏感，优势和数值风险并存；实现上需要 clipping、trimmed mean 或其他稳健估计。
论文主要展示 policy optimization 阶段的缓解，对 reward model 本身的 spurious correlation、judge bias 和 data collection bias 需要结合其他方法处理。

跨论文关系

与 2501.09620 的作者关系：未发现作者重叠。主题上是互补关系，CRM 在 reward model 训练阶段约束 $r_\phi(x,y)$ 对已知 spurious factor $Z$ 的依赖，本文在 policy optimization 阶段约束 $\mu_\pi$ 不要过度偏离 $\mu_{\pi_{\mathrm{ref}}}$ 。
与 2606.04075 的作者关系：未发现作者重叠。主题上二者都研究 RL 如何利用 reward/规则缺口。SocioHack 展示 RL 在社会规则沙盒中寻找制度漏洞；本文提供一种解释框架：规则 reward 在参考行为分布上可能合理，优化后进入相关性失效的区域。
与 2606.00135 的作者关系：未发现作者重叠。方法关系很强：tool-calling RL 的多轮状态和工具反馈会让 action KL 与 occupancy divergence 分离，因此本文的 OM regularization 是后续 agentic RL 安全训练的重要候选方向。
与 2409.19256 的作者关系：未发现作者重叠。系统关系是 ORPO / $\chi^2$ regularization 可以作为 VERL/HybridFlow 类 RLHF 框架中的 policy optimization 组件；框架需要额外支持 reference trajectory sampling、discriminator training 和 occupancy-ratio logging。
与 2605.14220 和 2025-09-10 的作者关系：未发现作者重叠。主题关系是分布一致性。本文关注 reference-policy occupancy shift；TIM/VeXact 与 TML 文章关注 rollout/trainer/inference kernel 造成的实现级分布错位。
与 2501.12948、2503.14476 的作者关系：未发现作者重叠。主题上，rule-based verifier 和 overlong reward shaping 仍可被看作 proxy reward；若 RL 把策略推到 verifier 覆盖不足或格式/长度边界区域，本文的 correlated-proxy 视角可以用于分析 residual reward hacking。
跨论文关系定位：记录 Correlated Proxy Reward Hacking 与 Occupancy Regularization，并连接 CRM、SocioHack、tool-use RL、HybridFlow/VERL、TIM/VeXact 和 TML determinism。

Reference Intake Brief

Target

Intended target system: content/papers/2403.03185-correlated-proxies-reward-hacking.md 论文存档。
Existing related assets: content/utility/papers-index.md、2501.09620-causal-rewards-llm-alignment.md、2606.04075-llms-hack-rewards-and-society.md、2606.00135-agentic-tool-calling-rl-training.md、2409.19256-hybridflow-rlhf-framework.md、2605.14220-training-inference-mismatch-llm-rl.md。
Proposed form: 新建独立 Markdown 文档，并更新总索引。

Reusable Elements

reward hacking 诊断框架：reference policy、proxy correlation、optimization-induced occupancy shift、true reward regression。
RLHF/agent 安全 checklist：proxy reward、held-out true reward、reference policy、per-token KL、state/action occupancy divergence、ratio tail metrics。
ORPO 实现要点：reference trajectory sampling、occupancy discriminator、 $\chi^2$ estimate、augmented reward、PPO integration、clipping 和 trimmed mean。

Risks

Copyright/over-copying: 本笔记使用结构化转述和公式化摘要，未复制长段原文。
Unsourced or unverifiable claims: 作者、版本、项目链接来自 arXiv 页面和论文正文；跨论文关系为本地分析判断。
Tone/brand mismatch: 保持中文技术笔记风格，避免营销化表达。
Safety/compliance issues: 论文涉及 reward hacking，但本文仅记录机制、风险、评测和防御启发，不沉淀可执行滥用流程。
Overlap with existing assets: 与 CRM、SocioHack 都属于 reward hacking；本篇独立贡献是 correlated proxy definition、Theorem 5.1 和 occupancy regularization。

Skipped

Material	Reason
完整 proof 细节	本地档案重点是论文脉络和可复用结论；保留定理表达和推导含义即可。
全部环境 reward 公式	部分环境细节较长，当前只保留 proxy/true reward 关系和实验结论。
全量 coefficient sweep	记录最佳点和趋势；后续若做 ORPO 复现再抽取完整超参表。

Recommendation

Decision: merge

Why: 该论文补齐了本目录中 reward hacking 的形式化定义和 policy-level regularization 节点，并与已有 CRM、SocioHack、tool-use RL、RLHF 系统一致性材料形成明确关系。

Source #

作者与关系 #

阅读目标与判断边界 #

论文脉络 #

1. 问题背景 #

2. 核心定义：correlated proxy 与 reward hacking #

3. Theorem 5.1：从相关性到 occupancy regularization #

4. 为什么是 occupancy measure，为什么偏向 χ2\chi^2χ2 #

5. ORPO：用 discriminator 估计 occupancy ratio #

6. 结论链条 #

关键实验/定理 #

定理 1：correlated proxy 下的真实回报下界 #

结果 1：五类环境中的 reward hacking 与 regularization #

结果 2：occupancy regularization 优于常规 action-distribution regularization #

结果 3：RLHF 中 χ2\chi^2χ2 action regularization 更稳 #

结果 4：ORPO 近似实现的工程可行性 #

证据链强度评估 #

强证据 #

中等强度证据 #

需要谨慎的推论 #

OpenReview / 审稿意见吸收 #

本地讨论补充 #

1. 讨论收敛点 #

2. 修正后的理解 #

3. 后续复验指标 #

主要启发 #

局限 #

跨论文关系 #

Reference Intake Brief #

Target #

Reusable Elements #

Risks #

Skipped #

Recommendation #