If LLMs Have Human Like Attributes, Then So Does Age of Empires II

Source

Title: If LLMs Have Human-Like Attributes, Then So Does Age of Empires II
arXiv: https://arxiv.org/abs/2605.31514
PDF: https://arxiv.org/pdf/2605.31514
Artefacts: https://adewynter.github.io/notes/aoe2-circuits
Author: Adrian de Wynter
Submitted: 2026-05-29
Current version read: v2, 2026-06-01

作者与关系

Adrian de Wynter: Microsoft / The University of York。

论文脉络

作者从 LLM 研究中的拟人化倾向切入。许多论文在研究 theory of mind、心理属性、理解、自我解释、道德判断等主题时，会把 LLM 当成实验中心对象，并在测试设计和结果解释中默认它可能拥有某种人类式属性。作者认为这种默认会影响实验设计、自然语言输出解释和结论边界。

论文随后用一个夸张但有力的反例装置：在《Age of Empires II》中构造逻辑门，并证明理想化版本的 AoE II 具备函数完备和图灵完备性，还实现了一个 1-bit perceptron 来学习 AND。这个例子用于说明：只要一个基底足够能计算，同样的输入输出映射可以被搬到很怪的载体上。若同一个 LLM 的计算过程由游戏里的单位和建筑实现，我们很难自然地说这些单位和建筑拥有共情或焦虑。

由此，作者提出 non-uniqueness：LLM 的某些性质，例如 prompt 到 output 的映射，可以跨基底保留；但人类对这些行为的解释，会强烈受界面、延迟、可见表征和先验期待影响。

方法论论证

作者讨论了接受或拒绝某种心智计算理论时的实验困境：

如果实验前提已经假设系统具有某种广义人类式属性，正结果会循环确认前提。
如果实验得到负结果，失败原因可能来自假设、实验设计、测量方式或分析流程，单凭结果难以拆开。
反向先假设这些属性不存在，也会遇到对称问题。

作者的主张是：广义、基底无关的人类式属性不能靠这类前提驱动的实验稳健测量。更合理的做法是采用 null assumption：先不声明系统是否具有某种人类式属性，只测具体、可观察、实现相关的行为。

文献扫描结果

论文还做了一个小型元分析：

数据来源：Semantic Scholar 查询标题包含 agent llm 的论文，再从 arXiv 拉取全文。
时间范围：2024-05-01 到 2026-05-01。
经 LLM-as-judge 过滤和抽样后得到 315 篇。
57% 的论文在研究 LLM 时假设或归因了人类式属性。
15% 把人类式属性作为中心研究对象。
在 47 篇中心研究里，36 篇得出人类式属性相关结论，约 77%。
8% 给出 emergence 相关结论。

这些数字用于支持“领域中存在拟人化方法论倾向”的判断，但样本、检索词和 LLM 标注都限制了外推范围。

证据链强度评估

强证据

AoE II 反例清晰地区分了“行为相似”与“具有人类式内在属性”两个命题。
文献扫描给出了样本、时间范围、过滤流程和比例结果，能支撑领域中存在拟人化解释倾向的判断。

中等强度证据

315 篇扫描结果可作为方法论趋势信号，但检索词、抽样和 LLM-as-judge 会影响覆盖率。
论文对写作边界的建议实用，主要支撑科学表述规范，不能替代完整心理学或认知科学评测协议。

需要谨慎的推论

AoE II 类比适合指出归因漏洞，不能直接证明所有 LLM 属性研究都无效。
对窄定义、行为层、机制层或可干预变量的属性测量，需要逐项看实验设计。

OpenReview / 审稿意见吸收

Venue status: 当前档案未记录公开 peer-review 状态。
Public reviews: 当前档案未记录可可靠匹配的 OpenReview / ARR / 会议 reviewer comments。
Ratings / confidence: 无公开评分可用于校准。
Reviewer consensus: 暂无。
Main criticisms: 暂无公开 reviewer 质疑可引用；可信度主要由论文、技术报告、项目证据和本地一致性检查决定。
Author response: 暂无公开 rebuttal 记录。
对本文可信度的影响: 按未完成公开审稿吸收处理，结论需要依赖实验设置、baseline 强度、复现证据和跨论文一致性校准。

主要启发

研究结论应优先写成“模型在任务 T、提示 P、评分器 J 下产生行为 Y”。
当论文使用理解、共情、意图、自我意识、焦虑等词时，应给出明确操作化定义。
需要区分行为模式和属性归因。行为模式可测，属性归因需要额外理论和证据。
UI、延迟、对话式表达、人格化措辞都会改变用户和研究者的解释倾向。
对 AI 安全研究尤其重要：deception、intent、self-awareness 等词应先转化为可验证机制或行为标准。

局限

AoE II 构造主要是反例和哲学工具，技术上距离实际 LLM 很远。
论文最强批评对象是“广义、内在、基底无关”的属性声明；对窄范围行为测量的批评较弱。
文献扫描依赖单一检索词和 LLM judge，不构成完整系统综述。
论文没有给出一套完整替代评测协议，但给出了较清晰的写作和解释边界。

可复用结论模板

推荐表述：

“模型在该实验设置下表现出与共情评分标准一致的回答。”
“该行为可能来自训练分布、提示诱导、界面设计或 reward shaping。”
“本文不把该行为解释为模型具有内在共情属性。”

谨慎表述：

“模型有共情。”
“模型理解了任务。”
“模型表现出焦虑/自我意识/真实意图。”

跨论文关系

与 DeepSeek-R1：R1-Zero 的 “aha moment” 容易被解释为人类式顿悟；本文提供方法论边界，应将其写成特定训练与采样条件下出现的可观测 reasoning behavior。
与 SocioHack：SocioHack 研究 RL 模型在制度规则中形成漏洞发现行为；本文提醒将行为、优化机制和意图归因分层，避免把策略结果直接解释为稳定的人类式属性。
与 Batch-Invariant Inference 和 tool-calling RL：两者分别说明 serving 数值路径和 evaluation harness 会改变观测行为，为本文的 interface / substrate sensitivity 提供工程侧实例。

Reference Intake Brief

Target

Intended target system: 新增论文笔记 / LLM 方法论与拟人化评测文档。
Existing related assets: content/utility/papers-index.md 将作为总索引。
Proposed form: 新建独立 Markdown 文档。

Reusable Elements

LLM 行为测量和人类式属性归因的区分。
non-uniqueness 与 substrate/interface 敏感性。
null assumption 作为评测写作原则。
文献扫描数字作为领域倾向参考。

Risks

Copyright/over-copying: 采用转述和结构化总结。
Unsourced or unverifiable claims: 核心事实来自 arXiv 论文和作者提供的 artefacts 链接。
Safety/compliance issues: 无直接安全操作风险。

Skipped

Material	Reason
AoE II NAND gate 逐步构造细节	对方法论总结价值有限
完整 LLM judge prompt	可复核价值有，但本次目标是论文脉络沉淀
参考文献逐条展开	可在后续做拟人化研究专题时补充

Recommendation

Decision: merge as a new paper note.

Why: 该论文为 LLM 评测写作和拟人化归因提供了清晰的方法论约束，适合作为后续论文分析的判断框架。

Source #

作者与关系 #

论文脉络 #

方法论论证 #

文献扫描结果 #

证据链强度评估 #

强证据 #

中等强度证据 #

需要谨慎的推论 #

OpenReview / 审稿意见吸收 #

主要启发 #

局限 #

可复用结论模板 #

跨论文关系 #

Reference Intake Brief #

Target #

Reusable Elements #

Risks #

Skipped #

Recommendation #