2605.31514-age-of-empires-anthropomorphism

If LLMs Have Human Like Attributes, Then So Does Age of Empires II

论文提醒:LLM 在测试里表现出共情、理解、道德判断、焦虑等行为,只能说明它在某个实验条件下产生了相似行为,不能直接推出它拥有这些人类式内在属性。

2026-06-06 v2, 2026 06 01 Source Methodology

Source

作者与关系

  • Adrian de Wynter: Microsoft / The University of York。

关系判断:

  • 这是单作者论文,没有共作者网络可分析。
  • 双重署名显示作者位于产业研究与大学研究之间,论文风格也体现这种交叉:一边讨论 LLM 研究方法论,一边用可构造的计算系统例子支撑哲学论证。
  • 后续跟踪时,可把 Adrian de Wynter 放入“LLM anthropomorphism / methodology / AI philosophy”作者节点,并观察是否与 Microsoft 或 York 相关团队产生连续论文。

一句话结论

论文提醒:LLM 在测试里表现出共情、理解、道德判断、焦虑等行为,只能说明它在某个实验条件下产生了相似行为,不能直接推出它拥有这些人类式内在属性。

论文脉络

作者从 LLM 研究中的拟人化倾向切入。许多论文在研究 theory of mind、心理属性、理解、自我解释、道德判断等主题时,会把 LLM 当成实验中心对象,并在测试设计和结果解释中默认它可能拥有某种人类式属性。作者认为这种默认会影响实验设计、自然语言输出解释和结论边界。

论文随后用一个夸张但有力的反例装置:在《Age of Empires II》中构造逻辑门,并证明理想化版本的 AoE II 具备函数完备和图灵完备性,还实现了一个 1-bit perceptron 来学习 AND。这个例子用于说明:只要一个基底足够能计算,同样的输入输出映射可以被搬到很怪的载体上。若同一个 LLM 的计算过程由游戏里的单位和建筑实现,我们很难自然地说这些单位和建筑拥有共情或焦虑。

由此,作者提出 non-uniqueness:LLM 的某些性质,例如 prompt 到 output 的映射,可以跨基底保留;但人类对这些行为的解释,会强烈受界面、延迟、可见表征和先验期待影响。

方法论论证

作者讨论了接受或拒绝某种心智计算理论时的实验困境:

  • 如果实验前提已经假设系统具有某种广义人类式属性,正结果会循环确认前提。
  • 如果实验得到负结果,失败原因可能来自假设、实验设计、测量方式或分析流程,单凭结果难以拆开。
  • 反向先假设这些属性不存在,也会遇到对称问题。

作者的主张是:广义、基底无关的人类式属性不能靠这类前提驱动的实验稳健测量。更合理的做法是采用 null assumption:先不声明系统是否具有某种人类式属性,只测具体、可观察、实现相关的行为。

文献扫描结果

论文还做了一个小型元分析:

  • 数据来源:Semantic Scholar 查询标题包含 agent llm 的论文,再从 arXiv 拉取全文。
  • 时间范围:2024-05-01 到 2026-05-01。
  • 经 LLM-as-judge 过滤和抽样后得到 315 篇。
  • 57% 的论文在研究 LLM 时假设或归因了人类式属性。
  • 15% 把人类式属性作为中心研究对象。
  • 在 47 篇中心研究里,36 篇得出人类式属性相关结论,约 77%。
  • 8% 给出 emergence 相关结论。

这些数字用于支持“领域中存在拟人化方法论倾向”的判断,但样本、检索词和 LLM 标注都限制了外推范围。

主要启发

  • 研究结论应优先写成“模型在任务 T、提示 P、评分器 J 下产生行为 Y”。
  • 当论文使用理解、共情、意图、自我意识、焦虑等词时,应给出明确操作化定义。
  • 需要区分行为模式和属性归因。行为模式可测,属性归因需要额外理论和证据。
  • UI、延迟、对话式表达、人格化措辞都会改变用户和研究者的解释倾向。
  • 对 AI 安全研究尤其重要:deception、intent、self-awareness 等词应先转化为可验证机制或行为标准。

局限

  • AoE II 构造主要是反例和哲学工具,技术上距离实际 LLM 很远。
  • 论文最强批评对象是“广义、内在、基底无关”的属性声明;对窄范围行为测量的批评较弱。
  • 文献扫描依赖单一检索词和 LLM judge,不构成完整系统综述。
  • 论文没有给出一套完整替代评测协议,但给出了较清晰的写作和解释边界。

可复用结论模板

推荐表述:

  • “模型在该实验设置下表现出与共情评分标准一致的回答。”
  • “该行为可能来自训练分布、提示诱导、界面设计或 reward shaping。”
  • “本文不把该行为解释为模型具有内在共情属性。”

谨慎表述:

  • “模型有共情。”
  • “模型理解了任务。”
  • “模型表现出焦虑/自我意识/真实意图。”

Reference Intake Brief

Target

  • Intended target system: 新增论文笔记 / LLM 方法论与拟人化评测文档。
  • Existing related assets: papers-index.md 将作为总索引。
  • Proposed form: 新建独立 Markdown 文档。

Reusable Elements

  1. LLM 行为测量和人类式属性归因的区分。
  2. non-uniqueness 与 substrate/interface 敏感性。
  3. null assumption 作为评测写作原则。
  4. 文献扫描数字作为领域倾向参考。

Risks

  • Copyright/over-copying: 采用转述和结构化总结。
  • Unsourced or unverifiable claims: 核心事实来自 arXiv 论文和作者提供的 artefacts 链接。
  • Safety/compliance issues: 无直接安全操作风险。

Skipped

Material Reason
AoE II NAND gate 逐步构造细节 对方法论总结价值有限
完整 LLM judge prompt 可复核价值有,但本次目标是论文脉络沉淀
参考文献逐条展开 可在后续做拟人化研究专题时补充

Recommendation

Decision: merge as a new paper note.

Why: 该论文为 LLM 评测写作和拟人化归因提供了清晰的方法论约束,适合作为后续论文分析的判断框架。