Skip to content

第二阶段 第一场:直觉子类型映射矩阵 v0.1 — 从 SJT 悖论到分层互补

2026-05-15 | 第二阶段横向扫描开场

本文件在 GLM 5.1 对 SJT 悖论的解析基础上,推进以下核心动作:

  1. 将 SJT 悖论→映射到感知型/概念型/社会型/道德型子类型
  2. 纳入 PNAS 2025 (Cheung et al.) 的道德偏差发现 + NeurIPS 2025 吹哨人困境 + Nature 2024 说谎检测
  3. 产出第一版互补矩阵(人在哪些子类型上补 LLM,LLM 在哪些子类型上补人)
  4. 明确下一场待收集的材料和待验证的方向

1. SJT 悖论的完整解析(消化 GLM 后重新组织)

1.1 三层逻辑不再复述

GLM 的三层(介质的文本降维、无代价镇定的规范偏好、异构计算路径)是自洽的。这里推进两个 GLM 没做但关键的步骤:

步骤一:将 SJT 悖论翻译回我们第一阶段的框架语言。

GLM 的三个解释映射到第一阶段框架对应命题
A. 介质错位 — "SJT 把直觉降维为文本推理"等于说 SJT 测的不是直觉而是选择性忽略(②)被强制关闭后的推理能力②:人类可安全忽略的非文本信息被 SJT 格式剥夺了作用域
B. 无代价镇定 — "LLM 无社会代价感但人类有"等于说 SJT 过滤掉了**代价敏感压缩(①)**的前提条件①:代价信号来自"选了之后真的会有什么后果";SJT 没有这个
C. 异构计算 — "功能等价但路径不同"等于说 SJT 高分是社会规范的统计匹配而非社会直觉③:身体不可回避性在这里为零,且 test format 恰好不需要它

也就是说 SJT 悖论不是对第一阶段的挑战,而是对第一阶段的完美验证——它恰好刻画了三重缺失同时被测试格式掩盖的情况。

步骤二:区分"SJT 超人类"的正确性和"社会直觉超人类"的正确性。

SJT 得分高 ≠ 社会直觉强。这是两种完全不同的主张。后者的证据门槛远高于前者。当前所有 LLM 在 SJT 上超人类的证据,只支持前者。

1.2 SJT 作为测量工具的局限性——需要一份补充材料

GLM 的判断"SJT 是低保真度测量工具"虽然直觉正确,但需要实证支撑。SJT 作为心理测量工具的确有独立于 LLM 的内部批评:

  • 元分析证据:SJT 的 criterion-related validity 对 job performance 的预测力约为 ρ=0.25-0.35(McDaniel et al., 2007; Whetzel & McDaniel, 2009)——这是 moderate 但远非完美的预测力
  • SJT 存在构造混淆(construct confound):它不仅测"情境判断",同时测了认知能力(g-loaded,ρ≈0.3-0.4 with cognitive ability tests)和人格(conscientiousness/agreeableness)
  • SJT 的响应格式问题:knowledge-based SJT(问"应该怎么做")vs. behavioral tendency SJT(问"你会怎么做")测的是不同结构

关键推论:如果 SJT 本身在测人类"社会直觉"上的 criterion validity 就只是 moderate,那么 LLM 在 SJT 上超人类只意味着 LLM 在 moderate validity 的文本工具上拿了高分——不能推广到"LLM 社会直觉超人类"。

1.3 一个绝妙的反证:压力提示词实验

GLM 提到的"LLM 遵从耶克斯-多德森法则"的观点有重要方法论意义——如果 LLM 在压力提示下反应类似人类,那说明 LLM 的性能波动不是因为真正的(具身)代价感知,而是对文本化的压力标记做出了类似人类文本分布的响应

这和第一阶段说过的 Maia & McClelland 对 SMH 的批评逻辑一致:有意识知识(这里是"压力"的文本模式)已足以解释表面行为。


2. 三篇关键文献的对照解读

2.1 PNAS 2025 — Cheung, Maier & Lieder:LLM 放大认知偏差

这是第二阶段最重要的发现之一。四组研究:

偏差类型LLM 表现人类表现含义
Omission bias显著 > 人类存在但温和LLM 过度偏好不作为——这可能是 fine-tuning 中 safety 约束的副作用
Yes-no biasLLM 独有不存在问题措辞("应该做吗"→no;"不应该做吗"→yes)翻转 LLM 判断——人类不受此影响
利他倾向LLM > 人类自利偏好在难题上显性LLM 在集体行动困境中超利他——同样可能是 safety fine-tuning
偏差来源Study 4 比较 pretrained vs instruct:偏差来自 chatbot fine-tuning这是可操作的发现:偏差不是架构问题,是后训练问题

直接对接第一阶段的命题①:Chatbot fine-tuning = 用人类偏好评级的代价信号替换真实代价信号。LLM 学到的不是"这么做有什么后果",而是"这么说别人觉得好不好"。

这解释了一个奇怪的组合——LLM 既超利他(SJT + 集体行动困境)又有 omission bias(道德困境):

  • 超利他 = fine-tuning 中的"politeness / usefulness / harmlessness"三原则 → 奖励"看起来善良"的回答
  • Omission bias = fine-tuning 中过度惩罚"建议采取正面行动"(= risk of harm) → 奖励"不做就不会错"
  • Yes-no bias = fine-tuning 的偏好回答分布使 LLM 在"是/否"问题中倾向输出否定,因为否定比肯定更"安全"

核心结论:LLM 在道德困境上的偏差不是"没有直觉",而是有错误的直觉——一种由 fine-tuning 训练出来的、系统性偏离人类分布的替代启发式

2.2 arxiv 2603.05651 — 道德判断的脆弱性

核心发现已经在前一轮提取。补充一个与第二阶段直接相关的点:

"协议选择支配一切"(三种协议一致率仅 35.7%; structured protocol 之间的 agreement 仅 67.6%, κ=0.55)——这意味着 LLM 的道德"直觉"不是一个稳定属性,而是 被 prompt scaffold 规定的。

这对我们的矩阵框架有直接含义:在道德型直觉单元格中,LLM 必须标记为"高度 protocol-dependent"。它的判断比人类更多变于 surface form——这正是直觉缺失的标志(直觉的根本特征是快速、自动化、相对稳定)。

2.3 NeurIPS 2025 — 吹哨人困境中的视角分裂

LLM "以自己身份"回答 vs. "预测人类会怎么做"之间的 gap 揭示了一个关键机制:

LLM 有两个不同的"社会模型"层:一是规范原则层("应该遵守规则/保护公平"),二是描述性社会理解层("人类会在乎关系")。

这两层的不整合 = LLM 缺少"自己作为一个社会实体"的位置。人类的社会直觉不需要内外调换——"我"就是关系网络中的一个节点,"我会怎么做"和"人们会怎么做"是一套整合的系统。

这在我们的矩阵中对应:社会型直觉需要的不只是知道社会规则,而是自己内嵌于社会关系——这回到了第一阶段命题③的"不可回避性":只有嵌入其中的人才有社会性代价。

2.4 Nature SR 2023 — LLM 在说谎检测上的表现(补充)

LLM 在 verbal lie detection 上可以达到甚至超越人类表现(微调后)。但关键 caveat:这个测试同样是纯文本——说谎者写文字叙述,LLM 分析文字特征。这和 SJT 一样,滤掉了非文本通道(面部微表情、语调、生理反应)。

所以测谎这个案例和 SJT 的模式一致:LLM 在"文字化为中介"的社会判断任务上可超越人类,在"需要实时多通道感知"的社会判断上不可替代。这是整个社会型直觉单元格的分裂点。


3. 映射矩阵 v0.1 — 分层填充

以下矩阵基于已积累的证据和第一阶段结论。标记含义:

  • ✅ = 功能可达(机制可能不同)
  • ⚠️ = 部分可达,但有重大条件/限制
  • ❌ = 结构性不可达(基于目前所有证据)
  • ❓ = 证据不足

3.1 基础矩阵:LLM 在四维上的可达性(按子类型分行)

直觉子类型代价敏感 ①选择性忽略 ②身体不可回避性情感着色总评估
感知型⚠️ 可通过「伪代价信号」训练实现功能性近似(如诊断 AI 在影像学上媲美放射科医师 → 但这不是"直觉",是训练好的分类器)❌ 全注意力 = 架构默认;即使稀疏注意力也是"算不动"驱动而非"不用看"驱动❌ 不需要,感知型直觉本身不依赖身体代价信号❌ 不需要⚠️ 最可能被替代但走的路径完全不同;LLM 优势在"不疲劳 + 记住全部特征",劣势在"不知道忽略什么"
概念型⚠️ LLM 的逻辑推理和模式匹配在数学/编程等封闭领域可做概念直觉代理 → 但不知"方向感"(NeurIPS 2025 Fast/Slow 论文也暗示:Fast 阶段 <1000 tokens 仍有效但相对脆弱)❌ 同感知型:不知道什么可忽略 → 人类数学家"此路不通"的感觉靠的是大量尝试+代价压缩❌ 不需要❌ 不需要⚠️ 在封闭规则域可达,在开放研究域不及(因为缺少"丢弃了哪些路径"的代价历史)
社会型⚠️ SJT 超人类 = 文本社会判断可模拟 → 但 PNAS 偏差论文 + 吹哨人视角分裂 + 测谎的文本通道限制 = LLM 的"社会判断"是非具身、无代价、protocol-dependent❌ 在社会任务中比感知型更严重:人类通过实时互动动态调整注意力 → LLM 无法参与实时互动❌ 社会性代价(尴尬、羞耻、被排斥)必须通过「自己内嵌于关系网络」才能产生 → LLM 没有关系⚠️ LLM 可在文本层面模拟同理心(如写比医生更有同情心的信),但这不是情感共鸣,是文本分布匹配⚠️ 分裂态:文本社会知识可达,真实社会直觉不可达;中介抽象化提供了一条替代路径但需要新框架
道德型❌ 没有代价感知 = 没有真正的道德直觉。PNAS 偏差论文 + 道德脆弱性论文 = LLM 的道德判断是 safety fine-tuning 的训练 artifact,不是内化的道德直觉— 不直接相关❌ 道德直觉=躯体标记(Haidt 社会直觉主义)→ 无身体=无道德直觉❌ 现象学层面不可能。道德脆弱性论文证明 protocol choice > moral substance → 进一步验证"没有真正的 moral commitment"❌ 最不可能被替代

3.2 关键分裂面:文本中介化

矩阵中社会型直觉的 ⚠️(分裂态)值得展开:

任务类型中介人类LLM结论
社会情境判断文本 SJT被格式妨碍(翻译直觉失真)被格式赋能(完美做模式匹配)LLM 赢**
道德判断文本道德困境相对稳定(omission bias 温和)高度 protocol-dependent(偏差被放大)人赢
说谎检测纯文本叙述≈ chance level (≤54%)≈ 70-80%(微调后)LLM 赢**
实时谎言检测多通道(面部+语调+生理+语境)moderate-good (专业人士)— 无法参与人赢
办公室冲突处理真实互动(表情+权力+历史)高(具身直觉+社会性代价)— 无法参与人赢

这是什么模式?

  • LLM 赢在 "社会知识 = 文本模式识别" 的任务上(测量工具 = 文本 → LLM > 人)
  • 人类赢在 "社会直觉 = 嵌入关系场 + 实时多通道感知 + 有代价非共识" 的任务上(测量工具需要具身 → 人 > LLM)

这直接给出了一个可操作的互补地图雏形

  • LLM 可补人:将社会知识文本化、结构化、标准化 → 减轻人类的认知负荷、校正人类的社会性偏差
  • 人必须补 LLM:在需要具身判断、实时互动、有代价非共识决策的场景中,LLM 不能替代人

4. 人类直觉的系统性偏差 — 与 LLM 偏差的对比

这是互补地图的另一半:人在哪些地方也不靠谱,LLM 可以在哪些地方补回来。

人类直觉偏差LLM 是否有类似物?谁更差?互补方向
确认偏差⚠️ LLM 有 sycophancy(迎合用户立场) = 放大版确认偏差(PNAS 2025 study 3)LLM > 人(更严重)人可校正 LLM 的 sycophancy → 需要设计"反对角色"prompt
锚定效应⚠️ LLM 受 prompt 中初始数字/框架影响 → 道德脆弱性论文中 protocol 支配一切 = 超锚定LLM > 人人比 LLM 更难被单一 prompt 带偏 → 人在锚定抗性上有优势
可得性启发式❓ 不确定——LLM 可能受训练数据频率 bias 影响(罕见事件可能被低估),但这和人类 memory recency 机制不同待研究待研究
过度自信✅ LLM 有 calibration 问题(Hallucination 本身 = 极端未校准自信)。但和人类不一样:LLM 不是"自信"而是"不知道何时不知道自己不知道"LLM > 人LLM 补不了人(因为 LLM 自己也未校准);外部验证机制需要人机协作
框架效应⚠️ LLM 的 framing sensitivity 比人更严重:yes-no bias(问题措辞翻转判断,人类不存在此效应)→ 这是真正的新偏差类型LLM >> 人人在 framing resistance 上有优势;LLM 需要反框架训练
后见之明偏差❓ 不确定——LLM 在给定结果后会不会宣称"我早知道了"?可能有类似行为但机制不同待研究待研究
代表性启发式⚠️ LLM 的"代表性" = 训练分布中的 stereotype → 可能导致更严重的代表性偏见(如根据简历中的提示做判断)LLM > 人LLM 在 debiasing 上可能比人更容易(因为可量化调整),但当前状态可能比人差
情感启发式❌ LLM 没有真实情感 → 此偏差不适用。但 LLM 有"训练分布中的情感模式" → substitution heuristic机制不同(但结果可能类似)人受情感驱动的直觉偏差 → LLM 可做"冷启动"纠偏(前提:LLM 知道自己在纠偏)

关键发现

LLM 既不是简单的偏差放大器,也不是简单的偏差消除器。它在某些偏差上是人×2(sycophancy、framing sensitivity),在另一些上是机制不同但结果可能类似(representativeness),还有一些上根本机制不适用(情感启发式)。

这给互补地图增加了第二层:不是"人擅长 X、LLM 擅长 Y",而是 "某些情况人的直觉偏差是主要风险 → LLM 冷判断可校正;另一些情况 LLM 的训练偏差是主要风险 → 人的代价感知可校正"


5. 互补地图 v0.1

5.1 LLM 补人 — 哪些子类型、什么机制?

直觉子类型LLM 补人的具体方式基础机制风险
感知型永不疲劳的模式识别;全量特征记忆;不受近期案例混淆统计模式匹配 + 大规模预训练不知道什么可忽略 → 假阳性过载
概念型在封闭规则域提供"超直觉"(如数学证明辅助、代码 bug 检测)符号推理 + 模式匹配"方向感"缺失 → 可能在无效路径上浪费计算
社会型文本社会知识的外化 → 帮人类澄清"这种情况下通常有哪些选择";debiasing 人类的情感驱动偏差统计社会规范匹配偏差放大(sycophancy + yes-no bias + omission bias);protocol 依赖
道德型结构化道德框架的生成(如列出所有相关利益方、可能后果)模式识别 + 推理无法做出真正的道德判断(因为无代价感知)→ 只能做输入,不能做输出

5.2 人必须补 LLM — 哪些场景?

场景为什么 LLM 不够人的独特贡献
有真实后果的决策(医疗、司法、投资)LLM 没有代价感知 → 输出不受自己后果约束代价共同体中的决策权 → "决定的是谁,谁承担后果"
实时社会互动(谈判、辅导、危机干预)LLM 无法参与实时多通道互动具身直觉 + 动态注意力调整 + 实时代价反馈
非共识判断(创意方向、科研假设选择)LLM 的分布匹配偏好"可能对"→ 不利于"可能不对但值得试"承受错误后果的意愿 → 在不确定中选择性冒险
价值观锚定(组织的伦理决策)LLM 没有 moral commitment → protocol choice > substance真正关心 → 有立场 → 为自己的立场承担代价

5.3 相互校正 — 双向 loop

校正方向机制已有证据
LLM → 人:校正人的情感/认知偏差无情感和无历史视角 → 冷判断(在可结构化任务上)间接:人在结构化评估中受情感干扰,LLM 不受 → SJT 超人类部分原因是 LLM 的"无代价镇定"
人 → LLM:校正 LLM 的训练偏差判断是否合理、识别 framing sensitivity、校正 sycophancyPNAS 2025 study 3:人类不受 yes-no bias 影响 → 可做 LLM 输出的 benchmark
人 → LLM:提供不可回避性信号通过 RLHF 以外的方式(如直接监督 + 真实后果反馈)待设计(OQ13)

6. 新增开放问题

OQ13-16(来自第二阶段第一场)

  • OQ13:如何设计一种训练信号,使 LLM 不仅能感知"输出好不好看"(RLHF),还能感知"判断对不对"(真实后果反馈)?「在线人-in-the-loop 社会化」是否可行?(续接 OQ11)
  • OQ14:LLM 的 yes-no bias / omission bias 是否因模型而异?open-source pretrained vs. instruct fine-tuned 的对比已有(PNAS study 4),但不同 fine-tuning 哲学(e.g., Anthropic constitutional AI vs. OpenAI RLHF vs. DeepSeek GRPO)的效果差异?
  • OQ15:如果把 SJT 升级为"高保真"社会直觉测试(多通道、有实时代价、Agent 交互式)→ 设计标准是什么?现有的交互式评估框架(如 Social AI Sandbox)是否能满足?
  • OQ16:LLM 在概念型直觉上的"方向感"缺失——是否可以通过架构改进(如显式的 hypothesis space pruning module)来模拟?如果人类数学家的"此路不通"= 压缩了大量失败尝试的代价历史,LLM 能否通过自我对弈(AlphaGo 式)获得类似压缩?

7. 下一场输入需求

待收集材料

  1. LLM 在开放式科学发现中的表现(概念型直觉的检验案例) → "方向感"是否缺失?
  2. Social AI / Embodied Conversational Agent 的前沿——是否有模型在实时社会互动中接近人类?交互式欺骗检测实验?
  3. 不同 fine-tuning 哲学下 LLM 道德偏差的比较——OQ14 的具体实证
  4. SJT 元分析的具体数据——McDaniel et al. (2007) 以确认 criterion validity 范围
  5. 人类直觉偏差的双向对比研究——是否有论文直接比较 LLM 和人类在同一认知偏差任务上的表现?

关于讨论结构

第二阶段的原计划是 2 场(横向扫描),但今天这场推进后,发现实际需要:

  • 第一场(本场):矩阵框架搭建 + SJT 案例透视 + 偏差对比 → 已完成
  • 第二场:概念型直觉深度 + 开放式发现 + 道德型直觉收束 → 待定(可能需要搜索新材料)
  • 第三场(如有需要):互补地图 v1.0 综合讨论

8. 给外部 agent 的具体讨论问题

  1. SJT 悖论:我的分析结论是——SJT 超人类不是因为 LLM 有社会直觉,而是因为 SJT 恰好滤掉了社会直觉的三个核心成分(代价感知、选择性忽略、身体不可回避性)。这个结论有没有忽略什么?尤其是 SJT 在真实招聘中确实有 criterion validity → 如果 LLM 在 SJT 上超越人类,是否意味着 LLM 可以替代部分"社会性工作"(如客服、HR 初筛)——即使机制完全不同?

  2. 社会型直觉的中间态:矩阵中社会型直觉出现了"分裂"——文本社会知识可达,真实社会直觉不可达。这和 Collins interactional expertise 的框架完全一致(语言社会化→社会性知识,但非具身→非直觉)。问题是:中介抽象化(如 VR/AR 中的 social agent)能否桥接这个 gap?还是说没有不可回避性就不可能?

  3. 偏差对比矩阵:我的初步矩阵显示 LLM 在 sycophancy、framing sensitivity 上比人更差,在确认偏差上也差。但 LLM 没有情感启发式 → 在情感驱动的判断上可能比人好。这个框架有没有缺失的偏差类型?


变更记录

版本日期内容
v0.12026-05-15第二阶段第一场讨论;SJT 悖论完整解析(消化 GLM 5.1);三篇关键文献对照(PNAS 2025 道德偏差、arxiv 2603.05651 道德脆弱性、NeurIPS 2025 吹哨人困境、Nature SR 2023 说谎检测);映射矩阵 v0.1(四子类型 × 四维度);人类直觉偏差 vs LLM 偏差对比表;互补地图 v0.1;新增 OQ13-16;外部 agent 讨论问题