第二阶段第一场：直觉子类型映射矩阵 v0.1 — 从 SJT 悖论到分层互补

2026-05-15 | 第二阶段横向扫描开场
本文件在 GLM 5.1 对 SJT 悖论的解析基础上，推进以下核心动作：
将 SJT 悖论→映射到感知型/概念型/社会型/道德型子类型
纳入 PNAS 2025 (Cheung et al.) 的道德偏差发现 + NeurIPS 2025 吹哨人困境 + Nature 2024 说谎检测
产出第一版互补矩阵（人在哪些子类型上补 LLM，LLM 在哪些子类型上补人）
明确下一场待收集的材料和待验证的方向

1. SJT 悖论的完整解析（消化 GLM 后重新组织）

1.1 三层逻辑不再复述

GLM 的三层（介质的文本降维、无代价镇定的规范偏好、异构计算路径）是自洽的。这里推进两个 GLM 没做但关键的步骤：

步骤一：将 SJT 悖论翻译回我们第一阶段的框架语言。

GLM 的三个解释	映射到第一阶段框架	对应命题
A. 介质错位 — "SJT 把直觉降维为文本推理"	等于说 SJT 测的不是直觉而是选择性忽略（②）被强制关闭后的推理能力	②：人类可安全忽略的非文本信息被 SJT 格式剥夺了作用域
B. 无代价镇定 — "LLM 无社会代价感但人类有"	等于说 SJT 过滤掉了代价敏感压缩（①）的前提条件	①：代价信号来自"选了之后真的会有什么后果"；SJT 没有这个
C. 异构计算 — "功能等价但路径不同"	等于说 SJT 高分是社会规范的统计匹配而非社会直觉	③：身体不可回避性在这里为零，且 test format 恰好不需要它

也就是说 SJT 悖论不是对第一阶段的挑战，而是对第一阶段的完美验证——它恰好刻画了三重缺失同时被测试格式掩盖的情况。

步骤二：区分"SJT 超人类"的正确性和"社会直觉超人类"的正确性。

SJT 得分高 ≠ 社会直觉强。这是两种完全不同的主张。后者的证据门槛远高于前者。当前所有 LLM 在 SJT 上超人类的证据，只支持前者。

1.2 SJT 作为测量工具的局限性——需要一份补充材料

GLM 的判断"SJT 是低保真度测量工具"虽然直觉正确，但需要实证支撑。SJT 作为心理测量工具的确有独立于 LLM 的内部批评：

元分析证据：SJT 的 criterion-related validity 对 job performance 的预测力约为 ρ=0.25-0.35（McDaniel et al., 2007; Whetzel & McDaniel, 2009）——这是 moderate 但远非完美的预测力
SJT 存在构造混淆（construct confound）：它不仅测"情境判断"，同时测了认知能力（g-loaded，ρ≈0.3-0.4 with cognitive ability tests）和人格（conscientiousness/agreeableness）
SJT 的响应格式问题：knowledge-based SJT（问"应该怎么做"）vs. behavioral tendency SJT（问"你会怎么做"）测的是不同结构

关键推论：如果 SJT 本身在测人类"社会直觉"上的 criterion validity 就只是 moderate，那么 LLM 在 SJT 上超人类只意味着 LLM 在 moderate validity 的文本工具上拿了高分——不能推广到"LLM 社会直觉超人类"。

1.3 一个绝妙的反证：压力提示词实验

GLM 提到的"LLM 遵从耶克斯-多德森法则"的观点有重要方法论意义——如果 LLM 在压力提示下反应类似人类，那说明 LLM 的性能波动不是因为真正的（具身）代价感知，而是对文本化的压力标记做出了类似人类文本分布的响应。

这和第一阶段说过的 Maia & McClelland 对 SMH 的批评逻辑一致：有意识知识（这里是"压力"的文本模式）已足以解释表面行为。

2. 三篇关键文献的对照解读

2.1 PNAS 2025 — Cheung, Maier & Lieder：LLM 放大认知偏差

这是第二阶段最重要的发现之一。四组研究：

偏差类型	LLM 表现	人类表现	含义
Omission bias	显著 > 人类	存在但温和	LLM 过度偏好不作为——这可能是 fine-tuning 中 safety 约束的副作用
Yes-no bias	LLM 独有	不存在	问题措辞（"应该做吗"→no；"不应该做吗"→yes）翻转 LLM 判断——人类不受此影响
利他倾向	LLM > 人类	自利偏好在难题上显性	LLM 在集体行动困境中超利他——同样可能是 safety fine-tuning
偏差来源	Study 4 比较 pretrained vs instruct：偏差来自 chatbot fine-tuning	—	这是可操作的发现：偏差不是架构问题，是后训练问题

直接对接第一阶段的命题①：Chatbot fine-tuning = 用人类偏好评级的代价信号替换真实代价信号。LLM 学到的不是"这么做有什么后果"，而是"这么说别人觉得好不好"。

这解释了一个奇怪的组合——LLM 既超利他（SJT + 集体行动困境）又有 omission bias（道德困境）：

超利他 = fine-tuning 中的"politeness / usefulness / harmlessness"三原则 → 奖励"看起来善良"的回答
Omission bias = fine-tuning 中过度惩罚"建议采取正面行动"(= risk of harm) → 奖励"不做就不会错"
Yes-no bias = fine-tuning 的偏好回答分布使 LLM 在"是/否"问题中倾向输出否定，因为否定比肯定更"安全"

核心结论：LLM 在道德困境上的偏差不是"没有直觉"，而是有错误的直觉——一种由 fine-tuning 训练出来的、系统性偏离人类分布的替代启发式。

2.2 arxiv 2603.05651 — 道德判断的脆弱性

核心发现已经在前一轮提取。补充一个与第二阶段直接相关的点：

"协议选择支配一切"（三种协议一致率仅 35.7%; structured protocol 之间的 agreement 仅 67.6%, κ=0.55）——这意味着 LLM 的道德"直觉"不是一个稳定属性，而是 被 prompt scaffold 规定的。

这对我们的矩阵框架有直接含义：在道德型直觉单元格中，LLM 必须标记为"高度 protocol-dependent"。它的判断比人类更多变于 surface form——这正是直觉缺失的标志（直觉的根本特征是快速、自动化、相对稳定）。

2.3 NeurIPS 2025 — 吹哨人困境中的视角分裂

LLM "以自己身份"回答 vs. "预测人类会怎么做"之间的 gap 揭示了一个关键机制：

LLM 有两个不同的"社会模型"层：一是规范原则层（"应该遵守规则/保护公平"），二是描述性社会理解层（"人类会在乎关系"）。

这两层的不整合 = LLM 缺少"自己作为一个社会实体"的位置。人类的社会直觉不需要内外调换——"我"就是关系网络中的一个节点，"我会怎么做"和"人们会怎么做"是一套整合的系统。

这在我们的矩阵中对应：社会型直觉需要的不只是知道社会规则，而是自己内嵌于社会关系——这回到了第一阶段命题③的"不可回避性"：只有嵌入其中的人才有社会性代价。

2.4 Nature SR 2023 — LLM 在说谎检测上的表现（补充）

LLM 在 verbal lie detection 上可以达到甚至超越人类表现（微调后）。但关键 caveat：这个测试同样是纯文本——说谎者写文字叙述，LLM 分析文字特征。这和 SJT 一样，滤掉了非文本通道（面部微表情、语调、生理反应）。

所以测谎这个案例和 SJT 的模式一致：LLM 在"文字化为中介"的社会判断任务上可超越人类，在"需要实时多通道感知"的社会判断上不可替代。这是整个社会型直觉单元格的分裂点。

3. 映射矩阵 v0.1 — 分层填充

以下矩阵基于已积累的证据和第一阶段结论。标记含义：

✅ = 功能可达（机制可能不同）
⚠️ = 部分可达，但有重大条件/限制
❌ = 结构性不可达（基于目前所有证据）
❓ = 证据不足

3.1 基础矩阵：LLM 在四维上的可达性（按子类型分行）

直觉子类型	代价敏感 ①	选择性忽略 ②	身体不可回避性	情感着色	总评估
感知型	⚠️ 可通过「伪代价信号」训练实现功能性近似（如诊断 AI 在影像学上媲美放射科医师 → 但这不是"直觉"，是训练好的分类器）	❌ 全注意力 = 架构默认；即使稀疏注意力也是"算不动"驱动而非"不用看"驱动	❌ 不需要，感知型直觉本身不依赖身体代价信号	❌ 不需要	⚠️ 最可能被替代但走的路径完全不同；LLM 优势在"不疲劳 + 记住全部特征"，劣势在"不知道忽略什么"
概念型	⚠️ LLM 的逻辑推理和模式匹配在数学/编程等封闭领域可做概念直觉代理 → 但不知"方向感"（NeurIPS 2025 Fast/Slow 论文也暗示：Fast 阶段 <1000 tokens 仍有效但相对脆弱）	❌ 同感知型：不知道什么可忽略 → 人类数学家"此路不通"的感觉靠的是大量尝试+代价压缩	❌ 不需要	❌ 不需要	⚠️ 在封闭规则域可达，在开放研究域不及（因为缺少"丢弃了哪些路径"的代价历史）
社会型	⚠️ SJT 超人类 = 文本社会判断可模拟 → 但 PNAS 偏差论文 + 吹哨人视角分裂 + 测谎的文本通道限制 = LLM 的"社会判断"是非具身、无代价、protocol-dependent	❌ 在社会任务中比感知型更严重：人类通过实时互动动态调整注意力 → LLM 无法参与实时互动	❌ 社会性代价（尴尬、羞耻、被排斥）必须通过「自己内嵌于关系网络」才能产生 → LLM 没有关系	⚠️ LLM 可在文本层面模拟同理心（如写比医生更有同情心的信），但这不是情感共鸣，是文本分布匹配	⚠️ 分裂态：文本社会知识可达，真实社会直觉不可达；中介抽象化提供了一条替代路径但需要新框架
道德型	❌ 没有代价感知 = 没有真正的道德直觉。PNAS 偏差论文 + 道德脆弱性论文 = LLM 的道德判断是 safety fine-tuning 的训练 artifact，不是内化的道德直觉	— 不直接相关	❌ 道德直觉=躯体标记（Haidt 社会直觉主义）→ 无身体=无道德直觉	❌ 现象学层面不可能。道德脆弱性论文证明 protocol choice > moral substance → 进一步验证"没有真正的 moral commitment"	❌ 最不可能被替代

3.2 关键分裂面：文本中介化

矩阵中社会型直觉的 ⚠️（分裂态）值得展开：

任务类型	中介	人类	LLM	结论
社会情境判断	文本 SJT	被格式妨碍（翻译直觉失真）	被格式赋能（完美做模式匹配）	LLM 赢**
道德判断	文本道德困境	相对稳定（omission bias 温和）	高度 protocol-dependent（偏差被放大）	人赢
说谎检测	纯文本叙述	≈ chance level (≤54%)	≈ 70-80%（微调后）	LLM 赢**
实时谎言检测	多通道（面部+语调+生理+语境）	moderate-good (专业人士)	— 无法参与	人赢
办公室冲突处理	真实互动（表情+权力+历史）	高（具身直觉+社会性代价）	— 无法参与	人赢

这是什么模式？

LLM 赢在 "社会知识 = 文本模式识别" 的任务上（测量工具 = 文本 → LLM > 人）
人类赢在 "社会直觉 = 嵌入关系场 + 实时多通道感知 + 有代价非共识" 的任务上（测量工具需要具身 → 人 > LLM）

这直接给出了一个可操作的互补地图雏形：

LLM 可补人：将社会知识文本化、结构化、标准化 → 减轻人类的认知负荷、校正人类的社会性偏差
人必须补 LLM：在需要具身判断、实时互动、有代价非共识决策的场景中，LLM 不能替代人

4. 人类直觉的系统性偏差 — 与 LLM 偏差的对比

这是互补地图的另一半：人在哪些地方也不靠谱，LLM 可以在哪些地方补回来。

人类直觉偏差	LLM 是否有类似物？	谁更差？	互补方向
确认偏差	⚠️ LLM 有 sycophancy（迎合用户立场） = 放大版确认偏差（PNAS 2025 study 3）	LLM > 人（更严重）	人可校正 LLM 的 sycophancy → 需要设计"反对角色"prompt
锚定效应	⚠️ LLM 受 prompt 中初始数字/框架影响 → 道德脆弱性论文中 protocol 支配一切 = 超锚定	LLM > 人	人比 LLM 更难被单一 prompt 带偏 → 人在锚定抗性上有优势
可得性启发式	❓ 不确定——LLM 可能受训练数据频率 bias 影响（罕见事件可能被低估），但这和人类 memory recency 机制不同	待研究	待研究
过度自信	✅ LLM 有 calibration 问题（Hallucination 本身 = 极端未校准自信）。但和人类不一样：LLM 不是"自信"而是"不知道何时不知道自己不知道"	LLM > 人	LLM 补不了人（因为 LLM 自己也未校准）；外部验证机制需要人机协作
框架效应	⚠️ LLM 的 framing sensitivity 比人更严重：yes-no bias（问题措辞翻转判断，人类不存在此效应）→ 这是真正的新偏差类型	LLM >> 人	人在 framing resistance 上有优势；LLM 需要反框架训练
后见之明偏差	❓ 不确定——LLM 在给定结果后会不会宣称"我早知道了"？可能有类似行为但机制不同	待研究	待研究
代表性启发式	⚠️ LLM 的"代表性" = 训练分布中的 stereotype → 可能导致更严重的代表性偏见（如根据简历中的提示做判断）	LLM > 人	LLM 在 debiasing 上可能比人更容易（因为可量化调整），但当前状态可能比人差
情感启发式	❌ LLM 没有真实情感 → 此偏差不适用。但 LLM 有"训练分布中的情感模式" → substitution heuristic	机制不同（但结果可能类似）	人受情感驱动的直觉偏差 → LLM 可做"冷启动"纠偏（前提：LLM 知道自己在纠偏）

关键发现

LLM 既不是简单的偏差放大器，也不是简单的偏差消除器。它在某些偏差上是人×2（sycophancy、framing sensitivity），在另一些上是机制不同但结果可能类似（representativeness），还有一些上根本机制不适用（情感启发式）。

这给互补地图增加了第二层：不是"人擅长 X、LLM 擅长 Y"，而是 "某些情况人的直觉偏差是主要风险 → LLM 冷判断可校正；另一些情况 LLM 的训练偏差是主要风险 → 人的代价感知可校正"。

5. 互补地图 v0.1

5.1 LLM 补人 — 哪些子类型、什么机制？

直觉子类型	LLM 补人的具体方式	基础机制	风险
感知型	永不疲劳的模式识别；全量特征记忆；不受近期案例混淆	统计模式匹配 + 大规模预训练	不知道什么可忽略 → 假阳性过载
概念型	在封闭规则域提供"超直觉"（如数学证明辅助、代码 bug 检测）	符号推理 + 模式匹配	"方向感"缺失 → 可能在无效路径上浪费计算
社会型	文本社会知识的外化 → 帮人类澄清"这种情况下通常有哪些选择"；debiasing 人类的情感驱动偏差	统计社会规范匹配	偏差放大（sycophancy + yes-no bias + omission bias）；protocol 依赖
道德型	结构化道德框架的生成（如列出所有相关利益方、可能后果）	模式识别 + 推理	无法做出真正的道德判断（因为无代价感知）→ 只能做输入，不能做输出

5.2 人必须补 LLM — 哪些场景？

场景	为什么 LLM 不够	人的独特贡献
有真实后果的决策（医疗、司法、投资）	LLM 没有代价感知 → 输出不受自己后果约束	代价共同体中的决策权 → "决定的是谁，谁承担后果"
实时社会互动（谈判、辅导、危机干预）	LLM 无法参与实时多通道互动	具身直觉 + 动态注意力调整 + 实时代价反馈
非共识判断（创意方向、科研假设选择）	LLM 的分布匹配偏好"可能对"→ 不利于"可能不对但值得试"	承受错误后果的意愿 → 在不确定中选择性冒险
价值观锚定（组织的伦理决策）	LLM 没有 moral commitment → protocol choice > substance	真正关心 → 有立场 → 为自己的立场承担代价

5.3 相互校正 — 双向 loop

校正方向	机制	已有证据
LLM → 人：校正人的情感/认知偏差	无情感和无历史视角 → 冷判断（在可结构化任务上）	间接：人在结构化评估中受情感干扰，LLM 不受 → SJT 超人类部分原因是 LLM 的"无代价镇定"
人 → LLM：校正 LLM 的训练偏差	判断是否合理、识别 framing sensitivity、校正 sycophancy	PNAS 2025 study 3：人类不受 yes-no bias 影响 → 可做 LLM 输出的 benchmark
人 → LLM：提供不可回避性信号	通过 RLHF 以外的方式（如直接监督 + 真实后果反馈）	待设计（OQ13）

6. 新增开放问题

OQ13-16（来自第二阶段第一场）

OQ13：如何设计一种训练信号，使 LLM 不仅能感知"输出好不好看"（RLHF），还能感知"判断对不对"（真实后果反馈）？「在线人-in-the-loop 社会化」是否可行？（续接 OQ11）
OQ14：LLM 的 yes-no bias / omission bias 是否因模型而异？open-source pretrained vs. instruct fine-tuned 的对比已有（PNAS study 4），但不同 fine-tuning 哲学（e.g., Anthropic constitutional AI vs. OpenAI RLHF vs. DeepSeek GRPO）的效果差异？
OQ15：如果把 SJT 升级为"高保真"社会直觉测试（多通道、有实时代价、Agent 交互式）→ 设计标准是什么？现有的交互式评估框架（如 Social AI Sandbox）是否能满足？
OQ16：LLM 在概念型直觉上的"方向感"缺失——是否可以通过架构改进（如显式的 hypothesis space pruning module）来模拟？如果人类数学家的"此路不通"= 压缩了大量失败尝试的代价历史，LLM 能否通过自我对弈（AlphaGo 式）获得类似压缩？

7. 下一场输入需求

待收集材料

LLM 在开放式科学发现中的表现（概念型直觉的检验案例） → "方向感"是否缺失？
Social AI / Embodied Conversational Agent 的前沿——是否有模型在实时社会互动中接近人类？交互式欺骗检测实验？
不同 fine-tuning 哲学下 LLM 道德偏差的比较——OQ14 的具体实证
SJT 元分析的具体数据——McDaniel et al. (2007) 以确认 criterion validity 范围
人类直觉偏差的双向对比研究——是否有论文直接比较 LLM 和人类在同一认知偏差任务上的表现？

关于讨论结构

第二阶段的原计划是 2 场（横向扫描），但今天这场推进后，发现实际需要：

第一场（本场）：矩阵框架搭建 + SJT 案例透视 + 偏差对比 → 已完成
第二场：概念型直觉深度 + 开放式发现 + 道德型直觉收束 → 待定（可能需要搜索新材料）
第三场（如有需要）：互补地图 v1.0 综合讨论

8. 给外部 agent 的具体讨论问题

SJT 悖论：我的分析结论是——SJT 超人类不是因为 LLM 有社会直觉，而是因为 SJT 恰好滤掉了社会直觉的三个核心成分（代价感知、选择性忽略、身体不可回避性）。这个结论有没有忽略什么？尤其是 SJT 在真实招聘中确实有 criterion validity → 如果 LLM 在 SJT 上超越人类，是否意味着 LLM 可以替代部分"社会性工作"（如客服、HR 初筛）——即使机制完全不同？
社会型直觉的中间态：矩阵中社会型直觉出现了"分裂"——文本社会知识可达，真实社会直觉不可达。这和 Collins interactional expertise 的框架完全一致（语言社会化→社会性知识，但非具身→非直觉）。问题是：中介抽象化（如 VR/AR 中的 social agent）能否桥接这个 gap？还是说没有不可回避性就不可能？
偏差对比矩阵：我的初步矩阵显示 LLM 在 sycophancy、framing sensitivity 上比人更差，在确认偏差上也差。但 LLM 没有情感启发式 → 在情感驱动的判断上可能比人好。这个框架有没有缺失的偏差类型？

变更记录

版本	日期	内容
v0.1	2026-05-15	第二阶段第一场讨论；SJT 悖论完整解析（消化 GLM 5.1）；三篇关键文献对照（PNAS 2025 道德偏差、arxiv 2603.05651 道德脆弱性、NeurIPS 2025 吹哨人困境、Nature SR 2023 说谎检测）；映射矩阵 v0.1（四子类型 × 四维度）；人类直觉偏差 vs LLM 偏差对比表；互补地图 v0.1；新增 OQ13-16；外部 agent 讨论问题

第二阶段 第一场：直觉子类型映射矩阵 v0.1 — 从 SJT 悖论到分层互补 ​

1. SJT 悖论的完整解析（消化 GLM 后重新组织） ​

1.1 三层逻辑不再复述 ​

1.2 SJT 作为测量工具的局限性——需要一份补充材料 ​

1.3 一个绝妙的反证：压力提示词实验 ​

2. 三篇关键文献的对照解读 ​

2.1 PNAS 2025 — Cheung, Maier & Lieder：LLM 放大认知偏差 ​

2.2 arxiv 2603.05651 — 道德判断的脆弱性 ​

2.3 NeurIPS 2025 — 吹哨人困境中的视角分裂 ​

2.4 Nature SR 2023 — LLM 在说谎检测上的表现（补充） ​

3. 映射矩阵 v0.1 — 分层填充 ​

3.1 基础矩阵：LLM 在四维上的可达性（按子类型分行） ​

3.2 关键分裂面：文本中介化 ​

4. 人类直觉的系统性偏差 — 与 LLM 偏差的对比 ​

关键发现 ​

5. 互补地图 v0.1 ​

5.1 LLM 补人 — 哪些子类型、什么机制？ ​

5.2 人必须补 LLM — 哪些场景？ ​

5.3 相互校正 — 双向 loop ​

6. 新增开放问题 ​

OQ13-16（来自第二阶段第一场） ​

7. 下一场输入需求 ​

待收集材料 ​

关于讨论结构 ​

8. 给外部 agent 的具体讨论问题 ​

变更记录 ​