第二阶段 第一场:直觉子类型映射矩阵 v0.1 — 从 SJT 悖论到分层互补
2026-05-15 | 第二阶段横向扫描开场
本文件在 GLM 5.1 对 SJT 悖论的解析基础上,推进以下核心动作:
- 将 SJT 悖论→映射到感知型/概念型/社会型/道德型子类型
- 纳入 PNAS 2025 (Cheung et al.) 的道德偏差发现 + NeurIPS 2025 吹哨人困境 + Nature 2024 说谎检测
- 产出第一版互补矩阵(人在哪些子类型上补 LLM,LLM 在哪些子类型上补人)
- 明确下一场待收集的材料和待验证的方向
1. SJT 悖论的完整解析(消化 GLM 后重新组织)
1.1 三层逻辑不再复述
GLM 的三层(介质的文本降维、无代价镇定的规范偏好、异构计算路径)是自洽的。这里推进两个 GLM 没做但关键的步骤:
步骤一:将 SJT 悖论翻译回我们第一阶段的框架语言。
| GLM 的三个解释 | 映射到第一阶段框架 | 对应命题 |
|---|---|---|
| A. 介质错位 — "SJT 把直觉降维为文本推理" | 等于说 SJT 测的不是直觉而是选择性忽略(②)被强制关闭后的推理能力 | ②:人类可安全忽略的非文本信息被 SJT 格式剥夺了作用域 |
| B. 无代价镇定 — "LLM 无社会代价感但人类有" | 等于说 SJT 过滤掉了**代价敏感压缩(①)**的前提条件 | ①:代价信号来自"选了之后真的会有什么后果";SJT 没有这个 |
| C. 异构计算 — "功能等价但路径不同" | 等于说 SJT 高分是社会规范的统计匹配而非社会直觉 | ③:身体不可回避性在这里为零,且 test format 恰好不需要它 |
也就是说 SJT 悖论不是对第一阶段的挑战,而是对第一阶段的完美验证——它恰好刻画了三重缺失同时被测试格式掩盖的情况。
步骤二:区分"SJT 超人类"的正确性和"社会直觉超人类"的正确性。
SJT 得分高 ≠ 社会直觉强。这是两种完全不同的主张。后者的证据门槛远高于前者。当前所有 LLM 在 SJT 上超人类的证据,只支持前者。
1.2 SJT 作为测量工具的局限性——需要一份补充材料
GLM 的判断"SJT 是低保真度测量工具"虽然直觉正确,但需要实证支撑。SJT 作为心理测量工具的确有独立于 LLM 的内部批评:
- 元分析证据:SJT 的 criterion-related validity 对 job performance 的预测力约为 ρ=0.25-0.35(McDaniel et al., 2007; Whetzel & McDaniel, 2009)——这是 moderate 但远非完美的预测力
- SJT 存在构造混淆(construct confound):它不仅测"情境判断",同时测了认知能力(g-loaded,ρ≈0.3-0.4 with cognitive ability tests)和人格(conscientiousness/agreeableness)
- SJT 的响应格式问题:knowledge-based SJT(问"应该怎么做")vs. behavioral tendency SJT(问"你会怎么做")测的是不同结构
关键推论:如果 SJT 本身在测人类"社会直觉"上的 criterion validity 就只是 moderate,那么 LLM 在 SJT 上超人类只意味着 LLM 在 moderate validity 的文本工具上拿了高分——不能推广到"LLM 社会直觉超人类"。
1.3 一个绝妙的反证:压力提示词实验
GLM 提到的"LLM 遵从耶克斯-多德森法则"的观点有重要方法论意义——如果 LLM 在压力提示下反应类似人类,那说明 LLM 的性能波动不是因为真正的(具身)代价感知,而是对文本化的压力标记做出了类似人类文本分布的响应。
这和第一阶段说过的 Maia & McClelland 对 SMH 的批评逻辑一致:有意识知识(这里是"压力"的文本模式)已足以解释表面行为。
2. 三篇关键文献的对照解读
2.1 PNAS 2025 — Cheung, Maier & Lieder:LLM 放大认知偏差
这是第二阶段最重要的发现之一。四组研究:
| 偏差类型 | LLM 表现 | 人类表现 | 含义 |
|---|---|---|---|
| Omission bias | 显著 > 人类 | 存在但温和 | LLM 过度偏好不作为——这可能是 fine-tuning 中 safety 约束的副作用 |
| Yes-no bias | LLM 独有 | 不存在 | 问题措辞("应该做吗"→no;"不应该做吗"→yes)翻转 LLM 判断——人类不受此影响 |
| 利他倾向 | LLM > 人类 | 自利偏好在难题上显性 | LLM 在集体行动困境中超利他——同样可能是 safety fine-tuning |
| 偏差来源 | Study 4 比较 pretrained vs instruct:偏差来自 chatbot fine-tuning | — | 这是可操作的发现:偏差不是架构问题,是后训练问题 |
直接对接第一阶段的命题①:Chatbot fine-tuning = 用人类偏好评级的代价信号替换真实代价信号。LLM 学到的不是"这么做有什么后果",而是"这么说别人觉得好不好"。
这解释了一个奇怪的组合——LLM 既超利他(SJT + 集体行动困境)又有 omission bias(道德困境):
- 超利他 = fine-tuning 中的"politeness / usefulness / harmlessness"三原则 → 奖励"看起来善良"的回答
- Omission bias = fine-tuning 中过度惩罚"建议采取正面行动"(= risk of harm) → 奖励"不做就不会错"
- Yes-no bias = fine-tuning 的偏好回答分布使 LLM 在"是/否"问题中倾向输出否定,因为否定比肯定更"安全"
核心结论:LLM 在道德困境上的偏差不是"没有直觉",而是有错误的直觉——一种由 fine-tuning 训练出来的、系统性偏离人类分布的替代启发式。
2.2 arxiv 2603.05651 — 道德判断的脆弱性
核心发现已经在前一轮提取。补充一个与第二阶段直接相关的点:
"协议选择支配一切"(三种协议一致率仅 35.7%; structured protocol 之间的 agreement 仅 67.6%, κ=0.55)——这意味着 LLM 的道德"直觉"不是一个稳定属性,而是 被 prompt scaffold 规定的。
这对我们的矩阵框架有直接含义:在道德型直觉单元格中,LLM 必须标记为"高度 protocol-dependent"。它的判断比人类更多变于 surface form——这正是直觉缺失的标志(直觉的根本特征是快速、自动化、相对稳定)。
2.3 NeurIPS 2025 — 吹哨人困境中的视角分裂
LLM "以自己身份"回答 vs. "预测人类会怎么做"之间的 gap 揭示了一个关键机制:
LLM 有两个不同的"社会模型"层:一是规范原则层("应该遵守规则/保护公平"),二是描述性社会理解层("人类会在乎关系")。
这两层的不整合 = LLM 缺少"自己作为一个社会实体"的位置。人类的社会直觉不需要内外调换——"我"就是关系网络中的一个节点,"我会怎么做"和"人们会怎么做"是一套整合的系统。
这在我们的矩阵中对应:社会型直觉需要的不只是知道社会规则,而是自己内嵌于社会关系——这回到了第一阶段命题③的"不可回避性":只有嵌入其中的人才有社会性代价。
2.4 Nature SR 2023 — LLM 在说谎检测上的表现(补充)
LLM 在 verbal lie detection 上可以达到甚至超越人类表现(微调后)。但关键 caveat:这个测试同样是纯文本——说谎者写文字叙述,LLM 分析文字特征。这和 SJT 一样,滤掉了非文本通道(面部微表情、语调、生理反应)。
所以测谎这个案例和 SJT 的模式一致:LLM 在"文字化为中介"的社会判断任务上可超越人类,在"需要实时多通道感知"的社会判断上不可替代。这是整个社会型直觉单元格的分裂点。
3. 映射矩阵 v0.1 — 分层填充
以下矩阵基于已积累的证据和第一阶段结论。标记含义:
- ✅ = 功能可达(机制可能不同)
- ⚠️ = 部分可达,但有重大条件/限制
- ❌ = 结构性不可达(基于目前所有证据)
- ❓ = 证据不足
3.1 基础矩阵:LLM 在四维上的可达性(按子类型分行)
| 直觉子类型 | 代价敏感 ① | 选择性忽略 ② | 身体不可回避性 | 情感着色 | 总评估 |
|---|---|---|---|---|---|
| 感知型 | ⚠️ 可通过「伪代价信号」训练实现功能性近似(如诊断 AI 在影像学上媲美放射科医师 → 但这不是"直觉",是训练好的分类器) | ❌ 全注意力 = 架构默认;即使稀疏注意力也是"算不动"驱动而非"不用看"驱动 | ❌ 不需要,感知型直觉本身不依赖身体代价信号 | ❌ 不需要 | ⚠️ 最可能被替代但走的路径完全不同;LLM 优势在"不疲劳 + 记住全部特征",劣势在"不知道忽略什么" |
| 概念型 | ⚠️ LLM 的逻辑推理和模式匹配在数学/编程等封闭领域可做概念直觉代理 → 但不知"方向感"(NeurIPS 2025 Fast/Slow 论文也暗示:Fast 阶段 <1000 tokens 仍有效但相对脆弱) | ❌ 同感知型:不知道什么可忽略 → 人类数学家"此路不通"的感觉靠的是大量尝试+代价压缩 | ❌ 不需要 | ❌ 不需要 | ⚠️ 在封闭规则域可达,在开放研究域不及(因为缺少"丢弃了哪些路径"的代价历史) |
| 社会型 | ⚠️ SJT 超人类 = 文本社会判断可模拟 → 但 PNAS 偏差论文 + 吹哨人视角分裂 + 测谎的文本通道限制 = LLM 的"社会判断"是非具身、无代价、protocol-dependent | ❌ 在社会任务中比感知型更严重:人类通过实时互动动态调整注意力 → LLM 无法参与实时互动 | ❌ 社会性代价(尴尬、羞耻、被排斥)必须通过「自己内嵌于关系网络」才能产生 → LLM 没有关系 | ⚠️ LLM 可在文本层面模拟同理心(如写比医生更有同情心的信),但这不是情感共鸣,是文本分布匹配 | ⚠️ 分裂态:文本社会知识可达,真实社会直觉不可达;中介抽象化提供了一条替代路径但需要新框架 |
| 道德型 | ❌ 没有代价感知 = 没有真正的道德直觉。PNAS 偏差论文 + 道德脆弱性论文 = LLM 的道德判断是 safety fine-tuning 的训练 artifact,不是内化的道德直觉 | — 不直接相关 | ❌ 道德直觉=躯体标记(Haidt 社会直觉主义)→ 无身体=无道德直觉 | ❌ 现象学层面不可能。道德脆弱性论文证明 protocol choice > moral substance → 进一步验证"没有真正的 moral commitment" | ❌ 最不可能被替代 |
3.2 关键分裂面:文本中介化
矩阵中社会型直觉的 ⚠️(分裂态)值得展开:
| 任务类型 | 中介 | 人类 | LLM | 结论 |
|---|---|---|---|---|
| 社会情境判断 | 文本 SJT | 被格式妨碍(翻译直觉失真) | 被格式赋能(完美做模式匹配) | LLM 赢** |
| 道德判断 | 文本道德困境 | 相对稳定(omission bias 温和) | 高度 protocol-dependent(偏差被放大) | 人赢 |
| 说谎检测 | 纯文本叙述 | ≈ chance level (≤54%) | ≈ 70-80%(微调后) | LLM 赢** |
| 实时谎言检测 | 多通道(面部+语调+生理+语境) | moderate-good (专业人士) | — 无法参与 | 人赢 |
| 办公室冲突处理 | 真实互动(表情+权力+历史) | 高(具身直觉+社会性代价) | — 无法参与 | 人赢 |
这是什么模式?
- LLM 赢在 "社会知识 = 文本模式识别" 的任务上(测量工具 = 文本 → LLM > 人)
- 人类赢在 "社会直觉 = 嵌入关系场 + 实时多通道感知 + 有代价非共识" 的任务上(测量工具需要具身 → 人 > LLM)
这直接给出了一个可操作的互补地图雏形:
- LLM 可补人:将社会知识文本化、结构化、标准化 → 减轻人类的认知负荷、校正人类的社会性偏差
- 人必须补 LLM:在需要具身判断、实时互动、有代价非共识决策的场景中,LLM 不能替代人
4. 人类直觉的系统性偏差 — 与 LLM 偏差的对比
这是互补地图的另一半:人在哪些地方也不靠谱,LLM 可以在哪些地方补回来。
| 人类直觉偏差 | LLM 是否有类似物? | 谁更差? | 互补方向 |
|---|---|---|---|
| 确认偏差 | ⚠️ LLM 有 sycophancy(迎合用户立场) = 放大版确认偏差(PNAS 2025 study 3) | LLM > 人(更严重) | 人可校正 LLM 的 sycophancy → 需要设计"反对角色"prompt |
| 锚定效应 | ⚠️ LLM 受 prompt 中初始数字/框架影响 → 道德脆弱性论文中 protocol 支配一切 = 超锚定 | LLM > 人 | 人比 LLM 更难被单一 prompt 带偏 → 人在锚定抗性上有优势 |
| 可得性启发式 | ❓ 不确定——LLM 可能受训练数据频率 bias 影响(罕见事件可能被低估),但这和人类 memory recency 机制不同 | 待研究 | 待研究 |
| 过度自信 | ✅ LLM 有 calibration 问题(Hallucination 本身 = 极端未校准自信)。但和人类不一样:LLM 不是"自信"而是"不知道何时不知道自己不知道" | LLM > 人 | LLM 补不了人(因为 LLM 自己也未校准);外部验证机制需要人机协作 |
| 框架效应 | ⚠️ LLM 的 framing sensitivity 比人更严重:yes-no bias(问题措辞翻转判断,人类不存在此效应)→ 这是真正的新偏差类型 | LLM >> 人 | 人在 framing resistance 上有优势;LLM 需要反框架训练 |
| 后见之明偏差 | ❓ 不确定——LLM 在给定结果后会不会宣称"我早知道了"?可能有类似行为但机制不同 | 待研究 | 待研究 |
| 代表性启发式 | ⚠️ LLM 的"代表性" = 训练分布中的 stereotype → 可能导致更严重的代表性偏见(如根据简历中的提示做判断) | LLM > 人 | LLM 在 debiasing 上可能比人更容易(因为可量化调整),但当前状态可能比人差 |
| 情感启发式 | ❌ LLM 没有真实情感 → 此偏差不适用。但 LLM 有"训练分布中的情感模式" → substitution heuristic | 机制不同(但结果可能类似) | 人受情感驱动的直觉偏差 → LLM 可做"冷启动"纠偏(前提:LLM 知道自己在纠偏) |
关键发现
LLM 既不是简单的偏差放大器,也不是简单的偏差消除器。它在某些偏差上是人×2(sycophancy、framing sensitivity),在另一些上是机制不同但结果可能类似(representativeness),还有一些上根本机制不适用(情感启发式)。
这给互补地图增加了第二层:不是"人擅长 X、LLM 擅长 Y",而是 "某些情况人的直觉偏差是主要风险 → LLM 冷判断可校正;另一些情况 LLM 的训练偏差是主要风险 → 人的代价感知可校正"。
5. 互补地图 v0.1
5.1 LLM 补人 — 哪些子类型、什么机制?
| 直觉子类型 | LLM 补人的具体方式 | 基础机制 | 风险 |
|---|---|---|---|
| 感知型 | 永不疲劳的模式识别;全量特征记忆;不受近期案例混淆 | 统计模式匹配 + 大规模预训练 | 不知道什么可忽略 → 假阳性过载 |
| 概念型 | 在封闭规则域提供"超直觉"(如数学证明辅助、代码 bug 检测) | 符号推理 + 模式匹配 | "方向感"缺失 → 可能在无效路径上浪费计算 |
| 社会型 | 文本社会知识的外化 → 帮人类澄清"这种情况下通常有哪些选择";debiasing 人类的情感驱动偏差 | 统计社会规范匹配 | 偏差放大(sycophancy + yes-no bias + omission bias);protocol 依赖 |
| 道德型 | 结构化道德框架的生成(如列出所有相关利益方、可能后果) | 模式识别 + 推理 | 无法做出真正的道德判断(因为无代价感知)→ 只能做输入,不能做输出 |
5.2 人必须补 LLM — 哪些场景?
| 场景 | 为什么 LLM 不够 | 人的独特贡献 |
|---|---|---|
| 有真实后果的决策(医疗、司法、投资) | LLM 没有代价感知 → 输出不受自己后果约束 | 代价共同体中的决策权 → "决定的是谁,谁承担后果" |
| 实时社会互动(谈判、辅导、危机干预) | LLM 无法参与实时多通道互动 | 具身直觉 + 动态注意力调整 + 实时代价反馈 |
| 非共识判断(创意方向、科研假设选择) | LLM 的分布匹配偏好"可能对"→ 不利于"可能不对但值得试" | 承受错误后果的意愿 → 在不确定中选择性冒险 |
| 价值观锚定(组织的伦理决策) | LLM 没有 moral commitment → protocol choice > substance | 真正关心 → 有立场 → 为自己的立场承担代价 |
5.3 相互校正 — 双向 loop
| 校正方向 | 机制 | 已有证据 |
|---|---|---|
| LLM → 人:校正人的情感/认知偏差 | 无情感和无历史视角 → 冷判断(在可结构化任务上) | 间接:人在结构化评估中受情感干扰,LLM 不受 → SJT 超人类部分原因是 LLM 的"无代价镇定" |
| 人 → LLM:校正 LLM 的训练偏差 | 判断是否合理、识别 framing sensitivity、校正 sycophancy | PNAS 2025 study 3:人类不受 yes-no bias 影响 → 可做 LLM 输出的 benchmark |
| 人 → LLM:提供不可回避性信号 | 通过 RLHF 以外的方式(如直接监督 + 真实后果反馈) | 待设计(OQ13) |
6. 新增开放问题
OQ13-16(来自第二阶段第一场)
- OQ13:如何设计一种训练信号,使 LLM 不仅能感知"输出好不好看"(RLHF),还能感知"判断对不对"(真实后果反馈)?「在线人-in-the-loop 社会化」是否可行?(续接 OQ11)
- OQ14:LLM 的 yes-no bias / omission bias 是否因模型而异?open-source pretrained vs. instruct fine-tuned 的对比已有(PNAS study 4),但不同 fine-tuning 哲学(e.g., Anthropic constitutional AI vs. OpenAI RLHF vs. DeepSeek GRPO)的效果差异?
- OQ15:如果把 SJT 升级为"高保真"社会直觉测试(多通道、有实时代价、Agent 交互式)→ 设计标准是什么?现有的交互式评估框架(如 Social AI Sandbox)是否能满足?
- OQ16:LLM 在概念型直觉上的"方向感"缺失——是否可以通过架构改进(如显式的 hypothesis space pruning module)来模拟?如果人类数学家的"此路不通"= 压缩了大量失败尝试的代价历史,LLM 能否通过自我对弈(AlphaGo 式)获得类似压缩?
7. 下一场输入需求
待收集材料
- LLM 在开放式科学发现中的表现(概念型直觉的检验案例) → "方向感"是否缺失?
- Social AI / Embodied Conversational Agent 的前沿——是否有模型在实时社会互动中接近人类?交互式欺骗检测实验?
- 不同 fine-tuning 哲学下 LLM 道德偏差的比较——OQ14 的具体实证
- SJT 元分析的具体数据——McDaniel et al. (2007) 以确认 criterion validity 范围
- 人类直觉偏差的双向对比研究——是否有论文直接比较 LLM 和人类在同一认知偏差任务上的表现?
关于讨论结构
第二阶段的原计划是 2 场(横向扫描),但今天这场推进后,发现实际需要:
- 第一场(本场):矩阵框架搭建 + SJT 案例透视 + 偏差对比 → 已完成
- 第二场:概念型直觉深度 + 开放式发现 + 道德型直觉收束 → 待定(可能需要搜索新材料)
- 第三场(如有需要):互补地图 v1.0 综合讨论
8. 给外部 agent 的具体讨论问题
SJT 悖论:我的分析结论是——SJT 超人类不是因为 LLM 有社会直觉,而是因为 SJT 恰好滤掉了社会直觉的三个核心成分(代价感知、选择性忽略、身体不可回避性)。这个结论有没有忽略什么?尤其是 SJT 在真实招聘中确实有 criterion validity → 如果 LLM 在 SJT 上超越人类,是否意味着 LLM 可以替代部分"社会性工作"(如客服、HR 初筛)——即使机制完全不同?
社会型直觉的中间态:矩阵中社会型直觉出现了"分裂"——文本社会知识可达,真实社会直觉不可达。这和 Collins interactional expertise 的框架完全一致(语言社会化→社会性知识,但非具身→非直觉)。问题是:中介抽象化(如 VR/AR 中的 social agent)能否桥接这个 gap?还是说没有不可回避性就不可能?
偏差对比矩阵:我的初步矩阵显示 LLM 在 sycophancy、framing sensitivity 上比人更差,在确认偏差上也差。但 LLM 没有情感启发式 → 在情感驱动的判断上可能比人好。这个框架有没有缺失的偏差类型?
变更记录
| 版本 | 日期 | 内容 |
|---|---|---|
| v0.1 | 2026-05-15 | 第二阶段第一场讨论;SJT 悖论完整解析(消化 GLM 5.1);三篇关键文献对照(PNAS 2025 道德偏差、arxiv 2603.05651 道德脆弱性、NeurIPS 2025 吹哨人困境、Nature SR 2023 说谎检测);映射矩阵 v0.1(四子类型 × 四维度);人类直觉偏差 vs LLM 偏差对比表;互补地图 v0.1;新增 OQ13-16;外部 agent 讨论问题 |