LLM 与人类直觉：进化路线与互补空间

v2.0 | 2026-06 | arXiv 预印本 | PDF 下载 | GitHub

我们想回答什么问题

大语言模型正在渗透人类认知的方方面面——从写代码到临床诊断。但对于那些不需要推理、近乎本能地涌现的认知能力——直觉——LLM 到底处于什么位置？

直觉不是神秘的第六感。它是经验的压缩产物：棋手看了上万局棋后"一眼看出"关键走法，放射科医生扫一眼片子就知道哪里有问题，你在聚会上看到某个人"说不清为什么但觉得不可信"。这些判断的共同特征是：快速、不费力、不需要显式推理。

核心问题不是"LLM 有没有直觉"——而是"LLM 缺什么、缺到什么程度、有没有替代路径"。

三条核心命题

命题 1：LLM 缺少内生代价信号。 人类直觉的核心引擎是"犯错被惩罚→大脑标注哪些模式需要优先记住"。LLM 的"惩罚信号"是 RLHF 中的人类偏好评级——但"这篇回答看起来对"≠"这个建议在现实中带来了好结果"。LLM 不知道自己的输出会在真实世界造成什么后果。

命题 2：LLM 的注意力机制试图不遗漏，而非选择性忽略。 专家直觉的关键能力不是"看到重要的"，而是"秒速忽略不相关的"。人类因生存压力进化出了代价驱动的选择性忽略；LLM 的稀疏注意力变体的动机是"算不动了"，不是"看了也没用"。

命题 3：身体直觉的核心价值是"代价信号的不可回避性"。 当你的身体告诉你"这事不对"（心跳加快、胃紧缩），你无法通过调低一个参数来忽略它。LLM 所有"重要性"参数（learning rate、temperature、reward scale）都是外生的，可以被工程师调高或调低。身体直觉贡献的不是感觉内容，而是你必须收到这个信号的强制性。

命题 1 和命题 2 从认知科学和机器学习两个不同学科传统指向了同一个底层缺陷——LLM 缺少内生的、由代价驱动的信号优先级排序机制。二者相互支撑，不是相互独立。

直觉的四种子类型

类型	典型表现	LLM 能否替代
感知型	棋手模式识别、放射科异常检测	⚠️ 部分可达
概念型	数学家"这方向对的"、科学家品味	⚠️ 封闭域可，开放域受限
社会型	读人、判断可信度、感知气氛	⚠️ 文本可达，具身不可达
道德型	"这是错的"的瞬间首判	❌ 结构性不可达

关键洞察：代价从内部（计算效率）走向外部（认识论）再走向人际（排斥）再到身份（存在论），越来越具身、越来越不可被纯信息处理替代。

三个假说，九个核心判断

我们提出三个假说并进行交叉推演（A×B、A×C、B×C），产出九个判断。以下是其中最关键的三个：

假说 A（直觉假肢）：LLM 用不同计算路径补人类直觉盲区

假说 B（退化风险）：长期依赖 LLM 导致人类自身直觉退化

假说 C（自主直觉）：LLM 可能发展出功能等效的直觉能力

判断 1：退化存在但不是必然的——取决于使用模式。 退化由三个中介变量精确决定：(a) AI 替代的是直觉的"执行"还是"校验"（人先判断再查 AI，退化显著低于 AI 先给答案）；(b) 使用频率和时间结构（每事必问 vs 只在不确定时问）；(c) 直觉子类型的不可回避性（真实社交中你没法暂停查 AI）。

判断 2：人优先协议是最有效的单点干预。 放射科 on-demand AI 模式下表现为 upskilling 而非 deskilling。35 项研究的元分析证实：AI-first 协议比 human-first 协议显著增加自动化偏差。关键是：当前几乎所有 LLM 产品的默认 UI/UX 都是 AI 先给答案——这是退化风险的系统性放大器。

判断 3：社会型直觉的"中空期"是最危险的失衡域。 中空期 = 人类能力已经退化，AI 还没有在所有场景中成熟到可以完全替代——退化被 AI 在常规情况下的良好表现"代偿"掩盖。社会型直觉同时满足最危险的条件：LLM 有假肢级可用性（让人愿意用）、有系统性盲区（sycophancy、无实时社会校准）、人类退化速度在社交媒体+LLM 的双重加速下极快。这对做社交/陪伴/agent 产品的团队意味着：社会判断辅助功能的"看起来好用"本身就是最大的风险信号。

三条铁律

让人先判断。"人优先协议"是所有场景的默认设置——不是不信任 AI，而是不让人忘记自己还能独立判断。
**让代价不可回避。**关键领域强制保持判断后果的不可回避性，类似 FAA 要求飞行员定期手动飞行。
**让边界清晰。**道德型 C、社会型 B 等领域不部署——这些领域的退化是身份退位，不是技能丧失，极难逆转。

一个诚实的注脚

全文 41 处证据等级标注中，最高等级 L5（≥2 个独立实验室复制确认）的占比是 0%。这些论断基于理论推演和类比外推——不是"不可靠"，而是理论构建的正常阶段。但我们不会假装知道得比实际更多。

理论交叉验证

三条独立的理论传统汇聚于同一结构性判断：

预测加工（本文）：LLM 缺少内生代价驱动的信号优先级排序——精度加权是外生的
现象学（Rafiee & Sutton, 2026, arXiv:2605.24238）：LLM 缺少生成式 AI 的四维度——经验、行动-感知不可分、自主性、具身性
数学（Klindt, LeCun & Balestriero, 2026, arXiv:2605.26379）：非高斯潜变量下线性可辨识性数学上不可能——世界模型无法在非高斯域中恢复真实结构

三篇论文的分工：JEPA 提供形式化证明，Rafiee & Sutton 提供哲学诊断，本文提供系统映射和干预方案。详见全文附录 D。

资源

📄 完整论文 PDF：中文版 | English
💻 GitHub：co-cognition-lab/llm-intuition
📊 OSF：10.17605/OSF.IO/5FSCZ（v2.0 冻结快照）| 项目根：10.17605/OSF.IO/XSY39

📋 历史版本：v1.3（2026-05，arXiv 预印本锚点版本）

LLM 与人类直觉：进化路线与互补空间 ​

我们想回答什么问题 ​

三条核心命题 ​

直觉的四种子类型 ​

三个假说，九个核心判断 ​

假说 A（直觉假肢）：LLM 用不同计算路径补人类直觉盲区 ​

假说 B（退化风险）：长期依赖 LLM 导致人类自身直觉退化 ​

假说 C（自主直觉）：LLM 可能发展出功能等效的直觉能力 ​

三条铁律 ​

一个诚实的注脚 ​

理论交叉验证 ​

资源 ​