Skip to content

LLM 与人类直觉:进化路线与互补空间

v2.0 | 2026-06 | arXiv 预印本 | PDF 下载 | GitHub


我们想回答什么问题

大语言模型正在渗透人类认知的方方面面——从写代码到临床诊断。但对于那些不需要推理、近乎本能地涌现的认知能力——直觉——LLM 到底处于什么位置?

直觉不是神秘的第六感。它是经验的压缩产物:棋手看了上万局棋后"一眼看出"关键走法,放射科医生扫一眼片子就知道哪里有问题,你在聚会上看到某个人"说不清为什么但觉得不可信"。这些判断的共同特征是:快速、不费力、不需要显式推理。

核心问题不是"LLM 有没有直觉"——而是"LLM 缺什么、缺到什么程度、有没有替代路径"。


三条核心命题

命题 1:LLM 缺少内生代价信号。 人类直觉的核心引擎是"犯错被惩罚→大脑标注哪些模式需要优先记住"。LLM 的"惩罚信号"是 RLHF 中的人类偏好评级——但"这篇回答看起来对"≠"这个建议在现实中带来了好结果"。LLM 不知道自己的输出会在真实世界造成什么后果。

命题 2:LLM 的注意力机制试图不遗漏,而非选择性忽略。 专家直觉的关键能力不是"看到重要的",而是"秒速忽略不相关的"。人类因生存压力进化出了代价驱动的选择性忽略;LLM 的稀疏注意力变体的动机是"算不动了",不是"看了也没用"。

命题 3:身体直觉的核心价值是"代价信号的不可回避性"。 当你的身体告诉你"这事不对"(心跳加快、胃紧缩),你无法通过调低一个参数来忽略它。LLM 所有"重要性"参数(learning rate、temperature、reward scale)都是外生的,可以被工程师调高或调低。身体直觉贡献的不是感觉内容,而是你必须收到这个信号的强制性。

命题 1 和命题 2 从认知科学和机器学习两个不同学科传统指向了同一个底层缺陷——LLM 缺少内生的、由代价驱动的信号优先级排序机制。二者相互支撑,不是相互独立。


直觉的四种子类型

类型典型表现LLM 能否替代
感知型棋手模式识别、放射科异常检测⚠️ 部分可达
概念型数学家"这方向对的"、科学家品味⚠️ 封闭域可,开放域受限
社会型读人、判断可信度、感知气氛⚠️ 文本可达,具身不可达
道德型"这是错的"的瞬间首判❌ 结构性不可达

关键洞察:代价从内部(计算效率)走向外部(认识论)再走向人际(排斥)再到身份(存在论),越来越具身、越来越不可被纯信息处理替代。


三个假说,九个核心判断

我们提出三个假说并进行交叉推演(A×B、A×C、B×C),产出九个判断。以下是其中最关键的三个:

假说 A(直觉假肢):LLM 用不同计算路径补人类直觉盲区

假说 B(退化风险):长期依赖 LLM 导致人类自身直觉退化

假说 C(自主直觉):LLM 可能发展出功能等效的直觉能力

判断 1:退化存在但不是必然的——取决于使用模式。 退化由三个中介变量精确决定:(a) AI 替代的是直觉的"执行"还是"校验"(人先判断再查 AI,退化显著低于 AI 先给答案);(b) 使用频率和时间结构(每事必问 vs 只在不确定时问);(c) 直觉子类型的不可回避性(真实社交中你没法暂停查 AI)。

判断 2:人优先协议是最有效的单点干预。 放射科 on-demand AI 模式下表现为 upskilling 而非 deskilling。35 项研究的元分析证实:AI-first 协议比 human-first 协议显著增加自动化偏差。关键是:当前几乎所有 LLM 产品的默认 UI/UX 都是 AI 先给答案——这是退化风险的系统性放大器。

判断 3:社会型直觉的"中空期"是最危险的失衡域。 中空期 = 人类能力已经退化,AI 还没有在所有场景中成熟到可以完全替代——退化被 AI 在常规情况下的良好表现"代偿"掩盖。社会型直觉同时满足最危险的条件:LLM 有假肢级可用性(让人愿意用)、有系统性盲区(sycophancy、无实时社会校准)、人类退化速度在社交媒体+LLM 的双重加速下极快。这对做社交/陪伴/agent 产品的团队意味着:社会判断辅助功能的"看起来好用"本身就是最大的风险信号。


三条铁律

  1. 让人先判断。"人优先协议"是所有场景的默认设置——不是不信任 AI,而是不让人忘记自己还能独立判断。
  2. **让代价不可回避。**关键领域强制保持判断后果的不可回避性,类似 FAA 要求飞行员定期手动飞行。
  3. **让边界清晰。**道德型 C、社会型 B 等领域不部署——这些领域的退化是身份退位,不是技能丧失,极难逆转。

一个诚实的注脚

全文 41 处证据等级标注中,最高等级 L5(≥2 个独立实验室复制确认)的占比是 0%。这些论断基于理论推演和类比外推——不是"不可靠",而是理论构建的正常阶段。但我们不会假装知道得比实际更多。


理论交叉验证

三条独立的理论传统汇聚于同一结构性判断:

  • 预测加工(本文):LLM 缺少内生代价驱动的信号优先级排序——精度加权是外生的
  • 现象学(Rafiee & Sutton, 2026, arXiv:2605.24238):LLM 缺少生成式 AI 的四维度——经验、行动-感知不可分、自主性、具身性
  • 数学(Klindt, LeCun & Balestriero, 2026, arXiv:2605.26379):非高斯潜变量下线性可辨识性数学上不可能——世界模型无法在非高斯域中恢复真实结构

三篇论文的分工:JEPA 提供形式化证明,Rafiee & Sutton 提供哲学诊断,本文提供系统映射和干预方案。详见全文附录 D。


资源


📋 历史版本:v1.3(2026-05,arXiv 预印本锚点版本)