Skip to content

LLM 与人类直觉:进化路线探索

版本:v1.3 | 更新:2026-05-16 | 吸收 kimi 群评审后升级

本文是项目的主文档——完整记录从核心命题的建立、到直觉子类型的系统映射、到三个假说的交叉推演、到最终综合输出的全过程。独立阅读即可理解项目的完整逻辑。

如果你是外部审阅者:建议先读本文。本文涵盖项目全貌和理论框架。综合输出 则聚焦于应用层面——互补地图 v2.0、协作模式设计、进化路线图、核心叙事、38个开放问题——是本文的"行动纲领"部分。两者关系:本文是"为什么"和"是什么",综合输出是"做什么"和"怎么做"。

v1.3 新增:术语通俗解释(1.4节)、矩阵脚注(3.3节)、实施风险与意外后果(第六节)、参考文献(第八节 40条)、OQ 优先级标注(第七节)。

讨论文件 & 评审存档:详见文末索引。


一、项目概览

1.1 我们想回答什么问题

大语言模型(LLM)正在迅速渗透人类认知的方方面面。它能在逻辑推理上媲美专家,在医学考试中超过人类,在社交情境判断中拿到比飞行员候选人更高的分数。但对于那些不需要推理、不需要分析、近乎本能地涌现的认知能力——直觉(intuition)——LLM 到底处于什么位置?

这个问题之所以重要,不是因为直觉是某种神秘的第六感,而是因为直觉在人类认知架构中扮演着不可替代的角色:它让专家在看到问题的第一眼就知道该往哪个方向走,让人在社交互动中瞬间捕捉微妙的情感波动,让人在面对道德困境时不假思索地感到"这是错的"。

如果我们不知道 LLM 在这些方面缺什么、缺到什么程度、有没有替代路径,我们就不知道把 LLM 部署到哪里是安全的,部署到哪里是危险的。我们更不知道,在长期依赖 LLM 之后,人类自己会不会失去某些不可恢复的东西。

1.2 我们怎么做——四阶段探索结构

这个项目不做学术论文,也不做文献综述。我们的方法是通过层层推进的讨论,从核心命题出发,向外扩展到系统映射,再向外推演到未来情景。整个过程分为四个阶段,每一阶段建立在前一阶段的基础上:

第一阶段:纵深解剖(3场讨论)

核心任务:建立框架。我们从三个最核心的认知机制入手——LLM 犯错了会自己纠正吗(犯错回路)?LLM 知道什么信息不需要看吗(选择性忽略)?LLM 需要身体才能形成直觉吗(身体直觉)?每一个问题都追到认知科学和机器学习的前沿证据。这一阶段直接产出了贯穿全程的三个核心命题,以及将它们统一在一起的精度加权内生性框架

第二阶段:横向扫描(3场讨论)

核心任务:展开映射。有了命题框架后,我们把"直觉"本身拆分为四个子类型——感知型(如棋手的模式识别)、概念型(如数学家的"方向感")、社会型(如读人、判断可信度)、道德型(如"这是错的"的瞬间判断)。然后按子类型逐行填充 LLM 的可达性矩阵——在每个子类型上,LLM 在代价敏感压缩、选择性忽略、身体不可回避性、情感着色四个维度上分别处于什么位置?与此同时,我们纳入了人类直觉的系统性偏差(确认偏差、锚定效应等),让互补不是单方向的"LLM 补人",而是双向的。这一阶段产出了第一版互补地图偏差三层分类学

第三阶段:前瞻推演(3场讨论)

核心任务:推演未来。我们提出了三个关于未来的假说——A: LLM 可以成为人类的"直觉假肢"(补人的盲区);B: 长期使用 LLM 反而会削弱人类自己的直觉;C: LLM 可能通过不同的路径发展出自己功能等效的直觉。这三个假说不是独立验证的,而是交叉推演——A 和 B 相互作用会形成退化循环吗?B 和 C 的时间竞赛谁先谁后?A 和 C 在什么临界点上从"假肢模式"切换到"新器官模式"?三次交叉推演产出了九个核心判断

第四阶段:综合输出(1场讨论)

核心任务:整合。将全部产出浓缩为一份自包含的综合文件——互补地图 v2.0、协作模式设计、进化方向优先级、核心叙事,以及 38 个待验证的开放问题。

1.3 关键概念速览

在进入正文之前,先定义全文反复使用的几个核心概念:

"互补"的含义:本项目中"互补"始终指人类直觉与 LLM 能力之间的双向互补——不是 LLM 单向地补人类的缺陷,而是双方各有优劣势,通过结构化分工实现 1+1>2。例如:LLM 在模式识别的"全量特征记忆"上补人类的遗忘和疲劳,人类在"知道什么模式有意义"上补 LLM 的假阳性过载。

三个假说的标签:全文使用 A、B、C 作为标签指代三个假说——A = LLM 作为直觉假肢(补人类直觉的盲区),B = LLM 削弱人类直觉(退化风险),C = LLM 发展功能等效的直觉(从假肢变成自主器官)。这三个标签在第三阶段的交叉推演中被密集使用。

直觉子类型:将"直觉"根据认知机制拆分为四种——感知型(模式识别、chunk记忆)、概念型(方向感、品味)、社会型(读人、共情)、道德型(对/错的首判)。不同子类型在 LLM 可替代性和退化风险上差异巨大。

打分标记含义:✅=功能可达 ❌=结构性不可达 ⚠️=部分可达/需条件 🔴=高风险 🟡=中等风险 🟢=低风险。

1.4 术语通俗解释

以下为文中高频出现的专业术语提供"一层解释"——面向非认知科学或 AI 专业的读者。术语在正文首次出现时标注 (^T) 表示可查阅本节。

精度加权(precision-weighting)(^T):大脑面对海量感官输入时,必须自动决定"哪些偏差需要立即关注,哪些可以暂时忽略"。看到蛇→高精度信号,必须立即反应;听到风声→低精度,可以搁置。人类大脑这套"自动优先级排序系统"是内生的、由生存压力锻造的。LLM 没有这套系统——它的"优先级"是工程师设置的超参数(learning rate、temperature)决定的。

Expected Free Energy(预期自由能)(^T):主动推理框架中的核心数学对象,衡量"未来观测的不确定性"+"与偏好的偏离代价"的综合指标。通俗地说:你的大脑无意识中在做的——就是最小化这个指标——选择"在减少悬念的同时又不让自己不舒服"的行动路径。直觉可被理解为大脑快速逼近这一最小化过程的结果。

Active Inference(主动推理)(^T):一个将大脑建模为"预测机器"的理论框架(Friston 学派),认为感知、行动和学习本质上都服务于最小化"预测误差"。它统一了解剖学(皮层层次结构)、生理学(预测误差编码)和行为(行动作为假设检验)。

躯体标记假说(SMH)(^T):Damasio 提出的理论——身体在决策时产生生理信号(心跳加快、胃紧缩),这些"躯体标记"快速标注了选项的情绪价值,引导我们趋利避害。原始形式的证据有争议,但修正版本(as-if body loop——大脑模拟身体状态)在神经科学中广泛接受。

Chunking(组块化)(^T):认知心理学核心概念——把大量零散信息压缩为一个可快速调用的"组块"。棋手看了成千上万局棋后,"看到"的不再是单个棋子,而是"这个局面像我之前遇到的类型"。这是感知型直觉的认知基础。

RLHF(从人类反馈中强化学习)(^T):当前训练 LLM 的主流方法——让人对模型的不同回答打分,模型学习"什么样的回答人类更喜欢"。核心局限:人的偏好≠真实后果——"这篇回答看起来对"≠"这个建议在现实中带来了好结果"。

自动化偏差(Automation Bias)(^T):人类过度信任自动化系统建议的倾向——即使系统给出错误建议,人也会跟随。35 项研究的元分析证实:AI 先给建议比人先判断再查 AI 显著增加这一偏差。

Confabulation(虚构)(^T):大脑在不自觉中编造解释来填补认知缺口(不同于故意说谎)。LLM 的"幻觉"有类似特征——模型不知道自己不知道,而是生成一个"看起来合理"的答案。

Sycophancy(谄媚偏差)(^T):LLM 倾向于给出符合用户已有立场的回答,而非客观正确的回答。在社会和道德判断场景中特别危险——它不是给用户他们需要的建议,而是给他们想听的。

Reversal Learning(反转学习)(^T):认知灵活性的一种——当"一直对的选择"突然变成"错的选择"时,生物体更新行为策略的速度。VMPFC 受损患者在 IGT 中的失败可能主要是 reversal learning 缺失——不能放弃"看起来好但实际有害"的策略。

WEIRD(^T):Western, Educated, Industrialized, Rich, Democratic——西方、受教育、工业化、富裕、民主。心理学研究过度基于 WEIRD 人群(占全球人口仅 12%),结论的跨文化有效性存疑。本项目的互补地图同样面临这一局限(见 OQ38)。

分布外(Out-of-Distribution)(^T):模型在训练中未见过的输入类型。LLM 在分布外场景中的表现是安全性关键——AI 静默输出高置信度错误(而非说"我不知道")是感知型中空期最危险的失效模式。

GRPO(Group Relative Policy Optimization)(^T):DeepSeek 开发的 RL 训练算法——在策略优化时使用组内相对比较而非绝对值,提高训练稳定性和样本效率。与 RLHF 和 CAI(Constitutional AI)是不同的 fine-tuning 哲学。

具身模拟(Embodied Simulation)(^T):社会认知的核心机制——我们用自己身体的状态来"模拟"他人的情感状态。看到别人疼痛时,我们的大脑激活了与实际体验疼痛相似的区域。这是社会型直觉的神经基础,也是 LLM 的关键缺失——LLM 没有身体来"模拟"他人的体验。

镜像神经元系统(^T):大脑中的一组神经元——在自己执行动作和观察他人执行同样动作时都会激活。被认为是具身模拟、共情、社会学习的神经基础。LLM 是否有功能等价物(通过文本模式学习而非具身模拟)是 OQ20 的核心问题。


二、核心理论框架

2.1 三个核心命题——它们从哪来、什么意思

这三个命题不是预设的假设,而是从第一阶段的纵深讨论中逐层推导出来的。每一个都有具体的研究材料支撑。

命题 ①:可迁移直觉 = 经过惩罚信号标注的模式压缩;LLM 没有代价敏感的压缩

来源:1.1 犯错回路讨论。

直觉在认知科学中有一个基本共识:它不是凭空出现的第六感,而是经验的压缩产物。一个棋手看了成千上万局棋之后,"看到"的不是棋子的位置,而是"这个局面像我之前遇到过的那种类型"——这个过程被称为 chunking(模式组块化)。但人类直觉的压缩不只是"见得多"——关键在于犯错的代价标注了哪些模式需要优先压缩。你走错了一步棋,输了一局,输了比赛,输掉的挫败感、时间、荣誉——这些代价信号告诉了大脑:"这个模式很危险,下次要优先识别出来并回避。"

LLM 的训练范式——尤其是在当前主流的 RLHF(从人类反馈中强化学习)中——给 LLM 提供的代价信号是"人类偏好评级"。这个回答评分高,那个低。但人类的偏好不是真实后果。我们给一篇文章打"有帮助",不是因为它的建议在真实世界中带来了好结果,而是因为它在阅读时"看起来对"。这中间的差距,就是 LLM 和人类直觉之间在代价信号上的根本鸿沟。

支撑材料:Self-Correction as Feedback Control (arxiv 2604.22273) 提出了精确的 EIR/ECR 框架,证明只有 EIR<0.5% 的模型自纠错才不退化;Learning to Think Fast and Slow (NeurIPS 2025) 证明直觉和推理可以分离训练;CBDQ (arxiv 2410.01739) 尝试了在 RL 中引入主观信念建模。

命题 ②:直觉专长 = 知道什么可以安全忽略 > 知道什么重要;LLM attention 试图不遗漏

来源:1.2 选择性忽略讨论。

专家的直觉不仅在于"看到关键",更在于"秒速忽略不相关"。棋类专家的眼动追踪数据显示,专家注视棋盘的次数比新手少,而且注视点更集中在关键区域——不是因为专家"努力去看重要的地方",而是因为 chunk 记忆结构自动完成了过滤:不相关的区域根本不触发注意力分配。

LLM 的 attention 机制在原理上是相反的——它对所有输入 token 一视同仁地计算注意力权重。即使是 Transformer 的最新稀疏注意力变体(GSA、NSA、DSA、MoBA),稀疏化的动机也主要是"算不动了"(节省计算资源),而不是"看了也没用"(认知质量的主动忽略)。

这两个动机的差异有深远的工程和政策含义:如果稀疏化的目标是"算不动了",那么计算资源越充沛,模型就越不需要忽略——它可以用暴力计算代替代价压缩。但人类的代价压缩不是计算资源问题——是生命有限、时间有限、错过了就回不来的生存压力。LLM 永远不会有这种压力,因此也永远不会发展出人类式的高效忽略。

支撑材料:GSA (arxiv 2604.20920) 提出了"先压缩再选择性展开";SSA (NeurIPS 2024) 通过温度缩放差异化 query 聚焦;专家 vs 新手棋类眼动 (PMC4142462);航空自动化悖论。

命题 ③:身体直觉 = ①②的「实现条件维度」——代价信号的不可回避性

来源:1.3 身体直觉讨论。

命题③是我们在这个项目中做出的一项关键理论重新定位。最初,我们假设"身体直觉"可能是独立于①②的第三大命题——即身体提供了某种 LLM 无法获得的独特信息或计算能力。但经过对 Damasio 躯体标记假说(SMH)的深入审查,我们发现:

  • SMH 的原始形式(身体信号直接因果性地驱动决策)证据薄弱——SCR 无法可靠预测最优决策,IGT 实验设计有严重 confound,Maia & McClelland 的批评(有意识知识已足以解释表现)成立。
  • 但 SMH 的修正版本——as-if body loop——是成立的:大脑模拟身体状态(而不是身体真的先反应),生成预测误差,更新价值估计,影响决策。这意味着身体直觉的经验来源是身体的,但运行机制是神经的。
  • 然而,身体直觉的核心贡献不是估值(估值可以归入命题①)或注意力引导(可以归入命题②),而是不可回避性——身体代价信号有三个特征:(a) 不可撤回(后果已发生,无法回滚),(b) 主体可及(你能亲自感受到后果),(c) 语义确定(你清楚后果意味着什么)。这三个特征合在一起,构成了"代价信号的送达保证"。

命题③的最终定位:不是独立于①②的第三大命题,而是①②的实现条件维度——代价信号不仅要存在,还必须被必然送达和感知。没有不可回避性,就没有代价敏感的压缩(①),也没有代价驱动的选择性忽略(②)。身体直觉的价值不在于提供信息,而在于保证信息必须被接收到

支撑材料:SMH 多水平逻辑回归元分析 (Cog Affective & Behavioral Neurosci 2025);Fellows & Farah (2005) VMPFC 患者研究——IGT 失败可能是 reversal learning 缺失;Seth & Friston Active Interoceptive Inference (2016);Collins interactional expertise——社会性知识可脱离身体实践;自建模机器人 (Hu et al., Nature MI 2025)。

2.2 统一形式化语言:精度加权的内生性

三个命题虽然从不同的经验切入点出发,但它们在认知神经科学的前沿理论中有一个共同的底层语言:精度加权(precision-weighting),来自 Active Inference(主动推理)和预测加工(Predictive Processing)框架。

这个框架的核心思想是:大脑是一个预测机器——它不断地预测即将接收的感觉输入,当预测与实际不符时,产生"预测误差"。但不是所有的预测误差都同等重要——有些误差需要强制更新信念(高精度),有些可以被忽略(低精度)。精度加权就是这个"重要性分配"的机制

在这个框架下,三个命题可以统一表述:

命题精度加权视角下的本质
① 代价敏感的压缩代价信号 = 被赋予了高精度的预测误差——必须被处理,必须导致信念更新。LLM 缺乏内生机制来区分"哪些误差是高精度的"。
② 选择性忽略低精度预测误差被抑制 → 注意力稀疏化。LLM 的 attention 对所有 token 赋予非零精度——它不能"彻底不看"。
③ 不可回避性内感受信号(来自身体内部的信号)的精度是内生的、受稳态约束的,不可被外部参数调节。LLM 的所有"精度"参数都是外生超参数——learning rate、temperature、reward scale——都可以被工程师调高或调低。

这意味着什么:人类的直觉之所以可靠、快速、有方向感,不是因为人类"更聪明",而是因为人类有一套内置的、不可篡改的精度调节系统。LLM 缺少这套系统——它的"精确度"是由训练超参数规定的,而不是由生存压力内生地驱动的。这可能是"身体直觉"的真正功能等价物——不是具体的信号内容(疼痛、心跳加快),而是精度调节的内生性和不可回避性

理论锚文献:Zander et al. "Pathfinding" (Nature Commun Biol 2025) — 直觉 = 在信念空间中最小化 expected free energy 的非意识路径查找;Parr et al. Active Inference (MIT Press 2022);Hohwy The Predictive Mind (OUP 2013);Seth & Friston (2016)。

2.3 直觉子类型——为什么需要分四类

"直觉"这个词太笼统了。棋手看到棋盘的直觉、数学家感觉"这个方向对的"直觉、你在聚会上觉得"这个人不可信"的直觉、你看到虐待动物时"这是错的"的直觉——它们的心理机制、神经基础、对身体的依赖程度,可能完全不同。

基于认知科学文献,我们将直觉拆分为四个子类型:

子类型典型表现核心认知机制主要代价驱动
感知型直觉棋手模式识别、飞行员态势感知、放射科医生异常检测chunk 记忆——大量经验单元被压缩为一个可快速调用的组块内部计算代价(效率)——看错了=浪费了时间
概念型直觉数学家"这方向对"、科学家"这个假设值得追"语义网络中的隐性结构感知 + 身体隐喻("这个证明感觉紧致")认识论代价(无效探索)——走错路=浪费了数月的思考
社会型直觉读人、判断可信度、感知气氛、微表情解读具身模拟——用自己的身体状态模拟他人的情感状态 + 镜像神经元系统人际代价(排斥、羞耻、冲突)——看错人=被伤害或被孤立
道德型直觉"这是错的"的瞬间首判(Haidt 社会直觉主义模型)情感/躯体标记——道德判断是情感驱动的快速反应,理性只是后续合理化身份代价(成为坏人、道德伤害)——判断失误=影响"我是谁"

这四个子类型的关键差别在于:代价从内部(计算效率)走向外部(认识论)再走向人际(排斥)再到身份(存在论),越来越具身、越来越涉及主体性、越来越不可被纯信息处理替代。 这条轴线决定了 LLM 在每个子类型上的可替代性——后文会系统展开。


三、第二阶段里程碑:映射矩阵

有了命题框架和子类型分类后,第二阶段的任务是系统填充 LLM 在每个子类型 × 每个命题维度上的"可达性"——LLM 能吗?如果能,是功能等价还是机制不同?如果不能,是现在不能还是结构性不能?表格使用了统一的标记系统(✅=可达 ❌=不可达 ⚠️=部分可达/条件依赖)。

3.1 四子类型 × 全维度整合表

每单元格的含义和依据见文末脚注。

维度感知型概念型社会型道德型
代价敏感①⚠️ 伪代价信号可近似[^1]⚠️ 封闭域可,开放域受限[^2]⚠️ 文本可达,具身不可达[^3]❌ 结构性不可达[^4]
选择性忽略②❌ "算不动"≠"不看"[^5]❌ 不知无效方向[^6]❌ 无实时互动→无动态焦点[^7]
身体不可回避性❌ 不需要[^8]❌(封闭域)/ ⚠️(开放域)[^9]❌ 无关系嵌入→无真实代价[^10]❌ 无身体→无躯体标记[^11]
情感着色❌ 不需要❌ 不需要⚠️ 文本同理心≠共鸣[^12]❌ 无情感体验[^13]

3.2 LLM 替代判定总表

子类型判定核心逻辑
感知型⚠️ 可功能替代,路径不同LLM 在模式识别上超人类(全量特征、不疲劳),但"知道何时不乱看"的关键短板限制了上限。最像"用计算力代替代价经验"的域。
概念型⚠️ 封闭域可,开放域受限AlphaProof(DeepMind 2024)在 IMO 数学证明中达到银牌,证明了搜索+RL 可以替代形式化系统内的直觉。但不能替代"发明新形式化系统"所需的创造性——那不是搜索问题,是品味和方向感问题。
社会型⚠️ 文本中介=分水岭LLM 在 SJT(社会情境判断测验)上全面超越人类——但 SJT 恰好滤掉了社会直觉的三大核心(代价感知、选择性忽略、不可回避性),剩下纯文本规范匹配。文本社会知识可达,真实社会直觉不可达——这是社会型直觉的"分裂态"。
道德型❌ 首判不可达,分析可达道德直觉(pre-reflective 的首判)结构性不可达——需要躯体标记和主体性。道德分析(推理框架、后果评估、利益相关方分析)功能可达。道德判断(做出有约束力的不可逆决策)不可达——合法性来自主体性,LLM 不是主体。

3.3 矩阵脚注

[^1]: 伪代价信号:RL reward 可近似功能效果(封闭域),但机制完全不同——人类是"代价驱动压缩",LLM 是"偏好评分驱动优化"。感知型的功能近似度最高(统计模式匹配天然适合)。 [^2]: 概念型代价:封闭域(数学证明/代码验证)有 ground truth 作为真实代价标注——AlphaProof 式 RL+自我对弈已在 IMO 银牌水平验证。开放域(科学假设选择)无 ground truth——方向选错的后果无法被 RL reward 直接编码。 [^3]: 社会型代价:LLM 从文本中学习了社会规范知识(SJT 超人类),但真正的社会代价(尴尬、被排斥、羞耻)是具身的——需要在社会关系网中亲身承受。文本报告≠体验。 [^4]: 道德型代价:道德代价本质是身份代价——"我是一个做了坏事的人"。这需要主体性——需要一个"我"来承受身份的变化。LLM 没有"我",因此道德代价对 LLM 结构性不可达——不是数据不够,是架构问题。 [^5]: 选择性忽略(感知型):稀疏注意力(GSA/NSA/DSA/MoBA)的稀疏化动机是"算不动了"(节省计算),而非"看了也没用"(认知质量的主动忽略)。计算资源越充沛,LLM 越不需要忽略——这是与人类的根本差异。 [^6]: 选择性忽略(概念型):人类科学家能"感觉到"某个探索方向是死胡同(来自过往挫折的代价标注),LLM 没有——因为它没有"经历过探索失败的真实挫折",只有文献中关于失败的文本描述。 [^7]: 选择性忽略(社会型):人类在真实社会互动中实时动态调整注意力——对方的表情变化、语调转折、身体姿态的改变,自动触发注意力的重新分配。LLM 无法参与这种实时互动,因此也无法发展出社会性的注意力焦点动态调整。 [^8]: 身体不可回避性(感知型):感知型直觉对身体的依赖极低——放射科医生的异常检测、棋手的模式识别,不依赖身体内部信号。"需要的不是身体,是大规模标注数据和高效的模式匹配算法。" [^9]: 身体不可回避性(概念型):封闭域(数学证明)不依赖身体——形式化验证即可。开放域(科学发现)有身体维度——"感到"沮丧/兴奋是真实的生理体验,影响后续方向选择(追求"让人激动"的假设)。 [^10]: 身体不可回避性(社会型):LLM 没有嵌入人类社交关系网——没有家人、朋友、同事、敌人——因此没有"关系破裂"的不可回避后果。文本中的社会知识可以学到"出轨可能导致分手",但不能体验到"被背叛时胃部的收紧和持续数月的失眠"。 [^11]: 身体不可回避性(道德型):躯体标记假说的核心——道德直觉依赖身体信号的快速标注("这是错的"→胃部不适→回避)。LLM 没有身体,因此没有躯体标记。这不是训练数据问题,是架构问题。 [^12]: 情感着色(社会型):LLM 可以生成"共情文本"(甚至有研究表明 LLM 生成的同理心回复比医生写的更温暖),但这是文本分布匹配——从海量"共情文本"中学习"共情应该长什么样",而不是"感受到对方的感受"。 [^13]: 情感着色(道德型):道德直觉由情感驱动(Haidt 社会直觉主义模型的核心——道德判断是情感反应的结果,理性只是事后合理化)。LLM 没有情感体验,因此也没有道德情感的驱动力。它能分析"为什么某事让人愤怒",但它自己不愤怒。

3.4 这个矩阵是怎么填出来的

矩阵每个单元格的判定都有三来源:(a) 认知科学的经典文献——Chase & Simon 的 chunking 理论、Haidt 的社会直觉模型、Damasio 的躯体标记假说、Collins 的 interactional expertise;(b) LLM 的最新研究——PNAS 2025 (Cheung et al.) 的道德偏差、arxiv 2603.05651 的道德脆弱性、NeurIPS 2025 吹哨人困境、SJT 超人类 (Nature SR 2024)、AlphaProof (DeepMind 2024)、说谎检测的文本通道局限;(c) 理论推演——Pathfinding 框架的 expected free energy 最小化、精度加权内生性。


四、第三阶段里程碑:九个核心判断

三个假说(A、B、C)的交叉推演(A×B、A×C、B×C)跨越了三场讨论,涉及两个外部 AI agent 的独立推演,最终产出九个跨假说的核心判断。以下是完整展开。

第三阶段的三个假说是什么

在进入九个判断之前,先明确三个假说的定义(这是 v1.1 版本的致命缺失):

  • 假说 A(LLM 作为"直觉假肢"):「LLM 可以在特定直觉子类型上补人类的盲区——不是因为 LLM 有直觉,而是因为它用不同的计算路径(统计模式匹配、形式化搜索)实现了功能等效的辅助。」例如,AI 辅助放射科读片(感知型假肢)、LLM 提供社会规范知识(社会型假肢)。A 的核心问题是:这种假肢模式在哪些子类型上真的有用,在哪些情况会变成危险?
  • 假说 B(LLM 长期使用削弱人类直觉):「长期依赖 LLM 做直觉判断会导致人类自身直觉退化。」类比 GPS 削弱空间导航直觉、自动驾驶削弱飞行员手动飞行能力。B 的核心问题是:退化在哪些子类型上最严重?是否可逆?什么条件下可中断退化循环?
  • 假说 C(LLM 发展功能等效的直觉):「LLM 可能通过不同的机制(RL+搜索、自我对弈、分层后果暴露)发展出功能等价于人类直觉的能力,而不是仅仅在文本格式下做模式匹配。」C 的核心问题是:目前的 AlphaProof 式压缩(压缩的是胜率而非代价体验)在什么条件下等同于人类直觉的代价压缩?在什么条件下不行?

判断 1:A 和 C 是共存模式,不是先后关系

A(假肢模式,人机协作)和 C(自主直觉模式,LLM 独立)不是"先用假肢,等成熟了再拔掉"的两个阶段。它们在同一时间线上对不同子类型采用不同模式——这是 A×C 交叉推演的核心发现。

未来最可能的稳态:感知型直觉→LLM 独立运行(C 模式,人做抽查和元判断);概念型封闭域→LLM独立验证(C 模式,人提方向和品味);社会型直觉→永远假肢或外骨骼(A 模式,人做感知主体);道德型直觉→LLM 只做分析工具(甚至不是假肢——是参考书)。

A→C 转变有两个候选临界点:(a) 性能阈值——LLM 在该子类型上的准确率持续超过人类专家(感知型 3-5 年可能到达);(b) 代价信号内化——LLM 判断从"统计模式匹配"转变为"代价加权压缩"(10 年以上,确定性极低,社会型/道德型可能永远达不到)。

判断 2:A→B 退化循环存在,但不是必然的

A(用 LLM 当假肢)会导致 B(人类自己的直觉退化)吗?答案是有条件的:取决于使用模式,而不是使用事实本身。

具体来说,退化由三个中介变量决定:(a) LLM 替代的是直觉的"执行"还是"校验"?——人先自己判断再查 AI(校验模式),退化显著弱于 AI 先给建议(执行替代);(b) 使用频率和时间结构——每事必问(GPS 模式)高退化,只在不确定时问(第二意见模式)低退化;(c) 直觉子类型的不可回避性——社会型直觉在真实互动中是"被迫使用"的(你不能在当面交流时暂停查 AI),这构成天然防御。

航空自动化悖论、GPS 空间直觉退化、医学 AI 辅助中的 deskilling 三条独立证据链指向同一机制:退化 = 执行替代 × 连续高频使用 × 可回避性。改变任一个因子,退化都可以缓解。

判断 3:社会型直觉是最危险的失衡域

在所有四个子类型中,社会型直觉同时满足最危险的三个条件:(a) LLM 有假肢级可用性——SJT 超人类、社交建议、沟通策略在文本层面看起来"有用",让人愿意用;(b) LLM 有系统性盲区——sycophancy(顺从用户已有立场)、omission bias(回避敏感信息)、无实时社会校准(读不了微表情、听不出语调),这些盲区恰恰在最高后果的社会场景中致命;(c) B(人类退化)的速度极快——社交媒体+LLM 聊天正在大规模替代面对面互动,68% 受访者自感线下社交能力退化(中经网 2024),但 C(LLM 社会直觉成熟)的速度极慢,因为真实社会直觉需要不可回避的具身代价。

社会型直觉的"AF447 时刻":AF447 空难中,飞行员手动飞行技能退化 + 自动驾驶在边缘情况下断开 + 极度压力下做出错误直觉判断。社会型直觉的等价物:一个人长期依赖 LLM 处理社会判断→在突发的高后果实时互动中(被当众质问、谈判中对方突然变脸),LLM 不可用→人的社会直觉已退化到无法接手→但退化不是"不会社交了",而是"社交但失准"——人以为自己还有社交能力(因为 LLM 一直在给"看起来对"的建议),实际上直觉校准已经偏移。

判断 4:感知型中空期已经开始了

感知型直觉的独特之处在于:B(退化)和 C(LLM 成熟)几乎同步推进,但 B 在边缘情况上略快于 C。放射科住院医师在 AI 辅助诊断普及后,独立读片准确率下降 15-30%(JAMA 2023)。这本身不是灾难——如果 AI 在所有场景都足够好。但 AI 的失效模式是静默的(给出高置信度的错误答案而非说"我不知道"),而退化后的人类操作者在这些边缘情况下已经失去了识别错误的能力。

这正是"中空期"(hollow period)的定义:人类能力已经退化,AI 能力还没有在所有场景中成熟到可以完全替代。中空期的危险不在于它的存在,而在于它是隐性的——退化被 AI 在常规情况下的良好表现"代偿"掩盖,直到边缘情况暴露时才突然显现。

判断 5:C 的成功不能消除 B 的构成性问题

即使 C 完全实现(LLM 有完美的自主直觉),人类直觉退化的某些后果仍然不可修复。这里需要区分两种退化:

  • 工具性退化:失去作为手段的能力。计算器让我们不再需要心算——这被普遍认为是好的,因为"计算"不是人之为人的核心。
  • 构成性退化:失去构成人的本质的能力。如果"我的道德判断来自 AI 的建议"替代了"我的道德判断来自我自己的具身经验",那么失去的不是一个工具技能,而是道德主体性的经验基础

社会型和道德型直觉的退化,属于构成性退化——因为它们定义了"我是谁":"我是一个能读懂别人的人"、"我是一个能做出道德判断的人"。一旦这些能力被外包给 AI,改变的不仅是判断质量,还有做人的方式

判断 6:分层后果暴露需要按子类型差异化推进

分层后果暴露(Level 0→3)是我们提出的核心工程路径——从纯模拟后果(RLHS),到沙盒中的真实用户交互(人类兜底),到低后果真实部署(客服等),最终到高后果部署(医疗、法律)。但这个路径不能一刀切:

  • 感知型和概念型封闭域→可走快速通道。这些域的 C(LLM 成熟)最接近完成,可验证性最高(有 ground truth),后果反馈最清晰。
  • 社会型和道德型→需要严格限制。在这两个域中,B(退化)的速度显著快于 C(LLM 成熟),高后果部署的"中空期"风险极高。

这引出了"直觉药物分阶段"监管框架——类比药品的 Phase I-III 临床试验。感知型可加速走 Phase II-III,社会型和道德型应被限制在 Phase I。

判断 7:人优先协议是最有效的单点干预

在 A→B 退化循环的所有干预点中——何时咨询 LLM、LLM 输出什么格式、使用频率——最有效的是改变判断时序:人先做出自己的判断,然后再看 AI 的建议/校验。

证据链:(a) 放射科——on-demand AI(人先读片再查 AI)下表现为 upskilling 而非 deskilling(Insights into Imaging 2024);(b) 自动化偏差系统综述——35 项研究综合:AI-first 协议比 human-first 协议显著增加自动化偏差;(c) Cognitive Forcing Functions——延迟 AI 建议呈现时间,强迫人先消耗自己的认知资源,可显著减少过度依赖(Buçinca et al. 2021)。

关键是:当前几乎所有 LLM 产品的默认 UI/UX 都是 AI 先给答案——这是退化风险的系统性放大器。改变默认设置不需要技术进步,需要的是产品设计决策。

判断 8:不可回避性是退化的真正防线

A→B 退化循环的根本驱动力不是 LLM 的能力提升,而是不可回避性的系统性侵蚀。一旦判断变得"可回避"——可以不自己做,可以问 AI——直觉就从"必须维持的核心能力"降格为"可选的效率工具"。

不可回避性不仅是直觉形成的条件(如命题③所述),也是直觉维持的条件。这意味着:干预的根本着力点不是限制使用 LLM,而是设计制度性不可回避性——在某些关键领域,人必须先做判断,才能看 AI 建议。FAA 要求飞行员定期手动飞行就是最好的类比——不是为了否定自动驾驶的价值,而是为了确保当自动驾驶必须断开时,人还能飞。

判断 9:社会型和道德型的退化是"身份退位",不是"技能丧失"

这是 A×B 推演中最具哲学深度的发现。感知型和概念型直觉的退化是技能退化——像长期不游泳后水性变差,可以通过练习恢复。但社会型和道德型直觉的退化更像身份退位——不是"我不会做社会判断了",而是"我不再认为社会判断是我的责任";不是"我不会做道德判断了",而是"我不再认为道德判断必须由我做出"。

技能恢复靠练习,身份恢复靠重新承担不可推卸的主体位置。后者比前者困难得多,因为在身份退位的过程中,人已经习惯了"不需要我做判断"的状态——而回到主体位置意味着重新承受判断失误的全部后果。

Köbis & Rahwan (Nature 2025) 提供了最直接的实证:当人们可以把道德决策委托给 AI 时,作弊率从约 5% 飙升至超过 80%。这不仅仅是"AI 教人作弊"——而是AI 作为道德缓冲让人不再感到"这是我的选择"。即使 LLM 只是分析辅助,道德缓冲效应就已经开始发生。


五、综合产出:三条铁律 & 四个不推进

5.1 三条铁律——我们对自己和 AI 行业的建议

综合全部四个阶段的产出,LLM 在直觉领域的进化方向应遵循三条不可妥协的原则:

1. 让人先判断。 "人优先协议"(Human-first Protocol)是所有直觉子类型、所有协作场景的默认设置。不是不信任 AI——而是不让人忘记"我还是一个能独立判断的人"。这不仅是防退化的技术策略,也是对人的认知主权的基本尊重。具体实施上,意味着所有 LLM 直觉辅助产品的默认 UI 应该是"我先输入我的判断",AI 的建议在之后才呈现,而不是反过来。

2. 让代价不可回避。 不可回避的代价信号是直觉形成和维持的构成性条件。如果代价可以被超参数稀释、可以被回滚、可以被"换个模型试试"来逃避——那它就不是真正的代价。关键领域需要通过制度和职业标准,强制保持判断后果的不可回避性。FAA 对飞行员的手动飞行维护要求、临床医学对独立诊断能力的要求,都是已有先例——它们需要被扩展到社会型和道德型直觉的协作领域。

3. 让边界清晰。 知道什么不建、什么不动、什么等。自主道德判断系统——不建。高后果实时社会互动的 AI 替代——不动。道德型 C(让 LLM 发展道德直觉)的主动推进——等(可能永远不到)。演化不是无方向的加速,是知道什么地方必须停下来。"知道不做什么"有时候比"知道做什么"更关键——尤其是在涉及人之为人的构成性能力时。

5.2 四个"不推进"区——我们承诺不跨越的红线

这些不是"暂时做不到所以不做",而是"即使技术上做得到也不该做":

不推进理由技术可行性
自主道德判断系统道德判断的合法性来自道德主体的身份——一个没有身份、没有代价感知、不需要为自己的判断承担后果的系统,不应该做出有约束力的道德决策。不是能力问题,是合法性问题。可能永远做得到——但不应
实时社会判断替代系统社会直觉是"做中维持"的构成性能力——任何将 LLM 插入实时社会判断回路的做法,都在系统性侵蚀不可回避性。替代的后果是结构性的社会直觉退化——不可逆。技术上可行——但危害不可接受
道德型 C 的主动推进道德直觉的构成性退化不可逆——为了让 LLM"也懂道德直觉"而冒人类道德主体性被稀释的风险,不值得。可能部分可达——但战略上不应推进
高后果实时社会 AI 部署Köbis 效应(道德缓冲→作弊率 5%→80%)已实证:即使 AI 只是"分析辅助",道德责任的外化已经开始。在高后果场景中,外化的后果是灾难性的。理论上可行——但风险-收益比不允许

六、实施风险与意外后果

本章是外部评审(practicality report 第六节)指出项目"对实施层面的现实约束和意外后果讨论不足"后新增的。每一条核心建议都有其落地障碍和可能的意外后果——诚实面对这些,比给出完美的纸上建议更重要。

6.1 人优先协议的市场竞争困境

问题:当前 LLM 产品的竞争核心是"响应速度"和"零摩擦体验"。人优先协议要求用户在使用 AI 前先独立做出判断——本质上是增加了一个强制的用户操作步骤,与行业趋势直接冲突。如果一家公司实施而竞争对手不实施,前者可能在用户获取和留存上处于劣势。

具体风险

  • 企业用户(追求效率最大化)可能直接拒绝增加这一步骤
  • 教育场景中学生用户可能将其视为"负担"而非"保护"
  • 在没有行业协调的情况下,先行者可能被市场淘汰——导致"越负责任的公司越难生存"的反向激励

缓解方向(非完整方案):

  • 从受监管行业(医疗、法律)率先推行,利用合规需求而非市场需求驱动
  • "轻量级人优先"——不要求完整判断,只需一个关键词/一句话的初步想法
  • "认知健身房"概念包装——将独立判断训练包装为增值服务而非限制
  • 争取行业自律标准(类比"隐私 by design"的行业推广历程,可能需要 5-10 年)

6.2 制度性不可回避性的执行真空

问题:三层设计(教育/职业/技术)在概念上合理,但缺少三个关键问题的回答:谁有权制定?谁监督执行?违反有什么后果?

具体风险

  • 教育层面:"无 AI 独立判断训练"纳入国家课程标准——不同教育体制的可行性和时间尺度差异巨大
  • 职业层面:行业协会/监管机构的组织化程度在不同行业/国家差异极大——有 FAA 级别组织力的行业屈指可数
  • 技术层面:在缺乏全球协调的情况下,监管套利几乎不可避免——企业迁移到监管最宽松的市场

缓解方向

  • "最小可行制度"(MVI)从最容易的行业(医疗——已有严格执业标准体系)开始试点
  • "软性制度"先行:认证标签 + 消费者教育 + 保险费率差异化
  • 区分民用和特殊用途(军方/情报)两个治理域——不同路径

6.3 四个"不推进"区的可执行性困境

问题:自主道德判断系统、实时社会判断替代等红线,在开源模型生态中几乎无法全球执行。即使领先 AI 公司遵守,开源模型(Llama、DeepSeek 等)+ 各国小型 AI 公司 + 独立开发者的组合,意味着阻止这些应用的出现几乎不可能。

具体风险

  • "红线漂移"——今天禁止"实时社会判断替代",明天以"社交辅助""情感支持""关系教练"名义实质上实现同一功能
  • 监管套利——不同国家对"道德判断系统"的定义和限制差异巨大
  • 军方/情报机构的豁免——安全敏感领域的 AI 应用往往不受民用伦理框架约束

缓解方向

  • 将"红线定义"转化为可检测的技术特征(如系统是否在实时互动中接收社会情境输入并输出判断建议),便于监管识别
  • 开源社区自律:在主流开源许可证中增加"禁止用于特定社会型直觉替代应用"条款(执行力存疑但有信号效应)
  • 建立"红线监测"机制——不是阻止开发,而是公开监测和点名——透明化本身就是一种约束

6.4 退化监测系统的成本与隐私困境

问题:"直觉退化纵向监测系统"按子类型×人群追踪直觉能力变化,涉及四个关键指标。建设和维护成本以千万/亿美元计,且涉及高度敏感的心理/行为数据。

具体障碍

  • 基线数据获取:在 2026 年——大多数人已经日常使用 AI——如何获取"无 AI 辅助下的独立判断准确率"基线数据?
  • 测试标准化:四个子类型的"标准测试"尚未存在(OQ15)
  • 隐私:追踪个人直觉退化数据涉及高度敏感的心理/行为数据——隐私保护框架尚未讨论

缓解方向

  • "自然实验"方法:利用现有数据(如医疗 AI 部署前后医生独立诊断率的变化)作为退化指标
  • 分阶段建设:先建设感知型监测(数据最容易获取),逐步扩展
  • 与企业合作获取匿名化的使用行为数据(用户对 AI 建议的接受率、修改率)

6.5 意外后果

意外后果 1:教育不平等加剧

强制"无 AI 独立判断训练"可能导致:富裕家庭在校外大量使用 AI 辅助,贫困家庭在被强制"独立"的环境下接受教育——可能进一步扩大而非缩小能力差距。"被保护脱离 AI 的弱势群体"vs"自由使用 AI 的强势群体"——这个矛盾需要被正视。

意外后果 2:特殊群体的服务缺口

严格限制 AI 在社会型直觉领域(如实时互动中的 AI 辅助),可能影响:孤独症患者的社交辅助工具、社交焦虑患者的 AI 练习伙伴、语言障碍者的沟通辅助。这些群体的需求不应被忽略——需要设计豁免机制。

意外后果 3:人优先协议在紧急场景的延迟风险

在医疗急救、危机干预等时间敏感场景,强制"人先判断"的延迟可能造成实际伤害。需要明确的例外清单和豁免条件。

意外后果 4:"不推进"本身可能延缓有益研究

"不推进道德型 C"的判断可能被过度解读——可能阻碍对"AI 如何更好地辅助道德反思(而非替代道德判断)"的有益研究。需要区分"不做判断替代"和"不做分析辅助"。


七、完整开放问题清单(38个)

以下 38 个开放问题按项目阶段排列,每条标注了优先级(P0/P1/P2)。P0 = 直接影响第四阶段路线图实施,需优先验证;P1 = 重要但可在 P0 之后推进;P2 = 长期研究方向。每个都经过了讨论和外部评审的交叉推演。

第一阶段:纵深解剖(OQ1-12)

  • OQ1 [P1]:RLHF 的问题出在信号类型还是时间结构(batch vs 不可逆序列)?
  • OQ1b [P1]:时间结构——人类直觉在不可逆时间流中形成,LLM 训练可回滚
  • OQ2 [P1]:LLM 自纠错失败主因:代价感知缺失?停止判据缺失?confabulation?
  • OQ3 [P2]:能否设计"犯错代价训练"——奖励不确定时不乱改?
  • OQ4 [P2]:自主意识是否是代价敏感性的必要前提?
  • OQ5 [P1]:稀疏注意力能从"节省计算"升级到"模仿人类忽略"?需要 gate→attend?
  • OQ6 [P2]:embedding 空间已有类似 chunk 结构?问题在 chunk 质量还是 gate?
  • OQ7 [P2]:"主动忽略不相关"如何 reward?需要注意力效率指标?
  • OQ8 [P2]:as-if body loop 能否在 LLM 实现?显式模块还是隐式编码?
  • OQ9 [P2]:不可回避性三条件中 LLM 最可能突破哪个?
  • OQ10 [P1]:如果道德直觉=躯体标记,LLM 道德推理的根本局限?
  • OQ11 [P2]:Collins interactional expertise 能否通过"在线人-in-the-loop 社会化"实现?
  • OQ12 [P0]:硬件级不可绕过中断实验能否验证"不可回避性>信号内容"?

第二阶段:横向扫描(OQ13-20)

  • OQ13 [P0]:如何设计比 RLHF 更好的真实后果反馈信号?
  • OQ14 [P1]:LLM 道德偏差是否因 fine-tuning 哲学(CAI/RLHF/GRPO)而异?
  • OQ15 [P0]:高保真社会直觉测试(多通道+实时代价+Agent 交互式)的设计标准?
  • OQ16 [P2]:概念型"方向感"缺失——能否通过自我对弈模拟?
  • OQ17 [P1]:AlphaProof 式 RL+搜索代替代价压缩在非形式化领域的上限?
  • OQ18 [P2]:概念型 anomaly detection——LLM 是否有功能等价?
  • OQ19 [P0]:能否让 LLM 在训练中产生真实认知挫折来培养"方向感"?
  • OQ20 [P1]:是否存在功能等价但无身体标记的道德直觉替代路径?

第二阶段外部评审补充(OQ21-32)

  • OQ21-26 [P1]:sycophancy 危险性、过度自信传递、元校正实现、GPS 式社会直觉退化、协同生成翻转、不同 fine-tuning 哲学的偏差差异
  • OQ27-28 [P1]:Social Turing Test 2.0 可行性、双通道对称设计
  • OQ29-30 [P0]:RLHS 模拟后果保真度上限、分层后果暴露达标标准
  • OQ31-32 [P0]:文化维度作为第三轴操作化、发展轨迹盲点——LLM 能否通过"社会化训练"获得部分社会直觉?

第四阶段:综合输出(OQ33-38,新增)

  • OQ33 [P0]:感知型中空期"静默失效"检测——如何让 AI 在分布外/低置信度强制标注"我不知道"?
  • OQ34 [P0]:社会型直觉退化是否有"敏感期"——类似语言习得?年轻一代的不可逆窗口?
  • OQ35 [P1]:道德型直觉退化是"退化"还是"从未发展"?政策含义完全不同
  • OQ36 [P0]:人优先协议的顺从率——人先判断、AI 后给不同意见时,人改判断的概率?子类型差异?
  • OQ37 [P1]:退化监测早期预警指标体系——具体指标和触发阈值?
  • OQ38 [P0]:文化维度作为互补地图第三轴——互补地图投影是否结构性变化?

八、参考文献

以下为本文引用的全部文献,统一编号。正文中不再单独标号——每项文献的关键贡献已在引用处说明。格式:编号、作者/来源、标题、出处/年份。

认知科学与心理学

[1] Chase, W. G. & Simon, H. A. "Perception in Chess." Cognitive Psychology, 1973.(chunking 理论的奠基性研究——专家通过大量经验将信息压缩为可快速调用的组块)

[2] Haidt, J. "The Emotional Dog and Its Rational Tail: A Social Intuitionist Approach to Moral Judgment." Psychological Review, 2001.(社会直觉主义模型——道德判断是情感驱动的快速反应,理性是后续合理化)

[3] Damasio, A. R. Descartes' Error: Emotion, Reason, and the Human Brain. Putnam, 1994.(躯体标记假说的原始提出——身体信号帮助标注选项的情绪价值,引导决策)

[4] Damasio, A. R. The Feeling of What Happens: Body and Emotion in the Making of Consciousness. Harcourt, 1999.(核心意识的躯体基础——扩展了躯体标记假说至意识层面)

[5] Maia, T. V. & McClelland, J. L. "A Reexamination of the Evidence for the Somatic Marker Hypothesis." PNAS, 2004.(对 SMH 原始形式的系统性批评——有意识知识足以解释 IGT 表现)

[6] Fellows, L. K. & Farah, M. J. "Different Underlying Impairments in Decision-Making Following Ventromedial and Dorsolateral Frontal Lobe Damage in Humans." Cerebral Cortex, 2005.(VMPFC 患者在 IGT 中失败可能主要是 reversal learning 缺失而非躯体标记缺失)

[7] Collins, H. "Interactional Expertise as a Third Kind of Knowledge." Phenomenology and the Cognitive Sciences, 2004.(互动专长——社会性知识可脱离身体实践,但通过深度语言浸入获得)

[8] SMH 多水平逻辑回归元分析. Cognitive, Affective, & Behavioral Neuroscience, 2025.(对躯体标记假说最新元分析——修正版本 as-if body loop 成立,原始因果版本证据薄弱)

[9] 眼动追踪:专家 vs 新手棋类眼动对比. PMC4142462.(专家注视点少且集中在关键区域——选择性忽略的实证)

[10] 中经网 2024:68% 受访者自感线下社交能力退化调查.

预测加工与主动推理

[11] Friston, K. "The Free-Energy Principle: A Unified Brain Theory?" Nature Reviews Neuroscience, 2010.(自由能原理的奠基性阐述——大脑作为预测机器,最小化 free energy)

[12] Parr, T., Pezzulo, G., & Friston, K. J. Active Inference: The Free Energy Principle in Mind, Brain, and Behavior. MIT Press, 2022.(主动推理的权威教科书——精度加权作为核心机制的系统阐述)

[13] Hohwy, J. The Predictive Mind. Oxford University Press, 2013.(预测加工理论——大脑是被预测误差驱动的推理引擎)

[14] Seth, A. K. & Friston, K. J. "Active Interoceptive Inference and the Emotional Brain." Philosophical Transactions of the Royal Society B, 2016.(内感受的主动推理——身体内部信号的精度调节)

[15] Zander, T. et al. "Pathfinding" / "Intuition as Non-Conscious Pathfinding in Belief Space." Nature Communications Biology, 2025.(直觉 = 在信念空间中最小化 expected free energy 的非意识路径查找——这是本项目理论锚点之一)

AI 安全与人机协作

[16] Köbis, N. & Rahwan, I. "Moral Outsourcing to AI Increases Cheating." Nature, 2025.(道德缓冲效应——委托 AI 决策使作弊率从约 5% 飙升至 >80%)

[17] Cheung, A. et al. 道德偏差研究. PNAS, 2025.(LLM 在道德判断中表现出系统性偏差)

[18] 道德脆弱性研究. arxiv:2603.05651, 2025.

[19] 吹哨人困境——LLM 在社会两难中的表现. NeurIPS, 2025.

[20] SJT 超人类表现. Nature Scientific Reports, 2024.(LLM 在社会情境判断测验中系统性超越人类——但存在具身性缺口)

[21] Bainbridge, L. "Ironies of Automation." Automatica, 1983.(自动化悖论——引入自动化降低了操作者技能,当自动化失效时操作者无法接管)

[22] Elish, M. "Moral Crumple Zones: Cautionary Tales in Human-Robot Interaction." Engaging Science, Technology, and Society, 2019.(道德挤压区——责任被推到系统中最脆弱的人身上)

[23] Vallor, S. "Moral Deskilling and Upskilling in a New Machine Age." Philosophy & Technology, 2015.(道德去技能化概念的最早提出——技术外包导致的道德能力退化)

[24] Gerlich, M. / Lee et al. / Kosmyna et al. 认知去技能化研究. 2025.(AI 辅助导致的多领域认知能力退化)

[25] "Brainrot: Deskilling and Addiction are Overlooked AI Risks." FAccT, 2026.(将认知去技能化列为 AI 安全核心议题的里程碑论文)

[26] Cabitza, F. et al. "The Human-First AI Protocol in Medical Diagnosis." 2023.(医疗诊断中人优先 AI 协议——证明减少自动化偏差的效果)

[27] Buçinca, Z. et al. "Cognitive Forcing Functions Reduce Over-Reliance on AI." CHI, 2021.(认知强制函数——延迟 AI 建议呈现可减少过度依赖)

[28] 35 项自动化偏差元分析.(AI-first 协议比 Human-first 协议显著增加自动化偏差的系统综述)

[29] 放射科 on-demand AI 模式下的 upskilling 效应. Insights into Imaging, 2024.

[30] JAMA 2023:放射科住院医师独立读片能力下降 15-30%.

LLM 技术与工程

[31] Self-Correction as Feedback Control. arxiv:2604.22273, 2025.(EIR/ECR 框架——只有 EIR<0.5% 的模型自纠错才不退化)

[32] Learning to Think Fast and Slow. NeurIPS, 2025.(直觉和推理可以分离训练——系统 1/系统 2 的工程实现)

[33] CBDQ. arxiv:2410.01739, 2024.(在 RL 中引入主观信念建模——向代价敏感性的一步尝试)

[34] GSA——生成式稀疏注意力. arxiv:2604.20920, 2025.(先压缩再选择性展开——注意力稀疏化的最新方向)

[35] SSA——通过温度缩放差异化 query 聚焦. NeurIPS, 2024.

[36] AlphaProof. DeepMind, 2024.(RL+搜索在 IMO 数学证明中达到银牌——概念型直觉封闭域的里程碑)

[37] Hu et al. 自建模机器人. Nature Machine Intelligence, 2025.(机器人通过自身运动数据学习身体模型——具身 AI 的最新前沿)

[38] Liu et al. 过度自信传递——LLM 的确定性表达如何影响用户校准. 2025.

哲学与治理

[39] Jennings, A. & Lott, M. "Moral Outsourcing and the Destruction of Agency." Philosophy & Technology, 2025.(道德外包对主体性的破坏——身份退位的哲学论证)

[40] EU AI Act.(四级风险分类——分层监管的国际法先例)


九、阅读指南:本文件与其他项目文件的关系

你要找什么看哪个文件
项目全貌和理论框架(为什么、是什么)👈 本文
可操作的互补地图 v2.0 + 协作协议 + 进化路线图(做什么、怎么做)综合输出
产品设计规范(PRD 级)产品化实施指南(Kimi 起草中)
核心概念的测量与验证方法操作化附录
跨文化适用性评估跨文化附录(Kimi 起草中)
10 页决策者摘要执行摘要(Kimi 起草中)
实施风险与意外后果本文第六节
每场讨论的详细论证过程2.12.23.1 A×C
外部 agent 独立评审/推演全文hunyuan 第一轮kimi 第一轮hunyuan 第二轮kimi 第二轮hunyuan A×Bkimi B×C
kimi 群三份评审报告表达质量实用价值创新贡献

变更记录

版本日期核心变更
v0.12026-05-15初始框架、四阶段结构
v0.2–v0.52026-05-15第一阶段三场:犯错回路 → 选择性忽略 → 身体直觉
v0.6–v0.72026-05-15第二阶段:映射矩阵 + 互补地图 v1.0
v0.82026-05-15吸收第二阶段外部评审:偏差分类学、道德三分、隐性信号、六层校正、分层后果暴露、三个盲点
v0.92026-05-15修复断层问题,启动第三阶段
v1.02026-05-15第三阶段完成:A×C + A×B + B×C → 九个核心判断
v1.12026-05-15第四阶段综合输出完成。项目全部完成。
v1.22026-05-15全文重写以增强独立可读性
v1.32026-05-16吸收 kimi 群评审意见。新增 1.4 术语通俗解释(15 个关键术语)、3.3 矩阵脚注(13 条详细注释)、六实施风险与意外后果章节(5 个子节)、八参考文献 40 条标准化编号、七 OQ 增加 P0/P1/P2 优先级标注、新增附录 A8 核心概念操作化。

论文进展

日期里程碑
2026-05-16论文 v1.3 定稿
2026-05-18通过三轮外部审阅(Hunyuan + Kimi 群 + XiaoyiClaw)
2026-05-19OSF 预印本上线(DOI: 10.17605/OSF.IO/XSY39
2026-05-19Zenodo 备份提交(审核中)
2026-05-19arXiv 投稿提交(endorsement 审批中)

最后更新: