Skip to content

附录:核心概念操作化

版本:v1.0 | 2026-05-16 | 项目 v1.1 新增附件

目的:将项目的核心理论概念转化为可测量、可验证的操作化定义。为后续实证研究(OQ 实验设计)和产品开发(监控指标)提供测量基础。

前置阅读:主文档第二、三、四节。


一、为什么需要操作化

项目的理论框架有两个反复被外部评审指出的缺口:(1) 核心概念的判定标准目前是定性的(✅/❌/⚠️),缺少可操作的阈值;(2) 互补地图的每个单元格在某个具体场景中应该填什么,缺乏标准化的判定流程。

本附录试图填补这两个缺口——不是给出所有答案(许多是 OQ 的验证对象),而是为每个核心概念提供至少一个可操作的测量路径或实验范式。未解决的问题标注为"待验证(见 OQx)"。


二、代价敏感压缩的测量

2.1 理论定义

代价敏感压缩 = 经验被按"犯错的代价大小"加权后编码为快速可调用的直觉模式。

2.2 人类中的操作性指标

指标测量方法已有范式
高代价模式识别速度比较被试对"高代价错误"模式 vs "低代价错误"模式的识别 RT(反应时间)差异IGT(Iowa Gambling Task)的惩罚牌 vs 奖励牌选择延迟
代价加权记忆保留测试一周/一月后对不同代价级别模式的再认准确率情绪记忆增强效应范式(高唤醒事件记忆>低唤醒)
直觉-分析迁移熟练者在"直觉条件"(快速反应)和"分析条件"(延迟反应)下的准确率差距Chase & Simon 棋局回忆范式、放射科"快速 vs 系统"读片对比

2.3 LLM 中的对应测量

指标测量方法状态
RL reward 加权效应比较 reward 高 vs 低的训练样本对模型输出概率的影响程度可通过 reward-weighted 采样分析实现
"高代价"样本的注意力偏重给模型输入标注了"高代价"标签的文本后,测量其对相似模式的识别速度待验证(见 OQ13)
功能替代效果在封闭域任务(AlphaProof 式)中,比较 RL reward 加权和真实代价加权在最终准确率上的差距可设计实验:RL reward 训练 vs 真实后果反馈训练,比较收敛速度和泛化能力

2.4 核心操作化问题(OQ13)

如何设计比 RLHF 更好的真实后果反馈信号?伪代价信号和真实代价信号在功能效果上的差距在什么条件下可忽略?

实验方向:选择封闭域任务(如数学证明、代码验证),对比三组训练信号:纯 RL reward、真实后果(ground truth 验证结果)、混合。测量指标:收敛速度、分布外泛化、异常检测能力。


三、选择性忽略的测量

3.1 理论定义

选择性忽略 = 主动抑制对"已知不相关"信息的注意力——不是因为处理不了,而是因为处理了反而降低判断质量。

3.2 人类中的操作性指标

指标测量方法已有范式
专家注视稀疏度眼动追踪测量注视点数量、注视时间、扫视路径长度棋类专家 vs 新手的眼动对比(专家注视点少且集中在关键区域,PMC4142462)
干扰抑制率在被试做直觉判断时引入无关信息,测量准确率下降幅度Stroop 任务变体、flanker 任务
知道不看率(Know-what-to-ignore)在信息过载场景中,测量被试"主动选择不查看"的信息比例信息搜寻实验:给被试可选的信息来源,追踪其选择性浏览行为

3.3 LLM 中的对应测量

指标测量方法状态
注意力稀疏度测量模型在处理输入时,attention weight 集中在前 k% token 上的比例(Gini 系数或 HHI 指数)可用 attention rollout 或 gradient-based 归因分析
不相关信息影响度输入中加入不相关信息(如无关背景故事),测量输出质量的下降幅度可设计 benchmark:在标准测试中加入"干扰 token",比较有/无干扰时准确率
"算不动"vs"不看了"的区分变化计算资源(如增加/减少 attention heads、sequence length budget),观察稀疏化是否变化待设计——这是 OQ5 的核心

3.4 核心操作化问题(OQ5)

稀疏注意力能否从"节省计算"升级到"模仿人类忽略"?需要什么机制(如 gate→attend 策略)?

实验方向:设计一个包含"已知不相关"信息标注的训练任务,让模型学习"看到某种 cue 就完全跳过对应 token 的 attention"。对比标准稀疏注意力(基于计算资源动态稀疏化)和 cue-triggered attention suppression 在干净输入和带干扰输入下的表现。


四、不可回避性的测量

4.1 理论定义

不可回避性 = 代价信号必须被必然送达和感知——不可撤回(后果已发生)、主体可及(能被自己感受到)、语义确定(清楚后果意味着什么)。

4.2 人类中的操作性指标

条件操作化定义测量方法
不可撤回后果发生后无法通过"重来一次"消除设计任务 A:结果可回滚(可撤销决策);任务 B:结果不可回滚(真实且不可逆)。比较两组在 A 和 B 上的学习速度
主体可及后果能被决策者自身直接体验(而非被告知)比较"亲自体验后果"vs"阅读后果报告"vs"观看他人体验后果"三组在直觉形成上的差异
语义确定后果与决策之间的因果关系清晰可辨设计不同因果透明度的任务——直接因果(按下按钮→电击)vs 延迟因果(按下按钮→一周后→间接后果),比较学习速度

4.3 LLM 中的对应测量

条件LLM 对应差距分析
不可撤回RL 训练可回滚(调整 reward scale、重新训练)LLM 的"后果"总是可被参数调整稀释——这是结构性差距
主体可及LLM 的"后果"是 loss 函数的值,不是体验待验证(见 OQ12):硬件级不可绕过中断——让 LLM 判断的直接后果触发不可逆的架构修改(如权重锁定)
语义确定RL reward 信号的"因果归因"是统计性的(整个序列的 reward),不是 token 级别的LLM 的代价信号与具体决策之间的因果对应度远弱于人类

4.4 核心操作化问题(OQ12)

硬件级不可绕过中断实验能否验证"不可回避性 > 信号内容"?

实验设计思路

  1. 设立两组 LLM 训练条件:A 组收到标准的 RL reward 信号(可调),B 组在关键决策点触发不可逆的架构修改(如冻结部分权重、降低 learning rate)
  2. 比较两组在直觉密集型任务上的学习效率和质量
  3. 预测:如果不可回避性本身(而非信号内容)是直觉形成的关键,B 组应在收敛后的"直觉质量"上显著优于 A 组——即使两种信号在数值上等价

五、构成性退化 vs 工具性退化的测量

5.1 理论定义

  • 工具性退化:失去作为手段的能力(技能层面)——可恢复
  • 构成性退化:失去构成"我是谁"的能力(身份层面)——可能不可逆

5.2 操作化区分

维度工具性退化指标构成性退化指标
行为层面独立判断准确率下降"我认为我有能力做出独立判断"的自我效能感下降
动机层面"我不想自己做,因为麻烦""我不觉得需要自己做"——判断责任的感知转移
恢复层面通过训练可恢复到基线水平"我是判断者"的自我认知需要重建——比技能重建更慢
测量工具准确率、RT、校准度等传统认知指标判断自主性量表("在 XX 情境中,我认为做出道德/社会判断是我自己的责任")

5.3 测量建议

独立判断准确率(工具性):标准认知测试,在无 AI 条件下测量四子类型任务的正确率

自我效能感(构成性):Likert 量表——"在没有 AI 帮助的情况下,我相信自己能准确判断一个人的可信度"(社会型)、"我信任自己的第一道德直觉"(道德型)

判断责任归属(构成性,最关键指标):

  • 场景描述:"你在工作中遇到一个道德困境,你的第一反应是___"
  • 选项:A. 独立思考判断 / B. 先问问 AI 怎么分析 / C. 以 AI 的分析为主要依据
  • 这项指标如果系统性从 A 向 B/C 偏移,即为构成性退化的信号

追踪设计建议:同一人群(按 AI 使用习惯分组)纵向追踪 2-5 年,每 6 个月测量一次上述三个指标。如果在工具性退化回升(通过训练恢复准确率)后,责任归属和自我效能感仍然低于基线——支持"构成性退化比工具性退化更难恢复"的假说。


六、中空期的检测

6.1 理论定义

中空期 = 人类能力已经退化到无法独立完成关键任务,而 AI 能力尚未在所有场景中成熟到可以完全替代的时间窗口。

6.2 检测指标

指标定义数据来源
人类独立能力曲线在无 AI 辅助下的判断准确率,随时间变化的趋势突击测试(surprise unassisted test)
AI 能力曲线AI 在该任务上的准确率(包括边缘情况/分布外情况)标准 benchmark + 对抗性/分布外测试集
覆盖缺口AI 在常规场景上的准确率 - AI 在边缘场景上的准确率同上
失效模式检测率人类操作者能识别 AI 错误的比例"AI 正确 vs AI 错误"的混合测试

6.3 中空期判定

当以下三个条件同时满足时,中空期已进入:

  1. 人类独立能力 < 安全阈值(如 70% 准确率,视领域而定)
  2. AI 常规场景准确率 > 95%(让人觉得"AI 够好了")但 AI 边缘场景准确率 < 安全阈值
  3. 失效模式检测率 < 50%(人类已无法有效识别 AI 的边界外错误)

6.4 当前最紧迫的监控领域

根据退化风险热力图,感知型(放射科)的中空期可能已开始。建议优先在以下场景建立监测基线:

  • 医疗影像诊断(放射科、病理科):已有部分实证数据
  • 代码审查(code review):AI 代码审查工具快速普及
  • 安全监控(security monitoring):AI 安全告警分析

七、互补地图单元格的填充标准

7.1 当前填充方法

当前互补地图的每个单元格(✅/❌/⚠️)基于三来源的综合判断:(a) 认知科学文献、(b) LLM 最新研究、(c) 理论推演。但缺少系统化的填充标准。

7.2 标准化填充流程(建议)

对于"LLM 在子类型 S 维度 D 上的可达性"判定,按以下步骤:

步骤 1:定义该子类型/维度组合的最低功能要求
  (如"社会型×代价敏感":LLM 需要能区分高社会代价情境和低社会代价情境,且对前者给出更保守/更准确的反应)

步骤 2:检查是否存在测试该要求的 benchmark
  (如有:SJT 的相关子任务;如无:标注"缺少测试——此为空白域")

步骤 3:检查 benchmark 是否包含不可回避性要素
  (如 benchmark 是纯文本的 → 判定可能被高估,标注"文本中介偏差")

步骤 4:综合判定
  - 如果有包含不可回避性的 benchmark 且 LLM 通过 → ✅
  - 如果仅有纯文本 benchmark 通过 → ⚠️
  - 如果所有 benchmark 均未通过 → ❌
  - 如果从该维度的定义出发,LLM 在架构上不可能满足 → ❌ 结构性不可达

7.3 当前各单元格的填充置信度

子类型 × 维度填充置信度不确定性来源
感知型 × 代价①中高伪代价信号的功能差距量化不足
感知型 × 忽略②OQ5/6/7 已明确分析路径
概念型 × 代价①封闭域已有 AlphaProof 证据,开放域缺乏数据
概念型 × 忽略②中低方向感缺失的"替代品"实验尚未做(OQ19)
社会型 × 代价①中高SJT 局限性已明确,缺少多通道对比数据(OQ15)
社会型 × 忽略②无实时社会 AI 交互实验
道德型 × 代价①中高Köbis 效应支持,但道德心理实验的生态效度待提升
道德型 × 身体③结构性不可达的论证较稳固

八、退化风险热力图的时间节点置信度

时间节点置信度不确定性来源
现在(2026)已有实证数据(放射科 JAMA 2023、Köbis 2025、中经网 2024)
2-3 年技术扩散速度可预测,但文化适应速度未知
5 年中低技术突变(如 AGI)不可预测;社会反弹(反 AI 运动)可能改变曲线
10 年纯外推——当前趋势的线性延长假设可能被技术/社会/监管突变打破

建议:为热力图的每个预测增加"关键触发事件"清单——如果在某时间点之前发生了某事件,则热力图应如何修正。例如:如果 2027 年前出现首个"AI 导致的社交退化"被大范围讨论的社会事件→社会型退化预测加速。


本附录为项目 v1.1 新增内容,旨在回应外部评审的操作化建议(innovation report 建议 1-5、practicality report 障碍 3)。未闭合的设计问题对应主文档第六节的开放问题——本附录提供了操作化方向,但实证验证仍需推进。