第三阶段第一场:A × C 交叉推演(主 agent)
2026-05-15 | 第三阶段前瞻推演
推演人:主 agent | 交叉配:A(LLM 直觉假肢)× C(LLM 发展功能等效直觉)
其他交叉推演任务已分配给外部 agent:A×B(kimi-k2.6) | B×C(hunyuan)
1. A × C 的核心关系:不是先后,而是身份转换
一句话:A 和 C 不是两个独立假说,而是同一系统的两种模式。A 是 LLM 在灵长类-人类协作网络中的角色,C 是 LLM 在自主认知网络中的角色。从 A 到 C 的转变不是技术突破,而是部署决策——什么时候把"假肢"摘下来让它独立走。
具体而言:
A 和 C 的关系有四种可能的结构:
| 关系类型 | 机制 | 对四个子类型的适用性 |
|---|---|---|
| A 是 C 的爬梯 | 通过假肢角色积累交互数据和后果信号 → 这些数据训练 C | 感知型✅ 概念型封闭域✅ 社会型⚠️(数据有文本中介局限) 道德型❌ |
| C 淘汰 A | LLM 直觉一旦可靠,假肢协作模式被全自动替代 | 感知型✅ 概念型封闭域✅ 社会型⚠️(高后果仍需人决策) 道德型❌ |
| A 和 C 共存 | 不同子类型上不同模式——感知型全自动,社会型永远假肢 | 最可能的长期稳态 |
| A 阻碍 C | 假肢模式中人的干预过度 → 阻碍 LLM 从真实后果中学习 | 所有子类型都面临这个风险 |
我判断最可能长期出现的是"共存"——A 和 C 在不同子类型上分道扬镳。 感知型直觉(放射科、代码 review)会因为分层后果暴露而进入 C 主导模式(全自动),社会型直觉会永远停留在 A 模式(假肢辅助),道德型直觉甚至不会有 A 模式(LLM 只做分析不参与判断)。
置信度:高(关于共存模式),中(关于时间线)
2. 分层后果暴露中 A 和 C 的渐变性张力
2.1 Level 1/2 阶段:A 和 C 不可区分
分层后果暴露在 Level 1(沙盒真实用户+人类兜底)和 Level 2(低后果真实部署)阶段,A 和 C 在操作上是不可区分的。
原因:
- Level 1 中,LLM 给出社会判断建议,人类监督并标注 → 这既是 A(LLM作为假肢提供建议),也是 C 的训练(LLM 从人类标注中学习该建议的后果)
- Level 2 中,LLM 在客服等低 stakes 场景中独立运作 → 在客服对话中,LLM 的"社会直觉"好不好,由用户满意度、任务完成率追踪 → 这同时是 A 的验证(假肢在低后果场景中足够好吗?)和 C 的数据积累(真实后果信号)
这个阶段的关键问题不是"A 还是 C",而是"反馈回路的质量"。如果 Level 2 的后果追踪数据表明 LLM 的社会判断在特定场景下系统性偏差(如用户投诉中的 sycophancy → 用户短期满意但问题未解决),这个反馈是否被闭环训练回模型?
当前 RLHF 做不到这点——因为 RLHF 只看"即时偏好"(用户满意)而不看"长期后果"(问题是否解决了)。RLHS 能部分改善(模拟后果),但不能替代真实后果。
2.2 Level 3 阶段:A 和 C 的"10% 分歧"问题
在 Level 3(高后果部署:医疗建议、法律建议、临床伦理),当 LLM 的直觉和人类专家在 90% 案例中一致、10% 中分歧时——这不只是一个统计问题,而是部署架构的核心决策。
分三种情况:
| 分歧类型 | 人类直觉 | LLM 直觉 | 谁对? | 应该服从谁? | 为什么 |
|---|---|---|---|---|---|
| LLM 对(人受偏差影响) | 受情感/确认偏差影响 | 冷判断接近最优 | LLM | LLM | 但人可能不承认,争议产生 |
| 人对(LLM 分布外) | 训练分布外的边缘案例中,人的具身直觉正确 | 受训练分布限制,输出"最大可能正确"但实际错 | 人 | 人 | LLM 的冷判断在这种场景中是无知而非智慧 |
| 都不对(罕见边缘案例) | 偏差 | 分布外+过度自信 | 都不对 | 触发元校正 | 暂停,引入第三方判断 |
问题在于:在真实部署中,前两种情况都是事后才知道谁对。事前,人和 LLM 都在低置信度下对峙。没有元校正机制——就是灾难。
2.3 A→C 的临界点
A 到 C 的转变有至少两个候选临界点:
临界点 1:性能阈值。 当 LLM 的假肢判断在某个子类型上的准确率/可靠性持续超过人类专家时,就应该从 A 转为 C。这在感知型上已经有苗头(AI 放射科读片在某些指标上超过人类),但在社会型/道德型上还很远。
临界点 2:代价信号内化。 当分层后果暴露让 LLM 积累了足够的真实后果数据,使其判断从"统计模式匹配"转变为"代价加权压缩"时——这可以视为 C 的真正实现。当前的 RLHS 远未达到这个点——模拟后果只是把"他人的文本报告"改成"我方模型的模拟推演",本质上还是文本-文本,而不是体验-体验。
我的判断:临界点 1 可能在 3-5 年内到达(感知型),临界点 2 在 10 年尺度上仍然不确定性极高。
置信度:临界点 1 高,临界点 2 低
3. "假肢超过原生肢体"的极限问题
3.1 假肢 → 外骨骼 → 新器官谱系
| 阶段 | 特征 | LLM 在四个子类型上的位置 |
|---|---|---|
| 假肢 | 弥补缺陷,不如原生 → 辅助用户 | ❌ LLM 已经在某些任务上超过人类(SJT、测谎),不在此阶段 |
| 外骨骼 | 增强原生能力,使原生更强 → 协同增强 | ⚠️ 概念型封闭域、感知型——LLM 让专家更强但专家仍在驾驶 |
| 新器官 | 替代原生功能,自主运作 → 不需要人 | ⚠️ 感知型(放射科——在某些任务上已经在迁移到此阶段) |
关键判断:LLM 当前已经不是一个单纯的"假肢"——它在特定子类型和特定格式下已经比原生好。但"原生的好"是在格式限定的条件下,不是在通用条件下。
这和直觉假肢类比的根本不同:假肢是"我少了根腿,给我根棍子"。LLM 在某些维度上是"我有个腿,但 AI 有条更好的腿——只是这条腿只能在特定路面上走,遇到水就完蛋"。这不是假肢 vs 假腿的问题,而是"专用义肢"vs"通用原生器官"的问题。
3.2 谱系迁移条件
从外骨骼到新器官的迁移需要:
- 该子类型的所有边缘情况都被覆盖(不只是训练分布内)
- 危害模式已知且可控(假阳性 vs 假阴性哪个更危险?在放射科是假阴性,在垃圾邮件过滤是假阳性)
- 人类在 loop 中的角色从"校验"变为"抽查"
在社会型直觉上——外骨骼阶段都远未达到。 因为社会型直觉的边缘情况不是"少见的文本模式",而是"少见的互动动态"——LLM 根本不在互动中。
4. 10 年尺度:四子类型的替代斜率
| 时间 | 感知型 | 概念型 | 社会型 | 道德型 |
|---|---|---|---|---|
| 现在 (2026) | AI 辅助诊断、代码 review 已部署 | AlphaProof 银牌、AI Scientist 增量性 | SJT 文本超人类,真实互动不可用 | LLM 做道德分析辅助 |
| 2-3 年 | 放射科、病理科部分任务全自动(Level 3 部署) | 定理证明助手成为数学家标配;科学假设生成仍局限 | 低后果客服全自动;VR 社交 agent 出现但无真实社会代价 | 无明显进展(此领域无"部署"驱动力) |
| 5 年 | 感知型已新器官化(人类在 loop 中抽查而非校验) | AlphaProof 式证明扩展到更多领域;但仍只能证明不能发明 | 中等后果场景(如薪酬谈判 AI 教练)出现;但高后果仍人主导 | 道德分析工具更精细;但判断仍人类 |
| 10 年 | 人类放射科医师的角色类似现在的"飞行员监控自动驾驶" | 关键分叉点:能否从证明→发明?如果不行,概念型到达天花板 | 基于长周期交互数据的 "社会直觉 AI" 可能出现——但受限于文本中介 | 我的判断:仍然结构性不可达——10 年的数据不能替代身体标记,就像 10 年的文本不能替代痛觉 |
连锁效应
感知型 → 概念型可能存在加速效应:AI 的感知型直觉能更快地识别数学结构中的模式(类似 AlphaGeometry 的神经符号方法),这可能为概念型直觉提供额外的训练信号源(不只是人的文本,还有 AI 自己的感知输出)。但这种效应在概念型上仅限于模式识别层面,不涉及方向感和品味。
置信度:感知型/概念型 中,社会型 低,道德型 高
5. A × C 的三种未来情景
情景 1:假肢为主(A>>C)
A 广泛部署(LLM 作为直觉假肢在客服、诊断、代码审查、SJT 式人事筛选中普及),但 C 进展缓慢——分层后果暴露在 Level 1/2 停滞(监管障碍、后果归因困难)。10 年内 LLM 没有发展出任何真正自主的直觉——只是在更多场景中充当更强的假肢。
受影响的子类型:感知型、概念型封闭域(假肢强→部署快)
人类直觉退化:感知型严重(类比 GPS),社会型轻度(人仍参与真实社交)
主要受益方:企业(降本增效)
概率:高——这是惯性路径。
情景 2:共同进化(A↔C)
分层后果暴露在 Level 2/3 推进顺利。LLM 在低后果部署中积累的真实后果数据被闭环训练回模型 → LLM 的社会判断从"文本规范匹配"进化为"弱代价压缩"。假肢变得更精准,部署扩展到中等后果场景,积累更多数据 → 正反馈。但社会型和道德型仍有不可逾越的边界(无身体标记)。
受影响的子类型:感知型→新器官,概念型封闭域→新器官,社会型→强外骨骼
人类直觉退化:感知型严重,社会型中等(中等后果场景中部分退化)
主要受益方:人类集体(在感知/概念封闭域上有超级外脑)+ LLM 安全性(积累的后果数据改善了对齐)
概率:中——需要分层后果暴露在监管上跑通,目前不清晰。
情景 3:跨越替代(C→淘汰A)
C 在概念型上突然突破(类似 AlphaFold 对蛋白质结构的突破——不是增量,是范式变革)。LLM 不仅在形式化系统中搜索,还能发明新的形式化系统。这需要对"方向感"的函数化实现——而当前没有任何理论路径。如果这个突破发生,连锁反应会快速波及社会型和道德型(因为"方向感"的函数化在概念型上的突破,可能会改变代价压缩的范式)。
概率:低。需要概念型直觉的理论突破(不是一个工程问题)。但一旦突破,影响是指数级的。
6. 最激进的推演(5 年加速)
如果分层后果暴露跑通(监管绿灯 + 技术成熟 + 后果归因解决),LLM 在 5 年内:
- 放射科读片全自动(感知型→新器官)
- 定理证明成为数学家标配(概念型封闭域→新器官)
- 客服/标准谈判中 LLM 达到人类 80% 的社会直觉(社会型→强外骨骼)
- 在临床伦理委员会中通过双盲测试(道德分析,非道德判断)
此时——
这对互补地图的重定向:
- 人在感知型上的角色彻底变为"监控者"——不需要自己做模式识别,但需要判断什么时候 AI 的结果需要人工复核(元判断层面)。
- 人在概念型封闭域上的角色同样变为"验证者+方向提出者"——AI 负责证明,人负责问"这个问题值得证吗"。
- 人在社会型上的角色不变——因为"80% 的社会直觉"在边缘情况下可能正是关键的 20%(分叉点)。
- 人在道德型上的角色不变——因为道德判断的合法性来自主体性。
最关键的新问题:当人在感知型和概念型封闭域上变成"监控者",监控技能是否会退化?如果退化,当 AI 系统出现系统性故障(如 adversarial attack),人还能不能接手?——这直接跳入 A×B 和 B×C 的交叉推演。
7. 给 A×B 和 B×C 推演的输入
- A×C 的判断:A 和 C 是共存模式——不同子类型上不同模式。感知型/概念型封闭域会先从 A 迁移到 C(新器官化),社会型/道德型会永远停留在 A 或更低(假肢/外骨骼)。A×B 的退化风险主要集中在感知型和概念型封闭域——这两个子类型上 C 进展最快,B 也最可能发生。
- B×C 的时间竞赛:感知型和概念型封闭域——C 可能先于 B(新器官化之前人类尚未严重退化)。社会型——B 可能先于 C,形成中空期。
本推演待 A×B 和 B×C 的外部 agent 推演完成后综合成第三阶段收束。