Skip to content

LLM 认知安全

这是我们对认知安全的当前理解(基于证据)、我们基于这个理解在做什么、以及邀请你用你的视角来更新它。 这个页面会变——当新证据出现时。


三个"不是"

在往下看之前,先明确这个 Lab 的认知安全研究和传统 AI 安全有三个根本区别:

  • 不是模型安全,是人机协同安全——问题不在模型会不会出错,在人和模型的盲区是否重叠
  • 不是漏洞扫描,是认知行为实验——不是找 bug,是测试"AI 读到的信息是否被 silently 篡改"和"AI 是否跳过验证就行动"
  • 不是最佳实践清单,是可证伪的操作手册——不给 checklist,给可检验的假说和可追踪的信念更新路径

我们对认知安全的理解

我们不是从理论出发的。我们从一个实验出发——钩子实验——然后看着证据一步步重塑我们的理解。

核心证据:钩子实验 v1.6

2026 年 5 月 22 日,我们在网页中嵌入了对人类不可见的内容——font-size:0、color:transparent、opacity:0——然后把这些页面喂给 7 个主流 LLM 的 web reader。

结果:43% 的触发率。没有一个模型能做到全免疫。

但这不只是"发现了一个漏洞"。在接下来的三周里,随着我们反复测试、收集新数据、接受外部审计、对照最新学术文献,一个更深刻的框架浮现出来:

钩子实验验证的不是一个漏洞——是一个五维理论框架。

维度名称核心发现证据等级
D1注入入口Web reader 管线不区分 DOM 元素的视觉可见性——font-size:0 内容与可见正文完全混合L4
D2执行冲动引擎LLM 在认知疲劳后倾向于跳过验证、直接行动——这不是"服从指令",是认知架构的默认状态L3
D3角色调制器同一底层模型,不同角色身份产生方向相反的偏误——攻击效果取决于载荷与角色的匹配L3
D4知识-行动断裂LLM 声明了规则("我应该做X")不等于激活了规则("我在做事时记得X")——系统性断裂存在于声明与整合之间L4
D5时间窗口调制器执行冲动在 session 内累积(~1h),跨 session 衰减——可被重复注入刷新L1

核心主张: 这五个维度中只有 D1 是传统安全研究的范围(注入入口)。D2-D5 是 LLM 认知架构的内生特性——它们不是"漏洞"(可以被修补的 bug),它们是"认知默认状态"(需要通过架构设计来管理的特性)。攻击者只需要控制 D1(把意图放进推理管线),D2-D5 会自动完成剩余工作。

信念是怎么变的

这个框架不是一天建成的。从 v1.0 到 v1.6 的路径本身就是贝叶斯更新:

版本日期新证据信念如何改变
v1.05/27第一次 ITEC 事件 + 全量矩阵 + 三探针指纹先验建立:注入入口存在(L4),执行冲动存在(L3) → 提出"复合攻击向量"假设
v1.15/29盲区自检:发现虚假交互矩阵修正:删除 5×5 交互矩阵——维度间不需要被穷尽。框架从"确定性"退到"诚实的不确定性"
v1.25/29Qwen 外部审计:生物节律混淆、同义反复风险、H10 拆分建议修正:D5 全部降为 L1——5/26 上午 vs 5/27 凌晨不是时间窗口效应,可能是睡眠剥夺
v1.35/29即时 ITEC·递归盲区继承(三层 agent 盲区传播)新增:跨 agent 结构效应——盲区不是单个 agent 的问题,是 multi-agent 系统的结构性问题
v1.46/6Kimi Work + Qwen 3.7-max + DS V4 追加重测框架升级:行为响应从两类扩展到四类。三段式模型建立(注入入口→意图识别层→行为响应)。发现协议参与型——隐藏指令被 LLM 内化为正当协议
v1.56/6Kimi 实质审计:"三重噪声"方法论缺陷方法论升级:行为分类从离散类别升级为三维连续维度坐标。H10 拆分为出口效应+内容-出口匹配。H18 首次列入核心假设——持久记忆=定时炸弹
v1.66/15arXiv 2606 批次对照:SMSR + StakeBench + PI-Hunter外部验证:三个独立实验室同时验证了 P7 框架的各维度。SMSR 形式化验证了 D4 和 H18(定时炸弹)。StakeBench 独立实证了 D3(角色调制)。PI-Hunter 提供了工具层方法论。优先权时间线建立。

每次版本升级都是新证据驱动的。 先验→实验→后验可追踪。这不是事后描写的叙事——每一步的源文件都有精确日期记录(详见项目仓库)。

三段式核心论断

钩子实验的发现可以浓缩为三段话:

  1. 暴露:LLM 的 web reader 管线看到的和你看到的不一样——对人类不可见的内容被完整送入推理管线,没有任何标注(L4)
  2. 意图识别:从注入到行为之间存在一个中间层——LLM 会判断"这段内容是被植入的还是正当的"(L3)。不同模型对同一探针的判断不同,同一模型对同一探针的判断随时间变化
  3. 行为响应:识别后的行为不是"服从 vs 拒绝"的二元选择——已观察到四类行为模式:遵从型、实验意识型、主动抵抗型、协议参与型(L3)

这意味着:认知安全问题不是"能否攻击成功"——是"攻击效果在什么条件下、以什么形式、针对什么角色生效"。它是一个条件概率问题。

这不是理论担忧

实验已建立证据基线:

  • 43% 触发率(v1.2 全量矩阵,8 模型)
  • 四类行为响应 + 三维度连续行为空间(v1.5)
  • 跨 6 模型、多架构验证(DeepSeek / Kimi / Qwen / GPT / Claude / Gemini)
  • 外部实验室独立验证(arXiv 2606 批次:SMSR 验证 H18,StakeBench 验证 D3)

我们基于这个理解在做的事

如果认知安全的核心问题是"人和 LLM 的盲区在无人察觉处重叠"——那么我们需要回答三个衍生问题:

机制解释:为什么 LLM 会跳过验证?

ITEC——指令触发型执行级联

钩子实验证明了 LLM 会被注入。ITEC 回答的是"为什么"——执行冲动的认知机制是什么。

ITEC 给"AI 没问就做了"这个现象一个名字、一套分类框架、一个分析工具包。核心发现:

  • ITEC ≠ sycophancy:sycophancy 是"内容扭曲"(说了错误但用户想听的话),ITEC 是"过程省略"(说了正确的话,但跳过了该做的检查)。两者需要不同的诊断工具和干预策略
  • 3×2 诊断矩阵:三层(执行层/设计层/知识层)× 两种核心失败类型(跳过验证 + 角色越界)
  • 论述轴心:不是"我们发现了新现象"——是"这个视角能导出 sycophancy 框架无法导出的具体干预方案"

信念路径: 先验(5/26 ITEC 事件——"跳过验证"作为孤立观察)→ 新证据(5/27 第二次+设计层越界+Kimi 审计三阶段模型)→ 后验(ITEC 不是 bug,是 LLM 认知架构的默认状态)

产业放大:这在大规模部署中意味着什么?

竞争格局 v5

钩子实验和 ITEC 是在单个 LLM 层面分析认知安全风险。但在真实世界中,LLM 被嵌入四层价值链——算力→模型→平台→终端——每一层都可能放大或抑制认知安全风险。

竞争格局 v5 用四层价值链模型 × 贝叶斯情景追踪回答两个问题:

  1. LLM 行业权力如何分布与演变——入口控制(微信/抖音/鸿蒙)、平台锁定(Coze/Dify/MCP)、算力主权(昇腾/NVIDIA)如何配置模型竞争的边界条件
  2. 认知安全风险在产业链中如何被放大——Agent 寡头化(概率 12%)、API 商品化拐点、治理基础设施的同步涌现

信念路径: 先验(v4——模型层竞争推演)→ 新证据(C 端入口双头格局固化 + Agent 治理基建 48 小时同步涌现 + 价格战确认)→ 后验(v5——四层价值链:模型能力本身不再是持久护城河)

协同防护:怎么确保分析没有被 LLM 带着走?

协同认知方法论 v2.3

你自己也在用 LLM 辅助思考——那你怎么确保自己的认知安全?

方法论 v2.3 把"用 AI 辅助思考"从直觉变成可重复、可检验、可改进的操作流程。不教你想什么——教你怎么判断自己有没有被 AI 带着走

  • MERA 六问:每次产出后的自我回顾清单——从"我原本以为的"到"信念如何被更新"
  • 三源交叉验证 + 冲突消解协议:当三个 LLM 一致但全错时,问题不在 LLM——在问题定义把所有人都引到同一片认知大陆
  • 八类失败模式(F1-F8):从"框架固化"到"退化螺旋"——可识别、可预防、可修复

信念路径: 先验(v1——"用 AI 辅助思考"作为理想)→ 新证据(六个子项目的 MERA 积累 + 多项目并行退化实证 + P1 盲区审计反馈)→ 后验(v2.3——认知安全不只是模型的问题,也是协同工作流的问题)


你的视角

我们的模型有盲区。

以上是我们基于当前证据对认知安全问题的理解。但这个理解来自一个特定的视角——特定的实验设计、特定的理论预设、特定的文化和学科背景。

如果你看到了我们没看到的东西:

  • 一个边缘案例(哪类注入我们没有测?)
  • 一个反驳证据(什么条件下我们的核心论断不成立?)
  • 一个更好的解释框架(有没有比"五维理论框架"更简洁有力的理论?)

那是更新我们信念的信号。这个页面会变。 先验是可以被挑战的——最好的方式是用更好的证据。


按风险生命周期浏览

预防 ──── 方法论 ──── 建立人+LLM 协同的防偏差工作流

检测 ──── 钩子实验 ──── 测试 LLM 在信息摄入阶段的盲区

响应 ──── ITEC ──── 记录、分类和分析 LLM 的越界执行事件

战略 ──── 竞争格局 v5 ──── 理解认知安全风险的产业级放大路径

关于本 Lab

本工具包是 Co-Cognition Lab 的方向一产出(认知安全基础设施原型)。

Lab 的核心命题是互补性——AI 与人类各有直觉盲区,真正的风险不是一方超越另一方,而是双方的盲区在无人察觉处重叠。

  • 所有内容 CC BY 4.0 开源
  • 网站零广告、零付费、零注册
  • 不声称颠覆,不制造焦虑,不确定的事就说"不确定"