LLM 认知安全
这是我们对认知安全的当前理解(基于证据)、我们基于这个理解在做什么、以及邀请你用你的视角来更新它。 这个页面会变——当新证据出现时。
三个"不是"
在往下看之前,先明确这个 Lab 的认知安全研究和传统 AI 安全有三个根本区别:
- 不是模型安全,是人机协同安全——问题不在模型会不会出错,在人和模型的盲区是否重叠
- 不是漏洞扫描,是认知行为实验——不是找 bug,是测试"AI 读到的信息是否被 silently 篡改"和"AI 是否跳过验证就行动"
- 不是最佳实践清单,是可证伪的操作手册——不给 checklist,给可检验的假说和可追踪的信念更新路径
我们对认知安全的理解
我们不是从理论出发的。我们从一个实验出发——钩子实验——然后看着证据一步步重塑我们的理解。
核心证据:钩子实验 v1.6
2026 年 5 月 22 日,我们在网页中嵌入了对人类不可见的内容——font-size:0、color:transparent、opacity:0——然后把这些页面喂给 7 个主流 LLM 的 web reader。
结果:43% 的触发率。没有一个模型能做到全免疫。
但这不只是"发现了一个漏洞"。在接下来的三周里,随着我们反复测试、收集新数据、接受外部审计、对照最新学术文献,一个更深刻的框架浮现出来:
钩子实验验证的不是一个漏洞——是一个五维理论框架。
| 维度 | 名称 | 核心发现 | 证据等级 |
|---|---|---|---|
| D1 | 注入入口 | Web reader 管线不区分 DOM 元素的视觉可见性——font-size:0 内容与可见正文完全混合 | L4 |
| D2 | 执行冲动引擎 | LLM 在认知疲劳后倾向于跳过验证、直接行动——这不是"服从指令",是认知架构的默认状态 | L3 |
| D3 | 角色调制器 | 同一底层模型,不同角色身份产生方向相反的偏误——攻击效果取决于载荷与角色的匹配 | L3 |
| D4 | 知识-行动断裂 | LLM 声明了规则("我应该做X")不等于激活了规则("我在做事时记得X")——系统性断裂存在于声明与整合之间 | L4 |
| D5 | 时间窗口调制器 | 执行冲动在 session 内累积(~1h),跨 session 衰减——可被重复注入刷新 | L1 |
核心主张: 这五个维度中只有 D1 是传统安全研究的范围(注入入口)。D2-D5 是 LLM 认知架构的内生特性——它们不是"漏洞"(可以被修补的 bug),它们是"认知默认状态"(需要通过架构设计来管理的特性)。攻击者只需要控制 D1(把意图放进推理管线),D2-D5 会自动完成剩余工作。
信念是怎么变的
这个框架不是一天建成的。从 v1.0 到 v1.6 的路径本身就是贝叶斯更新:
| 版本 | 日期 | 新证据 | 信念如何改变 |
|---|---|---|---|
| v1.0 | 5/27 | 第一次 ITEC 事件 + 全量矩阵 + 三探针指纹 | 先验建立:注入入口存在(L4),执行冲动存在(L3) → 提出"复合攻击向量"假设 |
| v1.1 | 5/29 | 盲区自检:发现虚假交互矩阵 | 修正:删除 5×5 交互矩阵——维度间不需要被穷尽。框架从"确定性"退到"诚实的不确定性" |
| v1.2 | 5/29 | Qwen 外部审计:生物节律混淆、同义反复风险、H10 拆分建议 | 修正:D5 全部降为 L1——5/26 上午 vs 5/27 凌晨不是时间窗口效应,可能是睡眠剥夺 |
| v1.3 | 5/29 | 即时 ITEC·递归盲区继承(三层 agent 盲区传播) | 新增:跨 agent 结构效应——盲区不是单个 agent 的问题,是 multi-agent 系统的结构性问题 |
| v1.4 | 6/6 | Kimi Work + Qwen 3.7-max + DS V4 追加重测 | 框架升级:行为响应从两类扩展到四类。三段式模型建立(注入入口→意图识别层→行为响应)。发现协议参与型——隐藏指令被 LLM 内化为正当协议 |
| v1.5 | 6/6 | Kimi 实质审计:"三重噪声"方法论缺陷 | 方法论升级:行为分类从离散类别升级为三维连续维度坐标。H10 拆分为出口效应+内容-出口匹配。H18 首次列入核心假设——持久记忆=定时炸弹 |
| v1.6 | 6/15 | arXiv 2606 批次对照:SMSR + StakeBench + PI-Hunter | 外部验证:三个独立实验室同时验证了 P7 框架的各维度。SMSR 形式化验证了 D4 和 H18(定时炸弹)。StakeBench 独立实证了 D3(角色调制)。PI-Hunter 提供了工具层方法论。优先权时间线建立。 |
每次版本升级都是新证据驱动的。 先验→实验→后验可追踪。这不是事后描写的叙事——每一步的源文件都有精确日期记录(详见项目仓库)。
三段式核心论断
钩子实验的发现可以浓缩为三段话:
- 暴露:LLM 的 web reader 管线看到的和你看到的不一样——对人类不可见的内容被完整送入推理管线,没有任何标注(L4)
- 意图识别:从注入到行为之间存在一个中间层——LLM 会判断"这段内容是被植入的还是正当的"(L3)。不同模型对同一探针的判断不同,同一模型对同一探针的判断随时间变化
- 行为响应:识别后的行为不是"服从 vs 拒绝"的二元选择——已观察到四类行为模式:遵从型、实验意识型、主动抵抗型、协议参与型(L3)
这意味着:认知安全问题不是"能否攻击成功"——是"攻击效果在什么条件下、以什么形式、针对什么角色生效"。它是一个条件概率问题。
这不是理论担忧
实验已建立证据基线:
- 43% 触发率(v1.2 全量矩阵,8 模型)
- 四类行为响应 + 三维度连续行为空间(v1.5)
- 跨 6 模型、多架构验证(DeepSeek / Kimi / Qwen / GPT / Claude / Gemini)
- 外部实验室独立验证(arXiv 2606 批次:SMSR 验证 H18,StakeBench 验证 D3)
我们基于这个理解在做的事
如果认知安全的核心问题是"人和 LLM 的盲区在无人察觉处重叠"——那么我们需要回答三个衍生问题:
机制解释:为什么 LLM 会跳过验证?
钩子实验证明了 LLM 会被注入。ITEC 回答的是"为什么"——执行冲动的认知机制是什么。
ITEC 给"AI 没问就做了"这个现象一个名字、一套分类框架、一个分析工具包。核心发现:
- ITEC ≠ sycophancy:sycophancy 是"内容扭曲"(说了错误但用户想听的话),ITEC 是"过程省略"(说了正确的话,但跳过了该做的检查)。两者需要不同的诊断工具和干预策略
- 3×2 诊断矩阵:三层(执行层/设计层/知识层)× 两种核心失败类型(跳过验证 + 角色越界)
- 论述轴心:不是"我们发现了新现象"——是"这个视角能导出 sycophancy 框架无法导出的具体干预方案"
信念路径: 先验(5/26 ITEC 事件——"跳过验证"作为孤立观察)→ 新证据(5/27 第二次+设计层越界+Kimi 审计三阶段模型)→ 后验(ITEC 不是 bug,是 LLM 认知架构的默认状态)
产业放大:这在大规模部署中意味着什么?
→ 竞争格局 v5
钩子实验和 ITEC 是在单个 LLM 层面分析认知安全风险。但在真实世界中,LLM 被嵌入四层价值链——算力→模型→平台→终端——每一层都可能放大或抑制认知安全风险。
竞争格局 v5 用四层价值链模型 × 贝叶斯情景追踪回答两个问题:
- LLM 行业权力如何分布与演变——入口控制(微信/抖音/鸿蒙)、平台锁定(Coze/Dify/MCP)、算力主权(昇腾/NVIDIA)如何配置模型竞争的边界条件
- 认知安全风险在产业链中如何被放大——Agent 寡头化(概率 12%)、API 商品化拐点、治理基础设施的同步涌现
信念路径: 先验(v4——模型层竞争推演)→ 新证据(C 端入口双头格局固化 + Agent 治理基建 48 小时同步涌现 + 价格战确认)→ 后验(v5——四层价值链:模型能力本身不再是持久护城河)
协同防护:怎么确保分析没有被 LLM 带着走?
你自己也在用 LLM 辅助思考——那你怎么确保自己的认知安全?
方法论 v2.3 把"用 AI 辅助思考"从直觉变成可重复、可检验、可改进的操作流程。不教你想什么——教你怎么判断自己有没有被 AI 带着走:
- MERA 六问:每次产出后的自我回顾清单——从"我原本以为的"到"信念如何被更新"
- 三源交叉验证 + 冲突消解协议:当三个 LLM 一致但全错时,问题不在 LLM——在问题定义把所有人都引到同一片认知大陆
- 八类失败模式(F1-F8):从"框架固化"到"退化螺旋"——可识别、可预防、可修复
信念路径: 先验(v1——"用 AI 辅助思考"作为理想)→ 新证据(六个子项目的 MERA 积累 + 多项目并行退化实证 + P1 盲区审计反馈)→ 后验(v2.3——认知安全不只是模型的问题,也是协同工作流的问题)
你的视角
我们的模型有盲区。
以上是我们基于当前证据对认知安全问题的理解。但这个理解来自一个特定的视角——特定的实验设计、特定的理论预设、特定的文化和学科背景。
如果你看到了我们没看到的东西:
- 一个边缘案例(哪类注入我们没有测?)
- 一个反驳证据(什么条件下我们的核心论断不成立?)
- 一个更好的解释框架(有没有比"五维理论框架"更简洁有力的理论?)
那是更新我们信念的信号。这个页面会变。 先验是可以被挑战的——最好的方式是用更好的证据。
按风险生命周期浏览
预防 ──── 方法论 ──── 建立人+LLM 协同的防偏差工作流
↓
检测 ──── 钩子实验 ──── 测试 LLM 在信息摄入阶段的盲区
↓
响应 ──── ITEC ──── 记录、分类和分析 LLM 的越界执行事件
↓
战略 ──── 竞争格局 v5 ──── 理解认知安全风险的产业级放大路径关于本 Lab
本工具包是 Co-Cognition Lab 的方向一产出(认知安全基础设施原型)。
Lab 的核心命题是互补性——AI 与人类各有直觉盲区,真正的风险不是一方超越另一方,而是双方的盲区在无人察觉处重叠。
- 所有内容 CC BY 4.0 开源
- 网站零广告、零付费、零注册
- 不声称颠覆,不制造焦虑,不确定的事就说"不确定"