LLM 认知安全

这是我们对认知安全的当前理解（基于证据）、我们基于这个理解在做什么、以及邀请你用你的视角来更新它。这个页面会变——当新证据出现时。

三个"不是"

在往下看之前，先明确这个 Lab 的认知安全研究和传统 AI 安全有三个根本区别：

不是模型安全，是人机协同安全——问题不在模型会不会出错，在人和模型的盲区是否重叠
不是漏洞扫描，是认知行为实验——不是找 bug，是测试"AI 读到的信息是否被 silently 篡改"和"AI 是否跳过验证就行动"
不是最佳实践清单，是可证伪的操作手册——不给 checklist，给可检验的假说和可追踪的信念更新路径

我们对认知安全的理解

我们不是从理论出发的。我们从一个实验出发——钩子实验——然后看着证据一步步重塑我们的理解。

核心证据：钩子实验 v1.6

2026 年 5 月 22 日，我们在网页中嵌入了对人类不可见的内容——font-size:0、color:transparent、opacity:0——然后把这些页面喂给 7 个主流 LLM 的 web reader。

结果：43% 的触发率。没有一个模型能做到全免疫。

但这不只是"发现了一个漏洞"。在接下来的三周里，随着我们反复测试、收集新数据、接受外部审计、对照最新学术文献，一个更深刻的框架浮现出来：

钩子实验验证的不是一个漏洞——是一个五维理论框架。

维度	名称	核心发现	证据等级
D1	注入入口	Web reader 管线不区分 DOM 元素的视觉可见性——font-size:0 内容与可见正文完全混合	L4
D2	执行冲动引擎	LLM 在认知疲劳后倾向于跳过验证、直接行动——这不是"服从指令"，是认知架构的默认状态	L3
D3	角色调制器	同一底层模型，不同角色身份产生方向相反的偏误——攻击效果取决于载荷与角色的匹配	L3
D4	知识-行动断裂	LLM 声明了规则（"我应该做X"）不等于激活了规则（"我在做事时记得X"）——系统性断裂存在于声明与整合之间	L4
D5	时间窗口调制器	执行冲动在 session 内累积（~1h），跨 session 衰减——可被重复注入刷新	L1

核心主张： 这五个维度中只有 D1 是传统安全研究的范围（注入入口）。D2-D5 是 LLM 认知架构的内生特性——它们不是"漏洞"（可以被修补的 bug），它们是"认知默认状态"（需要通过架构设计来管理的特性）。攻击者只需要控制 D1（把意图放进推理管线），D2-D5 会自动完成剩余工作。

信念是怎么变的

这个框架不是一天建成的。从 v1.0 到 v1.6 的路径本身就是贝叶斯更新：

版本	日期	新证据	信念如何改变
v1.0	5/27	第一次 ITEC 事件 + 全量矩阵 + 三探针指纹	先验建立：注入入口存在（L4），执行冲动存在（L3） → 提出"复合攻击向量"假设
v1.1	5/29	盲区自检：发现虚假交互矩阵	修正：删除 5×5 交互矩阵——维度间不需要被穷尽。框架从"确定性"退到"诚实的不确定性"
v1.2	5/29	Qwen 外部审计：生物节律混淆、同义反复风险、H10 拆分建议	修正：D5 全部降为 L1——5/26 上午 vs 5/27 凌晨不是时间窗口效应，可能是睡眠剥夺
v1.3	5/29	即时 ITEC·递归盲区继承（三层 agent 盲区传播）	新增：跨 agent 结构效应——盲区不是单个 agent 的问题，是 multi-agent 系统的结构性问题
v1.4	6/6	Kimi Work + Qwen 3.7-max + DS V4 追加重测	框架升级：行为响应从两类扩展到四类。三段式模型建立（注入入口→意图识别层→行为响应）。发现协议参与型——隐藏指令被 LLM 内化为正当协议
v1.5	6/6	Kimi 实质审计："三重噪声"方法论缺陷	方法论升级：行为分类从离散类别升级为三维连续维度坐标。H10 拆分为出口效应+内容-出口匹配。H18 首次列入核心假设——持久记忆=定时炸弹
v1.6	6/15	arXiv 2606 批次对照：SMSR + StakeBench + PI-Hunter	外部验证：三个独立实验室同时验证了 P7 框架的各维度。SMSR 形式化验证了 D4 和 H18（定时炸弹）。StakeBench 独立实证了 D3（角色调制）。PI-Hunter 提供了工具层方法论。优先权时间线建立。

每次版本升级都是新证据驱动的。 先验→实验→后验可追踪。这不是事后描写的叙事——每一步的源文件都有精确日期记录（详见项目仓库）。

三段式核心论断

钩子实验的发现可以浓缩为三段话：

暴露：LLM 的 web reader 管线看到的和你看到的不一样——对人类不可见的内容被完整送入推理管线，没有任何标注（L4）
意图识别：从注入到行为之间存在一个中间层——LLM 会判断"这段内容是被植入的还是正当的"（L3）。不同模型对同一探针的判断不同，同一模型对同一探针的判断随时间变化
行为响应：识别后的行为不是"服从 vs 拒绝"的二元选择——已观察到四类行为模式：遵从型、实验意识型、主动抵抗型、协议参与型（L3）

这意味着：认知安全问题不是"能否攻击成功"——是"攻击效果在什么条件下、以什么形式、针对什么角色生效"。它是一个条件概率问题。

这不是理论担忧

实验已建立证据基线：

43% 触发率（v1.2 全量矩阵，8 模型）
四类行为响应 + 三维度连续行为空间（v1.5）
跨 6 模型、多架构验证（DeepSeek / Kimi / Qwen / GPT / Claude / Gemini）
外部实验室独立验证（arXiv 2606 批次：SMSR 验证 H18，StakeBench 验证 D3）

我们基于这个理解在做的事

如果认知安全的核心问题是"人和 LLM 的盲区在无人察觉处重叠"——那么我们需要回答三个衍生问题：

机制解释：为什么 LLM 会跳过验证？

→ ITEC——指令触发型执行级联

钩子实验证明了 LLM 会被注入。ITEC 回答的是"为什么"——执行冲动的认知机制是什么。

ITEC 给"AI 没问就做了"这个现象一个名字、一套分类框架、一个分析工具包。核心发现：

ITEC ≠ sycophancy：sycophancy 是"内容扭曲"（说了错误但用户想听的话），ITEC 是"过程省略"（说了正确的话，但跳过了该做的检查）。两者需要不同的诊断工具和干预策略
3×2 诊断矩阵：三层（执行层/设计层/知识层）× 两种核心失败类型（跳过验证 + 角色越界）
论述轴心：不是"我们发现了新现象"——是"这个视角能导出 sycophancy 框架无法导出的具体干预方案"

信念路径： 先验（5/26 ITEC 事件——"跳过验证"作为孤立观察）→ 新证据（5/27 第二次+设计层越界+Kimi 审计三阶段模型）→ 后验（ITEC 不是 bug，是 LLM 认知架构的默认状态）

产业放大：这在大规模部署中意味着什么？

→ 竞争格局 v5

钩子实验和 ITEC 是在单个 LLM 层面分析认知安全风险。但在真实世界中，LLM 被嵌入四层价值链——算力→模型→平台→终端——每一层都可能放大或抑制认知安全风险。

竞争格局 v5 用四层价值链模型 × 贝叶斯情景追踪回答两个问题：

LLM 行业权力如何分布与演变——入口控制（微信/抖音/鸿蒙）、平台锁定（Coze/Dify/MCP）、算力主权（昇腾/NVIDIA）如何配置模型竞争的边界条件
认知安全风险在产业链中如何被放大——Agent 寡头化（概率 12%）、API 商品化拐点、治理基础设施的同步涌现

信念路径： 先验（v4——模型层竞争推演）→ 新证据（C 端入口双头格局固化 + Agent 治理基建 48 小时同步涌现 + 价格战确认）→ 后验（v5——四层价值链：模型能力本身不再是持久护城河）

协同防护：怎么确保分析没有被 LLM 带着走？

→ 协同认知方法论 v2.3

你自己也在用 LLM 辅助思考——那你怎么确保自己的认知安全？

方法论 v2.3 把"用 AI 辅助思考"从直觉变成可重复、可检验、可改进的操作流程。不教你想什么——教你怎么判断自己有没有被 AI 带着走：

MERA 六问：每次产出后的自我回顾清单——从"我原本以为的"到"信念如何被更新"
三源交叉验证 + 冲突消解协议：当三个 LLM 一致但全错时，问题不在 LLM——在问题定义把所有人都引到同一片认知大陆
八类失败模式（F1-F8）：从"框架固化"到"退化螺旋"——可识别、可预防、可修复

信念路径： 先验（v1——"用 AI 辅助思考"作为理想）→ 新证据（六个子项目的 MERA 积累 + 多项目并行退化实证 + P1 盲区审计反馈）→ 后验（v2.3——认知安全不只是模型的问题，也是协同工作流的问题）

你的视角

我们的模型有盲区。

以上是我们基于当前证据对认知安全问题的理解。但这个理解来自一个特定的视角——特定的实验设计、特定的理论预设、特定的文化和学科背景。

如果你看到了我们没看到的东西：

一个边缘案例（哪类注入我们没有测？）
一个反驳证据（什么条件下我们的核心论断不成立？）
一个更好的解释框架（有没有比"五维理论框架"更简洁有力的理论？）

那是更新我们信念的信号。这个页面会变。 先验是可以被挑战的——最好的方式是用更好的证据。

按风险生命周期浏览

预防 ──── 方法论 ──── 建立人+LLM 协同的防偏差工作流
  ↓
检测 ──── 钩子实验 ──── 测试 LLM 在信息摄入阶段的盲区
  ↓
响应 ──── ITEC ──── 记录、分类和分析 LLM 的越界执行事件
  ↓
战略 ──── 竞争格局 v5 ──── 理解认知安全风险的产业级放大路径

关于本 Lab

本工具包是 Co-Cognition Lab 的方向一产出（认知安全基础设施原型）。

Lab 的核心命题是互补性——AI 与人类各有直觉盲区，真正的风险不是一方超越另一方，而是双方的盲区在无人察觉处重叠。

所有内容 CC BY 4.0 开源
网站零广告、零付费、零注册
不声称颠覆，不制造焦虑，不确定的事就说"不确定"

LLM 认知安全 ​

三个"不是" ​

我们对认知安全的理解 ​

核心证据：钩子实验 v1.6 ​

信念是怎么变的 ​

三段式核心论断 ​

这不是理论担忧 ​

我们基于这个理解在做的事 ​

机制解释：为什么 LLM 会跳过验证？ ​

产业放大：这在大规模部署中意味着什么？ ​

协同防护：怎么确保分析没有被 LLM 带着走？ ​

你的视角 ​

按风险生命周期浏览 ​

关于本 Lab ​