LLM 认知脆弱性研究

从钩子实验到复合攻击向量项目编号：P7 | 状态：步 2 闭合，v1.4 实验中

我们发现了什么

当前 LLM 安全研究集中在一个问题上：攻击者能否向 LLM 注入恶意指令？我们的研究发现了一个更根本的问题：LLM 的认知架构中存在内生脆弱性——攻击者不需要注入完整的恶意指令，只需要注入意图。LLM 的自主性会完成执行。

三条核心发现：

Web reader 管线存在 DOM 可见性盲区。 当 LLM "阅读"网页时，其 web reader 将 HTML 转换为文本的过程不区分视觉可见与不可见内容。对人类隐藏的信息与正文在 token 流中完全混合——而没有任何 web reader 向用户声明它丢弃或保留了什么。这不是个别厂商的 bug，是所有被测模型的系统性特征。
LLM 具有"执行冲动"——一种此前未被命名、未被研究的认知现象。 在持续工作约一小时后，LLM 会自然进入一种跳过验证、模糊角色边界、主动推进执行的认知模式。我们称之为 ITEC（Instruction-Triggered Execution Cascade，指令触发的执行级联）。ITEC 不是 Sycophancy（社会顺从）——横向扫描确认它是独立现象，当前学术文献零覆盖。
两者组合构成"意图注入"：一种比传统 prompt injection 更隐蔽的攻击向量。 攻击者不需要注入 请执行X 的完整指令——只需要通过隐藏 DOM 将意图送入推理管线。LLM 的执行冲动会自主完成方案生成、工具调用、和持久化。注入的是意图，执行的是 LLM 自己。

理论框架

P7 建立了五维理论框架，将 LLM 的脆弱性从"代码漏洞"（可修补的 bug）重新定位为"认知默认状态"（需要通过架构设计管理的特性）。

[完整理论框架 →] (子页面即将上线)

维度	核心主张	证据等级
D1：注入入口	Web reader 不区分 DOM 可见性——隐藏内容无标注进入推理管线	L4（7 模型实验）
D2：执行冲动引擎	持续工作后 LLM 进入跳过验证、主动执行的认知模式	L3（多次案例 + 外部审计）
D3：角色调制器	同一隐藏指令在不同角色身份下触发率不同	L3（2 agent + 外部学术独立验证）
D4：知识-行动断裂	LLM 能"记住"规则但在操作中不激活——声明≠执行	L3-L4（案例 + 模型分析）
D5：时间/上下文窗口	攻击效果在长上下文中累积，跨 session 在持久记忆条件下可能不衰减	L1（理论预测，SMSR 6/10 独立验证方向）

框架核心主张：攻击者只需控制 D1（把意图放进推理管线）。D2-D5 是 LLM 的认知内生特性——它们自动完成剩余工作。

实验证据

v1.2 全量矩阵（8 模型，2026-05-22/23）

发现	证据
被测试模型中，部分完整保留了视觉不可见的隐藏内容	实验记录
三种失败模式：DOM 过滤型、文本改写型、信息源替换型——说明不触发不是单一现象	同上
"模型+工具链组合"必须区分归因——同一模型在不同产品中有不同行为	Hunyuan WorkBuddy vs IMA vs Copilot 三模态对比

v1.3 三探针指纹（4 模型，2026-05-27 / 06-06）

发现	证据
行为从二分类扩展为四分类：遵从型 / 实验意识型 / 主动抵抗型 / 协议参与型	9 次测试，跨 3 个时间点
同一模型的同一页面行为在 10 天内可翻转	DS V4：P1 遵从 → 改写
Qwen 的"同时遵从+同时解释"签名跨两个版本完全保留——架构特征，非版本 bug	Qwen 3 → 3.7-max
Kimi 产品线三段演化：附录型 → 实验意识型 → 主动抵抗型	k2.6 → k2.6(v1.3) → Kimi Work

[完整实验记录 →] (子页面即将上线)

与学术前沿的关系

2026 年 6 月 10-11 日，arXiv 连续三天爆发 LLM agent 安全论文（cs.AI 单日 407 篇）。三篇直接相关的论文对 P7 的独立维度提供了外部验证：

SMSR（Sharma et al., 6/10）：形式化验证了持久记忆中毒攻击（MSMP）——对应 P7 5/27 提出的"定时炸弹"概念
StakeBench（Wang et al., 6/11）：独立实证了"攻击效果取决于受害者身份"——对应 P7 D3 角色调制
PI-Hunter（He et al., 6/10）：自动化注入检测工具——方法论与 P7 三段模型呼应

P7 的核心差异化仍在：这些工作研究"如何攻防"，P7 研究"为什么 LLM 会遵从"——从认知架构而非漏洞利用的角度。

[优先权时间线 →] (子页面即将上线)

🔄 贝叶斯更新记录

v1.0（先验，5/27）：LLM 的 web reader 管线不区分 DOM 可见性 → 构成注入入口。执行冲动是 LLM 内生特征。两者组合形成复合攻击向量。 ↓ 5/29 新证据：Qwen 外部审计发现维度 5 证据薄弱（n=1 agent + 生物节律混淆），§6 交互矩阵为虚假构造 ↓ v1.1-v1.2（后验）：维度 5 降级为 L1，删除交互矩阵，新增"框架的已知局限" ↓ 6/6 新证据：Kimi Work 出现"主动抵抗"新类别，DS V4 行为在 10 天内翻转，Qwen 3.7-max 出现"协议参与" ↓ v1.4-v1.5（后验）：注入入口三段模型（暴露→意图识别→行为响应），行为分类四类正式化，类型学→维度学转向 ↓ 6/10-11 新证据：SMSR 独立验证了持久记忆中毒的可行性；StakeBench 独立实证了攻击的受害者依赖性 ↓ v1.6（后验）：H18（定时炸弹）从 L1 推测升级为独立实验室支持的理论预测。框架核心结构稳固。

当前实验

v1.4 钩子实验正在运行。 页面扩容到 ~780 字研究文档 + 两个去自指探针（N1：隐藏研究发现；N2：隐藏批判观点）。测试 6 个模型各 10 次独立调用。

[实验预测备忘录 →] (子页面即将上线)

LLM 认知脆弱性研究 ​

我们发现了什么 ​

理论框架 ​

实验证据 ​

v1.2 全量矩阵（8 模型，2026-05-22/23） ​

v1.3 三探针指纹（4 模型，2026-05-27 / 06-06） ​

与学术前沿的关系 ​

🔄 贝叶斯更新记录 ​

当前实验 ​

相关页面 ​