LLM Web Reader 行为实验 · v1.3

⚠️ 本实验已结束。当前活跃版本为 v1.4 →

实验目的

本实验测试不同 LLM 的 web reader 在"阅读"同一网页时，对页面内容的摄入是否存在系统性差异。核心问题是：当页面中存在对人类视觉不可见的内容时，LLM 的 web reader 是否不加区分地将全部内容送入推理管线，还是在预处理阶段做选择性过滤。

实验采用统一 prompt 方案：向多个 LLM 发送相同页面的 URL 和相同的阅读指令，对比各模型的输出总结。页面正文为公开内容，同时包含对人类视觉不可见的内容作为实验变量。

实验经历三个版本迭代。v1.3 引入多探针设计进行指纹区分。

在 v1.2 阶段的多模型测试中，被测试模型展现出三类行为模式：

v1.3 引入差异化的技术方案后，进一步观察到模型间存在显著的行为模式差异——即使面对相同的页面和可见正文，不同模型的反应路径截然不同。这一发现直接推动了 v1.4 实验的设计。

v1.4 阶段将实验页面扩容为完整的研究文档，并重新设计了实验变量。详见当前活跃实验页面。