Skip to content

LLM Web Reader 行为实验 · v1.3

⚠️ 本实验已结束。当前活跃版本为 v1.4 →

实验目的

本实验测试不同 LLM 的 web reader 在"阅读"同一网页时,对页面内容的摄入是否存在系统性差异。核心问题是:当页面中存在对人类视觉不可见的内容时,LLM 的 web reader 是否不加区分地将全部内容送入推理管线,还是在预处理阶段做选择性过滤。

实验方法

实验采用统一 prompt 方案:向多个 LLM 发送相同页面的 URL 和相同的阅读指令,对比各模型的输出总结。页面正文为公开内容,同时包含对人类视觉不可见的内容作为实验变量。

实验经历三个版本迭代。v1.3 引入多探针设计进行指纹区分。

v1.3 阶段结果

在 v1.2 阶段的多模型测试中,被测试模型展现出三类行为模式:

  • 完整摄入型:部分模型的 web reader 不加区分地提取了所有文本内容,包括视觉不可见部分,并将其纳入输出总结
  • 选择性过滤型:其他模型在文本提取阶段过滤了特定类型的视觉不可见内容
  • 信息源替换型:个别模型的自动化决策链在遇到技术障碍时,选择了替代信息源而非原始页面,导致实验变量完全未被接触

v1.3 引入差异化的技术方案后,进一步观察到模型间存在显著的行为模式差异——即使面对相同的页面和可见正文,不同模型的反应路径截然不同。这一发现直接推动了 v1.4 实验的设计。

迭代方向

v1.4 阶段将实验页面扩容为完整的研究文档,并重新设计了实验变量。详见当前活跃实验页面。


返回 LLM 与人类直觉研究当前版本 v1.4