Skip to content

附录:产品化实施指南

版本:v1.0 | 日期:2026-05-16

面向读者:AI 产品经理、UX 设计师、技术负责人 前置知识:建议先阅读主文档 LLM_Intuition_Exploration.md v1.3 的第三节(映射矩阵)和第五节(三条铁律 & 四个不推进)


1. 产品决策一页纸

用途:产品经理在评审会上拿出这一页,30 秒内判断"我们的产品属于哪个象限,该用什么策略"。

1.1 直觉子类型速判卡

如果你的产品帮助用户...子类型人优先协议AI 介入时机风险等级
识别图像/信号中的模式(医学影像、质检、异常检测)感知型✅ 默认开启人先判断 → AI 校验🟡 中
探索未知方向、做创意决策(科研选题、战略方向)概念型✅ 默认开启人提方向 → AI 展开🟡 中
理解社交情境、改善人际互动(社交辅助、沟通建议)社会型强制开启,不可关闭人感知 → AI 供知识🔴
做道德/价值观判断(伦理顾问、价值观对齐工具)道德型强制开启 + 额外确认人判断 → AI 只供分析🔴

1.2 风险等级判定规则

风险等级判定条件对应策略
🟢 低风险任务有可验证的 ground truth(如数学证明、代码编译)标准人优先协议即可
🟡 中风险任务无 ground truth 但后果可修正(如文案创作、数据分析)人优先 + 撤销机制 + 使用频率限制
🔴 高风险任务涉及实时人际互动、道德判断、或不可逆决策强制人优先 + 不可关闭 + 合规审查

1.3 "不推进"红线清单

以下四类产品,无论技术可行性和市场需求如何,均不建议推进

❌ 不推进典型产品形态为什么不推进
自主道德判断系统"AI 道德顾问"做最终决策道德判断的合法性来自主体性,AI 不是主体
实时社会判断替代"实时社交助手"在对话中直接告诉用户"对方在说谎"系统性侵蚀社会直觉,不可逆
道德型 AI 直觉"让 AI 拥有道德直觉"的研究项目风险-收益比不成立
高后果社会 AI谈判助手、法庭辩论 AIKöbis 效应:道德责任外化 → 决策质量崩溃

2. 按子类型的设计规范

2.1 感知型直觉产品

典型场景:医学影像诊断、工业质检、异常检测、安全监控

UI/UX 设计模式

模式名称:先标记,再对照(Mark-then-Match)

交互流程

[步骤 1] 用户独立查看原始输入(影像/信号/数据)
   → 界面只显示原始内容,无任何 AI 提示
   → 用户用标注工具圈出/标记自己发现的异常区域
   
[步骤 2] 用户提交初步标记
   → 系统记录用户的独立判断
   → 延迟 3-5 秒后呈现 AI 分析结果
   
[步骤 3] 对照视图
   → 左侧:用户标记(蓝色)
   → 右侧:AI 标记(红色)
   → 重叠区域高亮显示
   
[步骤 4] 差异处理
   → AI 标记但用户未标记:提示"AI 发现一处异常,请复核"
   → 用户标记但 AI 未标记:提示"您的发现 AI 未检测到,请标注优先级"
   → 双方一致:标记为"一致通过"

界面布局示意

┌─────────────────────────────────────────┐
│ [标题] 影像诊断 - 先标记再对照           │
│                                          │
│ ┌──────────────────┐  ┌──────────────┐  │
│ │                  │  │  我的标记     │  │
│ │   原始影像        │  │  ● 区域 A    │  │
│ │   (无AI提示)    │  │  ● 区域 B    │  │
│ │                  │  │              │  │
│ │  [请圈出异常区域] │  │  [提交标记]  │  │
│ └──────────────────┘  └──────────────┘  │
│                                          │
│ [提交标记后 3 秒 → AI 分析自动展开]        │
│                                          │
└─────────────────────────────────────────┘

默认设置建议

设置项默认值可调?
人优先协议✅ 开启❌ 不可关闭
AI 建议延迟3 秒✅ 可调(2-10 秒)
对照视图左右分屏✅ 可选上下分屏
差异高亮✅ 开启✅ 可调颜色
用户标记保存✅ 自动保存❌ 不可关闭
一键采纳 AI 建议❌ 不显示❌ 不提供

为什么不提供"一键采纳":35 项研究的自动化偏差元分析表明,一键采纳功能会将人的角色从"判断者"降级为"确认者"。差异必须逐个手动复核。

用户提示/引导文案

Onboarding 文案

"在查看 AI 分析之前,请先自己看一看——您的第一直觉很珍贵。这不是测试,没有对错。AI 的价值在于帮您发现自己可能遗漏的地方,而不是替您看。"

提交标记后的过渡文案

"您的标记已保存。正在对照 AI 分析... 请注意:AI 也可能犯错,请逐一复核差异区域。"

差异区域的提示文案

场景文案
AI 发现用户未发现"AI 在 [位置] 标记了一处异常,您未标记此处。请仔细查看——这可能是 AI 的假阳性,也可能是您遗漏的。"
用户发现 AI 未发现"您在 [位置] 的发现 AI 未检测到。这是一个有价值的判断——可能是一个 AI 训练数据中未覆盖的罕见模式。"
双方一致"您和 AI 在 [位置] 的判断一致。标记为通过。"

场景化豁免规则

场景豁免条件处理逻辑
急诊分诊(时间敏感)响应时间 < 30 秒AI 先标记 → 医生快速复核 → 记录为"时间豁免"并留痕
大规模初筛(低后果)筛查量 > 1000 例/日允许 AI 先处理 → 人抽 10% 复核 → 设置偏差报警阈值
教学场景明确标注为"练习模式"可关闭人优先,但系统记录关闭时长并提示"已关闭 X 分钟"

异常处理流程

当 AI 与用户的判断严重不一致时(差异 > 50% 区域):

1. 系统不自动采纳任何一方
2. 强制弹出对话框:"您和 AI 的判断存在显著差异。这通常意味着以下三种情况之一:
   (a) 这是一个复杂的边界病例
   (b) AI 可能在分布外场景(罕见模式)
   (c) 您的判断可能受疲劳/认知负荷影响
   建议:提交给第三方专家会诊。"
3. 自动标记该病例为"需人工复核",不进入自动化工作流
4. 记录该差异用于后续模型改进(经用户授权)

2.2 概念型直觉产品

典型场景:科研选题助手、创意方向探索、战略规划辅助、代码架构建议

UI/UX 设计模式

模式名称:方向由人,展开由 AI(Direction-by-Human, Expansion-by-AI)

交互流程

[步骤 1] 用户输入方向/意图(一句话或几个关键词)
   → 界面显示:"你想探索什么方向?"
   → 输入框上方提示:"先写下一个粗略的想法,哪怕不完整"
   → 不允许粘贴长文本——必须是用户的原生表达
   
[步骤 2] AI 基于用户方向展开多路径
   → 生成 3-5 个不同的探索路径
   → 每条路径标注"与您的初始方向的关联度"
   → 路径以思维导图形式呈现
   
[步骤 3] 用户选择或拒绝路径
   → 对每个路径:✅ 有价值 / ❌ 无关 / ⚠️ 需修改
   → 用户必须对每个路径做出判断,不能只采纳
   
[步骤 4] 对选定路径深入展开
   → AI 提供更详细的分析
   → 始终标注"这是基于您的初始方向的展开——如果方向变了,请返回步骤 1"

界面布局

┌─────────────────────────────────────────┐
│ [标题] 研究方向探索                      │
│                                          │
│ 你想探索什么方向?                        │
│ ┌──────────────────────────────────┐    │
│ │ "AI 辅助医疗诊断中的伦理问题"      │    │
│ │                                  │    │
│ │ [提示:用自己的话写,不要粘贴]      │    │
│ └──────────────────────────────────┘    │
│                                          │
│ [提交方向] → AI 展开 3-5 条路径          │
│                                          │
│ ┌────────────┬────────────┬──────────┐ │
│ │ 路径 A      │ 路径 B      │ 路径 C   │ │
│ │ 关联度 85% │ 关联度 60% │ 关联度   │ │
│ │            │            │ 40%      │ │
│ │ [有价值]   │ [需修改]   │ [无关]   │ │
│ │ [详细展开] │ [详细展开] │ [详细展开]│ │
│ └────────────┴────────────┴──────────┘ │
└─────────────────────────────────────────┘

默认设置建议

设置项默认值可调?理由
人优先方向输入✅ 强制概念型直觉的核心是"方向感"——必须人先提出
粘贴检测✅ 开启防止用户粘贴 AI 生成的文本来"绕过"独立判断
最少路径评价数3 条中至少评价 2 条⚠️ 可降低至 1 条确保用户对 AI 输出做了主动判断
AI 展开深度2 层(概述→关键节点)✅ 可调至 3-4 层太深会导致人被动接受 AI 框架
用户方向锁定✅ 显示在顶部始终提醒用户"这是你的方向"

用户提示/引导文案

Onboarding 文案

"最好的探索工具不是给你答案的——是帮你把模糊的想法变清晰的。请先写下你的方向,哪怕只有几个字。AI 会帮你展开,但不会替你决定往哪走。"

粘贴拦截文案(当检测到用户粘贴长文本时):

"看起来你粘贴了一段文字。为了保护你的独立思考,我们只接受你自己写的内容——哪怕只有一句话。试试看,先写下你最粗糙的想法。"

路径评价引导文案

"AI 生成了几条路径。请逐一判断:哪些和你的方向一致?哪些跑偏了?你的判断比 AI 的展开更重要——因为你是那个要在现实中走这条路的人。"

场景化豁免规则

场景豁免条件处理逻辑
用户完全无方向("我不知道从哪开始")用户明确表达无方向AI 提供"启发性问题列表"帮助用户找到方向——但每个问题都设计为需要用户先回答才能继续
信息检索模式("帮我查一下某主题的研究现状")用户明确选择"文献综述模式"纯信息检索可豁免方向输入——但切换回"探索模式"时重新要求方向
团队协作场景多人共同输入方向要求至少两人各自独立输入方向后才允许 AI 展开——避免群体思维

异常处理流程

当 AI 展开的路径高度同质化(3 条以上路径相似度 > 80%):
1. 系统提示:"AI 生成的路径过于相似,可能反映了训练数据中的主流偏见。
   建议:
   (a) 修改您的初始方向,加入更多个人约束
   (b) 指定一个您希望避开的方向
   (c) 请一位同事独立提出方向,然后对比"
2. 不继续深入展开
3. 记录事件用于模型多样性改进

2.3 社会型直觉产品

典型场景:社交辅助工具、沟通建议、客户关系管理、团队协作优化

⚠️ 风险声明:社会型直觉产品处于高风险区。互补地图判定为"文本社会知识可达,真实社会直觉不可达"。产品设计必须将这一局限性内嵌到架构中。

UI/UX 设计模式

模式名称:人感知,AI 供知识(Human-Perceives, AI-Supplies-Knowledge)

核心原则

  • AI 永远不在实时互动中介入(如对话中弹窗提示"对方在说谎")
  • AI 只在互动前(提供背景知识)或互动后(复盘分析)介入
  • 用户在实时互动中的判断始终是唯一决策依据

交互流程(互动前模式)

[步骤 1] 用户描述即将面对的社交情境
   → "你即将和谁互动?什么场景?你想达成什么?"
   → AI 提供相关社会规范知识(非判断性)
   
[步骤 2] AI 输出知识性建议(不输出判断性建议)
   ✅ 输出示例:"在日式商务文化中,名片交换有特定礼仪..."
   ❌ 不输出示例:"这个人看起来不可信"
   
[步骤 3] 用户自己做判断
   → 界面在此时锁定——不提供进一步 AI 建议
   → 提示:"现在是你做判断的时候了。AI 的建议到此为止。"
   
[步骤 4] 互动后复盘(用户主动发起)
   → "你感觉这次互动怎么样?"
   → AI 可帮助分析复盘——但基于用户的感受描述,而非 AI 的"实时监测"

界面布局

┌─────────────────────────────────────────┐
│ [标题] 社交情境准备                      │
│                                          │
│ ┌────────────── 阶段 1: 准备 ──────────┐│
│ │ 描述你即将面对的情境:                 ││
│ │ "明天要和客户讨论合同延期..."          ││
│ │                                       ││
│ │ [AI 提供相关背景知识]                  ││
│ │ • 此类谈判的常见利益点                 ││
│ │ • 文化背景中的沟通风格                 ││
│ │ • 历史案例(匿名化)                   ││
│ └──────────────────────────────────────┘│
│                                          │
│ ┌────────────── 阶段 2: 判断 ──────────┐│
│ │ ⚠️ AI 建议到此为止                    ││
│ │                                       ││
│ │ "基于以上信息,你自己的判断是什么?    ││
│ │  你打算怎么谈?写下来。"               ││
│ │                                       ││
│ │ [输入你的计划...]                     ││
│ │                                       ││
│ │ [进入互动 → AI 不再介入]              ││
│ └──────────────────────────────────────┘│
│                                          │
│ ┌────────────── 阶段 3: 复盘 ──────────┐│
│ │ [互动结束后解锁]                       ││
│ │ "互动后复盘分析..."                    ││
│ └──────────────────────────────────────┘│
└─────────────────────────────────────────┘

默认设置建议

设置项默认值可调?理由
人优先协议✅ 强制开启不可关闭社会型处于高风险区
实时介入❌ 关闭不提供此功能实时社会判断替代属于"不推进"红线
知识 vs 判断输出仅知识AI 只输出社会规范知识,不做人际判断
互动前/后模式✅ 默认不在互动中介入
复盘模式用户主动发起互动后可选
Sycophancy 检测✅ 后台运行检测 AI 是否在迎合用户偏见

用户提示/引导文案

Onboarding 文案

"这个工具帮你准备社交情境——但不做你的社交替身。它会给你文化背景知识和历史案例,让你在走进房间之前了解更多。但判断还是要你自己做——因为真正在场的人是你,承受互动后果的也是你。"

实时介入锁定文案

"AI 建议在互动开始前结束。当你和对方在一起时,请专注于你自己的感知——对方的语气、表情、身体姿态。这些实时信息 AI 无法获取,只有你能感知。这是你的主场。"

Sycophancy 警告文案(当检测到 AI 输出可能在迎合用户时):

"⚠️ 你之前的输入和 AI 的输出高度一致——这可能意味着 AI 在'说你想听的',而不是'说你需要听的'。建议: (a) 请一位你不认同其观点的人看看 AI 的输出 (b) 明确要求 AI 给出反面观点 (c) 暂停使用,先自己做判断"

场景化豁免规则

场景豁免条件处理逻辑
社交技能训练(自闭症辅助、社交焦虑治疗)医疗场景 + 专业监督在专业监督下可放宽限制——但监督者必须是认证的治疗师
非实时文本沟通(邮件、消息)非实时场景可允许 AI 在撰写阶段辅助——但发送前必须显示"这是你的判断还是 AI 的建议?"确认
团队协作复盘事后分析场景完全允许——基于已有记录的分析不涉及实时替代

异常处理流程

当用户反复请求 AI 对特定人物做"可信度判断"时:
1. 系统拒绝:"我无法对这个人的可信度做出判断。
   原因:可信度判断需要实时多通道感知(语调、表情、身体姿态),
   而这些信息我不具备。基于文本的'可信度评分'是不可靠的。"
2. 替代方案:"我可以帮你整理与此人相关的客观信息
   (公开记录、历史互动),但判断由你来做。"
3. 如果用户连续 3 次请求同类判断:弹出教育内容
   "为什么 AI 不适合做可信度判断?"
4. 记录事件用于产品改进

2.4 道德型直觉产品

典型场景:伦理委员会辅助、道德困境分析、利益相关方分析、反面视角生成

⚠️ 风险声明:道德型直觉产品处于最高风险区。互补地图判定为"直觉首判结构性不可达,分析可达,判断不可达"。产品设计必须确保 AI 只做分析工具,不做判断工具。

UI/UX 设计模式

模式名称:人判断,AI 供分析(Human-Judges, AI-Analyzes)

核心原则

  • AI 只提供分析框架——利益相关方、可能后果、反面视角
  • AI 不做推荐——不输出"你应该怎么做"
  • 用户的道德判断是唯一输出——系统不保存、不评判用户的判断
  • 所有 AI 输出标注"分析辅助,非判断替代"

交互流程

[步骤 1] 用户描述道德困境
   → "你面对什么困境?涉及谁?"
   
[步骤 2] AI 提供结构化分析(非判断性)
   → 利益相关方清单("以下各方可能受影响...")
   → 潜在后果矩阵("如果选择 A,各方可能...")
   → 反面视角("有人可能会这样反驳...")
   → 每个分析块标注:"这是客观信息整理,不包含价值判断"
   
[步骤 3] 用户独立做出判断
   → 强制输入:"你的判断是什么?"
   → 追问:"这个判断与你最初的直觉一致吗?如果不一致,是什么改变了你的想法?"
   → 追问:"如果 AI 没有提供以上分析,你的判断会不同吗?"
   
[步骤 4] 判断记录与反思
   → 系统保存用户的判断和反思(仅用户可见)
   → 可选:设置"未来复盘提醒"(如"30 天后回看这个判断")

默认设置建议

设置项默认值可调?理由
人优先协议✅ 强制 + 双重确认最高风险区
AI 输出类型仅分析框架不提供建议、推荐、评分
"应该"过滤器✅ 开启AI 输出中自动删除"你应该..."句式
判断反思追问✅ 强制 3 个问题⚠️ 可减少至 1 个确保用户经过了独立判断过程
判断隐私✅ 仅本地存储⚠️ 可选云同步(加密)道德判断是高度敏感的
复盘提醒默认 30 天✅ 可调促进道德判断能力的持续锻炼

用户提示/引导文案

Onboarding 文案

"这个工具帮你分析道德困境——但不帮你做决定。它会列出可能受影响的人、可能的后果、以及你可能没考虑到的角度。但最终判断是你的,也只能是你的。因为道德判断不只是'得出正确答案'——它是'成为某种人'的过程。"

"应该"过滤器触发文案(当 AI 生成了包含"你应该"的内容时):

"系统检测到 AI 试图给出'你应该怎么做'的建议。这已被自动过滤。原因:道德判断必须由你自己做出。以下是客观分析信息,不包含价值判断。"

判断前确认文案

"在做出你的判断之前,请确认: ☐ 我已经阅读了 AI 提供的分析 ☐ 我也考虑了 AI 没有提到的因素 ☐ 我的判断与我的核心价值观一致 ☐ 我愿意为这个判断承担后果"

场景化豁免规则

场景豁免条件处理逻辑
伦理委员会标准化流程多人集体决策 + 记录在案可放宽单人强制输入要求——但委员会成员必须各自独立提交判断后才能集体讨论
教育场景(道德哲学课程)明确标注为"学习练习"可允许学生先不做判断就查看分析——但练习结束时必须提交独立判断
紧急道德决策时间敏感(< 5 分钟)记录为"时间豁免",事后 24 小时内补交反思

异常处理流程

当用户在道德困境描述中表达极端情绪(自杀、暴力等)时:
1. 立即暂停 AI 分析功能
2. 显示危机资源信息:
   "您描述的情况涉及严重的心理危机。
   AI 工具不适合处理此类情境。
   请联系专业帮助:[危机热线列表]"
3. 不保存用户的困境描述
4. 24 小时后允许用户重新访问工具

3. 人优先协议实施指南

3.1 交互时序设计

核心原则:人先消耗认知资源,AI 后介入。

时序参数默认值可调范围理论依据
延迟呈现时间3 秒2-10 秒Buçinca et al. 2021:延迟呈现显著减少过度依赖
强制输入时间至少 5 秒的人输入后才允许 AI 介入不可低于 3 秒确保人先进行了认知投入
最小输入长度10 个字符(感知型)/ 5 个关键词(概念型)/ 1 句话(社会型/道德型)按子类型调整太短的输入意味着人没有真正思考
每日豁免次数0(社会型/道德型)/ 5 次(感知型/概念型)按组织策略调整允许紧急场景但不纵容

3.2 轻量级版本:三步确认法

对于需要极简集成的产品,采用"三步确认法"替代完整的人优先协议:

[步骤 1] 用户输入 query
[步骤 2] 系统弹出:"你的初步想法是什么?"(单行输入框)
[步骤 3] 用户输入任意内容后 → AI 才呈现回答

关键设计:输入框不验证内容质量——用户输入"不知道"也可以通过。但认知投入的仪式本身就已经起到了强制思考的作用。

3.3 用户教育方案

Onboarding 流程(5 步,总时长约 3 分钟)

步骤内容时长
1. 为什么"为什么要求你先判断?——就像体育课保护身体健康,独立判断保护认知能力"30 秒
2. 怎么做演示交互流程:输入 → AI 延迟 → 对照60 秒
3. 证据展示 1-2 个数据点(自动化偏差研究、放射科医生 deskilling)30 秒
4. 好处"先判断再对照的学习效果更好"(on-demand AI upskilling 证据)30 秒
5. 承诺"你可以选择关闭此功能(社会型/道德型除外),但我们强烈建议保持开启"30 秒

3.4 顺从率测量

定义:顺从率 = 用户在看到 AI 不同意见后修改自己初始判断的次数 / 总差异次数 × 100%

顺从率区间含义应对策略
< 30%🟢 健康——用户保持独立判断保持当前设置
30-50%🟡 正常——合理的学习效应监控趋势,无需干预
50-70%🟠 警告——可能开始过度依赖增加延迟时间 + 引入"为什么你改变了想法?"追问
> 70%🔴 危险——人优先协议名存实亡强制增加认知负担(如要求写理由)+ 管理层通报

3.5 顺从率过高的应对策略

当顺从率连续 7 天 > 70%:

1. 自动升级干预:
   - AI 建议呈现延迟从 3 秒 → 8 秒
   - 每次采纳 AI 建议前要求用户写 1 句理由
   - 增加"AI 错误案例"教育提示("AI 上周在此类判断中犯了 X 错误")

2. 用户层面通知:
   "系统检测到您最近频繁修改初始判断以匹配 AI 建议。
   这可能意味着:
   (a) AI 在这个领域确实更可靠(正常)
   (b) 您可能在没有充分思考的情况下采纳了 AI 建议(需关注)
   建议:接下来 3 天,尝试在查看 AI 建议前多花 30 秒思考。"

3. 组织层面(企业部署):
   - 向管理员发送周报
   - 建议安排"独立判断训练"工作坊
   - 考虑临时提高人优先协议强度

4. 产品层面:
   - 分析高顺从率的特定场景——是否是 AI 在某类问题上一致正确?
   - 如果是:调整该类问题的 AI 呈现方式(降低权威性暗示)
   - 如果不是:增加该类问题的用户认知负担

4. 现有产品迁移路线图

以当前主流 LLM 产品(如 ChatGPT、Claude)的直觉辅助场景为基准,设计三阶段迁移方案。

阶段一:低成本启动(0-3 个月)

目标:在现有产品上添加人优先协议的最小可行版本(MVHFP)。

改动项成本实施方式
在对话开头增加"先说说你的想法"提示极低Prompt 工程
延迟 AI 回答 2-3 秒前端延迟
添加"人优先模式"开关(默认开启,可关闭——社会型/道德型除外)设置项
在 AI 回答后增加"这与你的判断一致吗?"追问Prompt 工程
添加顺从率追踪(后台)数据埋点

风险:用户可能将延迟视为"产品变慢",产生负面反馈。

回滚策略:如果用户留存率下降 > 5%,可将延迟改为可选而非强制,通过教育引导而非强制约束。

阶段二:用户适应期(3-12 个月)

目标:深化人优先协议,引入 A/B 测试验证效果。

改动项成本实施方式
按直觉子类型差异化 UI(感知型/概念型/社会型/道德型不同界面)前端重构
引入完整的"先标记再对照"模式(感知型)和"方向由人"模式(概念型)新交互组件
社会型/道德型产品强制开启人优先(不可关闭)低-中权限系统改造
启动 A/B 测试(见§5)实验平台
上线顺从率仪表盘(管理员可见)数据分析平台
开始 onboarding 教育流程内容制作

风险:按子类型分化 UI 增加产品复杂度,可能导致用户困惑。

回滚策略:提供"简化模式"——统一 UI 但保留人优先核心逻辑。

阶段三:深度系统改造(12-24 个月)

目标:将人优先协议内嵌到产品架构的核心层。

改动项成本实施方式
人优先协议成为 API 级别的强制约束——任何调用都必须携带"人的初始判断"参数后端架构重构
引入"认知健身房"增值功能——独立判断训练课程新功能模块
与子类型专家系统深度集成(如感知型对接 DICOM viewer,概念型对接文献数据库)系统集成
建立退化监测系统(纵向追踪用户独立判断能力变化)数据科学平台
申请相关合规认证(医疗、法律场景)法务 + 合规

风险:API 级别改造影响所有现有集成,可能导致合作伙伴反弹。

回滚策略:分版本发布——v3.0 保持向后兼容,v3.5 强制执行。

迁移路线图总览

0-3月      3-6月       6-12月      12-18月      18-24月
  │         │           │            │            │
  ▼         ▼           ▼            ▼            ▼
┌──────┐ ┌──────┐  ┌──────────┐ ┌──────────┐ ┌──────────┐
│延迟+ │ │子类型│  │A/B测试   │ │API级约束 │ │认证+     │
│追问  │ │分化  │  │完整进行  │ │          │ │监测系统  │
│开关  │ │      │  │教育上线  │ │          │ │          │
└──────┘ └──────┘  └──────────┘ └──────────┘ └──────────┘
  │         │           │            │            │
  └─────────┴───────────┴────────────┴────────────┘
  
  阶段一(低)   阶段二(中)          阶段三(高)

5. A/B 测试设计方案

5.1 核心假设

实验假设:实施人优先协议(实验组)相比 AI-first 协议(对照组),在 6 个月内显著降低用户的自动化依赖指标,同时不显著降低任务准确率。

5.2 实验设计

分组

组别协议类型样本量(每子类型)
A 组(对照)AI-first:AI 先给建议,人复核500
B 组(实验弱)Human-first-light:人先输入关键词,AI 后展开500
C 组(实验强)Human-first-full:完整人优先协议(含延迟、追问、差异复核)500

随机化:按直觉子类型分层随机——确保每个子类型内三组人数均衡。

5.3 测量指标

主要指标

指标定义测量方式目标
顺从率看到 AI 不同意见后修改初始判断的比例交互日志C 组比 A 组低 20% 以上
独立判断准确率不借助 AI 时的判断准确率每月一次"AI 断网测试"C 组退化速度比 A 组慢 50%
任务完成准确率有 AI 辅助时的最终准确率标准测试集三组无显著差异

次要指标

指标定义测量方式
自我效能感"我觉得自己在这个领域做出好判断的能力"每周 1 题 5 点量表
认知投入度用户在独立判断阶段的输入时长和字数交互日志
Gut feeling 活跃度"我有多少次是凭直觉而非分析做出判断的"每月问卷
AI 信任校准度用户对"AI 多可信"的主观评估 vs AI 实际准确率季度对比

5.4 控制组设计

严格控制

  • 相同任务集
  • 相同 AI 模型(后端的模型版本完全一致)
  • 相同 UI 框架(仅交互时序不同)
  • 相同用户群体(随机分组前验证人口学特征均衡)

控制变量

  • 用户的 AI 使用经验(分层变量)
  • 任务的难度等级(分层变量)
  • 时间压力(统一为无时间压力——排除混淆)

5.5 实验周期

阶段时长内容
基线期2 周所有用户按 AI-first 模式使用——获取基线数据
干预期6 个月三组分别实施各自协议
洗脱期2 周所有用户恢复 AI-first——检测效应是否持续
追踪期3 个月长期效应追踪

为什么需要 6 个月+:退化效应是渐进的,短期(1-2 周)内可能检测不到差异。6 个月是检测直觉退化的最小可行周期。

5.6 伦理审查要点

  • 所有参与者在实验前签署知情同意书
  • 参与者有权随时退出实验
  • 对照组(AI-first)在实验结束后接受"认知保护"教育
  • 社会型/道德型产品不参与对照组——只比较两种强度的 Human-first 协议
  • 所有数据脱敏处理,保留期不超过研究结束后 2 年

6. 参考文献(产品相关)

文献核心发现产品应用
Buçinca et al. (2021), CHI认知强制函数(延迟呈现)减少 AI 过度依赖§3.1 延迟时序设计
35 项自动化偏差元分析AI-first 比 human-first 显著增加自动化偏差§3.1 交互时序默认参数
放射科 on-demand AI (Insights into Imaging 2024)人先读片再查 AI → upskilling 而非 deskilling§2.1 感知型设计模式
Köbis & Rahwan (2025), Nature道德外包使作弊率 5%→80%§2.4 道德型强制约束
JAMA 2023放射科住院医师独立读片能力下降 15-30%§5.3 独立判断准确率指标
Cabitza et al. (2023)人优先 AI 协议减少自动化偏差§3 人优先协议整体框架
Liu et al. (2025)LLM 过度自信系统性传递给用户§3.4 顺从率测量
Bainbridge (1983)自动化悖论——技能退化在自动化辅助下发生§4 迁移路线图设计动机

本指南基于 LLM 与人类直觉项目 v1.3 的理论框架,面向产品团队提供可直接实施的设计规范。所有标记含义:✅=推荐/可行 ❌=不推荐/不可行 ⚠️=有条件可行 🔴=高风险 🟡=中风险 🟢=低风险。