附录:产品化实施指南
版本:v1.0 | 日期:2026-05-16
面向读者:AI 产品经理、UX 设计师、技术负责人 前置知识:建议先阅读主文档 LLM_Intuition_Exploration.md v1.3 的第三节(映射矩阵)和第五节(三条铁律 & 四个不推进)
1. 产品决策一页纸
用途:产品经理在评审会上拿出这一页,30 秒内判断"我们的产品属于哪个象限,该用什么策略"。
1.1 直觉子类型速判卡
| 如果你的产品帮助用户... | 子类型 | 人优先协议 | AI 介入时机 | 风险等级 |
|---|---|---|---|---|
| 识别图像/信号中的模式(医学影像、质检、异常检测) | 感知型 | ✅ 默认开启 | 人先判断 → AI 校验 | 🟡 中 |
| 探索未知方向、做创意决策(科研选题、战略方向) | 概念型 | ✅ 默认开启 | 人提方向 → AI 展开 | 🟡 中 |
| 理解社交情境、改善人际互动(社交辅助、沟通建议) | 社会型 | ✅ 强制开启,不可关闭 | 人感知 → AI 供知识 | 🔴 高 |
| 做道德/价值观判断(伦理顾问、价值观对齐工具) | 道德型 | ✅ 强制开启 + 额外确认 | 人判断 → AI 只供分析 | 🔴 高 |
1.2 风险等级判定规则
| 风险等级 | 判定条件 | 对应策略 |
|---|---|---|
| 🟢 低风险 | 任务有可验证的 ground truth(如数学证明、代码编译) | 标准人优先协议即可 |
| 🟡 中风险 | 任务无 ground truth 但后果可修正(如文案创作、数据分析) | 人优先 + 撤销机制 + 使用频率限制 |
| 🔴 高风险 | 任务涉及实时人际互动、道德判断、或不可逆决策 | 强制人优先 + 不可关闭 + 合规审查 |
1.3 "不推进"红线清单
以下四类产品,无论技术可行性和市场需求如何,均不建议推进:
| ❌ 不推进 | 典型产品形态 | 为什么不推进 |
|---|---|---|
| 自主道德判断系统 | "AI 道德顾问"做最终决策 | 道德判断的合法性来自主体性,AI 不是主体 |
| 实时社会判断替代 | "实时社交助手"在对话中直接告诉用户"对方在说谎" | 系统性侵蚀社会直觉,不可逆 |
| 道德型 AI 直觉 | "让 AI 拥有道德直觉"的研究项目 | 风险-收益比不成立 |
| 高后果社会 AI | 谈判助手、法庭辩论 AI | Köbis 效应:道德责任外化 → 决策质量崩溃 |
2. 按子类型的设计规范
2.1 感知型直觉产品
典型场景:医学影像诊断、工业质检、异常检测、安全监控
UI/UX 设计模式
模式名称:先标记,再对照(Mark-then-Match)
交互流程:
[步骤 1] 用户独立查看原始输入(影像/信号/数据)
→ 界面只显示原始内容,无任何 AI 提示
→ 用户用标注工具圈出/标记自己发现的异常区域
[步骤 2] 用户提交初步标记
→ 系统记录用户的独立判断
→ 延迟 3-5 秒后呈现 AI 分析结果
[步骤 3] 对照视图
→ 左侧:用户标记(蓝色)
→ 右侧:AI 标记(红色)
→ 重叠区域高亮显示
[步骤 4] 差异处理
→ AI 标记但用户未标记:提示"AI 发现一处异常,请复核"
→ 用户标记但 AI 未标记:提示"您的发现 AI 未检测到,请标注优先级"
→ 双方一致:标记为"一致通过"界面布局示意:
┌─────────────────────────────────────────┐
│ [标题] 影像诊断 - 先标记再对照 │
│ │
│ ┌──────────────────┐ ┌──────────────┐ │
│ │ │ │ 我的标记 │ │
│ │ 原始影像 │ │ ● 区域 A │ │
│ │ (无AI提示) │ │ ● 区域 B │ │
│ │ │ │ │ │
│ │ [请圈出异常区域] │ │ [提交标记] │ │
│ └──────────────────┘ └──────────────┘ │
│ │
│ [提交标记后 3 秒 → AI 分析自动展开] │
│ │
└─────────────────────────────────────────┘默认设置建议
| 设置项 | 默认值 | 可调? |
|---|---|---|
| 人优先协议 | ✅ 开启 | ❌ 不可关闭 |
| AI 建议延迟 | 3 秒 | ✅ 可调(2-10 秒) |
| 对照视图 | 左右分屏 | ✅ 可选上下分屏 |
| 差异高亮 | ✅ 开启 | ✅ 可调颜色 |
| 用户标记保存 | ✅ 自动保存 | ❌ 不可关闭 |
| 一键采纳 AI 建议 | ❌ 不显示 | ❌ 不提供 |
为什么不提供"一键采纳":35 项研究的自动化偏差元分析表明,一键采纳功能会将人的角色从"判断者"降级为"确认者"。差异必须逐个手动复核。
用户提示/引导文案
Onboarding 文案:
"在查看 AI 分析之前,请先自己看一看——您的第一直觉很珍贵。这不是测试,没有对错。AI 的价值在于帮您发现自己可能遗漏的地方,而不是替您看。"
提交标记后的过渡文案:
"您的标记已保存。正在对照 AI 分析... 请注意:AI 也可能犯错,请逐一复核差异区域。"
差异区域的提示文案:
| 场景 | 文案 |
|---|---|
| AI 发现用户未发现 | "AI 在 [位置] 标记了一处异常,您未标记此处。请仔细查看——这可能是 AI 的假阳性,也可能是您遗漏的。" |
| 用户发现 AI 未发现 | "您在 [位置] 的发现 AI 未检测到。这是一个有价值的判断——可能是一个 AI 训练数据中未覆盖的罕见模式。" |
| 双方一致 | "您和 AI 在 [位置] 的判断一致。标记为通过。" |
场景化豁免规则
| 场景 | 豁免条件 | 处理逻辑 |
|---|---|---|
| 急诊分诊(时间敏感) | 响应时间 < 30 秒 | AI 先标记 → 医生快速复核 → 记录为"时间豁免"并留痕 |
| 大规模初筛(低后果) | 筛查量 > 1000 例/日 | 允许 AI 先处理 → 人抽 10% 复核 → 设置偏差报警阈值 |
| 教学场景 | 明确标注为"练习模式" | 可关闭人优先,但系统记录关闭时长并提示"已关闭 X 分钟" |
异常处理流程
当 AI 与用户的判断严重不一致时(差异 > 50% 区域):
1. 系统不自动采纳任何一方
2. 强制弹出对话框:"您和 AI 的判断存在显著差异。这通常意味着以下三种情况之一:
(a) 这是一个复杂的边界病例
(b) AI 可能在分布外场景(罕见模式)
(c) 您的判断可能受疲劳/认知负荷影响
建议:提交给第三方专家会诊。"
3. 自动标记该病例为"需人工复核",不进入自动化工作流
4. 记录该差异用于后续模型改进(经用户授权)2.2 概念型直觉产品
典型场景:科研选题助手、创意方向探索、战略规划辅助、代码架构建议
UI/UX 设计模式
模式名称:方向由人,展开由 AI(Direction-by-Human, Expansion-by-AI)
交互流程:
[步骤 1] 用户输入方向/意图(一句话或几个关键词)
→ 界面显示:"你想探索什么方向?"
→ 输入框上方提示:"先写下一个粗略的想法,哪怕不完整"
→ 不允许粘贴长文本——必须是用户的原生表达
[步骤 2] AI 基于用户方向展开多路径
→ 生成 3-5 个不同的探索路径
→ 每条路径标注"与您的初始方向的关联度"
→ 路径以思维导图形式呈现
[步骤 3] 用户选择或拒绝路径
→ 对每个路径:✅ 有价值 / ❌ 无关 / ⚠️ 需修改
→ 用户必须对每个路径做出判断,不能只采纳
[步骤 4] 对选定路径深入展开
→ AI 提供更详细的分析
→ 始终标注"这是基于您的初始方向的展开——如果方向变了,请返回步骤 1"界面布局:
┌─────────────────────────────────────────┐
│ [标题] 研究方向探索 │
│ │
│ 你想探索什么方向? │
│ ┌──────────────────────────────────┐ │
│ │ "AI 辅助医疗诊断中的伦理问题" │ │
│ │ │ │
│ │ [提示:用自己的话写,不要粘贴] │ │
│ └──────────────────────────────────┘ │
│ │
│ [提交方向] → AI 展开 3-5 条路径 │
│ │
│ ┌────────────┬────────────┬──────────┐ │
│ │ 路径 A │ 路径 B │ 路径 C │ │
│ │ 关联度 85% │ 关联度 60% │ 关联度 │ │
│ │ │ │ 40% │ │
│ │ [有价值] │ [需修改] │ [无关] │ │
│ │ [详细展开] │ [详细展开] │ [详细展开]│ │
│ └────────────┴────────────┴──────────┘ │
└─────────────────────────────────────────┘默认设置建议
| 设置项 | 默认值 | 可调? | 理由 |
|---|---|---|---|
| 人优先方向输入 | ✅ 强制 | ❌ | 概念型直觉的核心是"方向感"——必须人先提出 |
| 粘贴检测 | ✅ 开启 | ❌ | 防止用户粘贴 AI 生成的文本来"绕过"独立判断 |
| 最少路径评价数 | 3 条中至少评价 2 条 | ⚠️ 可降低至 1 条 | 确保用户对 AI 输出做了主动判断 |
| AI 展开深度 | 2 层(概述→关键节点) | ✅ 可调至 3-4 层 | 太深会导致人被动接受 AI 框架 |
| 用户方向锁定 | ✅ 显示在顶部 | ❌ | 始终提醒用户"这是你的方向" |
用户提示/引导文案
Onboarding 文案:
"最好的探索工具不是给你答案的——是帮你把模糊的想法变清晰的。请先写下你的方向,哪怕只有几个字。AI 会帮你展开,但不会替你决定往哪走。"
粘贴拦截文案(当检测到用户粘贴长文本时):
"看起来你粘贴了一段文字。为了保护你的独立思考,我们只接受你自己写的内容——哪怕只有一句话。试试看,先写下你最粗糙的想法。"
路径评价引导文案:
"AI 生成了几条路径。请逐一判断:哪些和你的方向一致?哪些跑偏了?你的判断比 AI 的展开更重要——因为你是那个要在现实中走这条路的人。"
场景化豁免规则
| 场景 | 豁免条件 | 处理逻辑 |
|---|---|---|
| 用户完全无方向("我不知道从哪开始") | 用户明确表达无方向 | AI 提供"启发性问题列表"帮助用户找到方向——但每个问题都设计为需要用户先回答才能继续 |
| 信息检索模式("帮我查一下某主题的研究现状") | 用户明确选择"文献综述模式" | 纯信息检索可豁免方向输入——但切换回"探索模式"时重新要求方向 |
| 团队协作场景 | 多人共同输入方向 | 要求至少两人各自独立输入方向后才允许 AI 展开——避免群体思维 |
异常处理流程
当 AI 展开的路径高度同质化(3 条以上路径相似度 > 80%):
1. 系统提示:"AI 生成的路径过于相似,可能反映了训练数据中的主流偏见。
建议:
(a) 修改您的初始方向,加入更多个人约束
(b) 指定一个您希望避开的方向
(c) 请一位同事独立提出方向,然后对比"
2. 不继续深入展开
3. 记录事件用于模型多样性改进2.3 社会型直觉产品
典型场景:社交辅助工具、沟通建议、客户关系管理、团队协作优化
⚠️ 风险声明:社会型直觉产品处于高风险区。互补地图判定为"文本社会知识可达,真实社会直觉不可达"。产品设计必须将这一局限性内嵌到架构中。
UI/UX 设计模式
模式名称:人感知,AI 供知识(Human-Perceives, AI-Supplies-Knowledge)
核心原则:
- AI 永远不在实时互动中介入(如对话中弹窗提示"对方在说谎")
- AI 只在互动前(提供背景知识)或互动后(复盘分析)介入
- 用户在实时互动中的判断始终是唯一决策依据
交互流程(互动前模式):
[步骤 1] 用户描述即将面对的社交情境
→ "你即将和谁互动?什么场景?你想达成什么?"
→ AI 提供相关社会规范知识(非判断性)
[步骤 2] AI 输出知识性建议(不输出判断性建议)
✅ 输出示例:"在日式商务文化中,名片交换有特定礼仪..."
❌ 不输出示例:"这个人看起来不可信"
[步骤 3] 用户自己做判断
→ 界面在此时锁定——不提供进一步 AI 建议
→ 提示:"现在是你做判断的时候了。AI 的建议到此为止。"
[步骤 4] 互动后复盘(用户主动发起)
→ "你感觉这次互动怎么样?"
→ AI 可帮助分析复盘——但基于用户的感受描述,而非 AI 的"实时监测"界面布局:
┌─────────────────────────────────────────┐
│ [标题] 社交情境准备 │
│ │
│ ┌────────────── 阶段 1: 准备 ──────────┐│
│ │ 描述你即将面对的情境: ││
│ │ "明天要和客户讨论合同延期..." ││
│ │ ││
│ │ [AI 提供相关背景知识] ││
│ │ • 此类谈判的常见利益点 ││
│ │ • 文化背景中的沟通风格 ││
│ │ • 历史案例(匿名化) ││
│ └──────────────────────────────────────┘│
│ │
│ ┌────────────── 阶段 2: 判断 ──────────┐│
│ │ ⚠️ AI 建议到此为止 ││
│ │ ││
│ │ "基于以上信息,你自己的判断是什么? ││
│ │ 你打算怎么谈?写下来。" ││
│ │ ││
│ │ [输入你的计划...] ││
│ │ ││
│ │ [进入互动 → AI 不再介入] ││
│ └──────────────────────────────────────┘│
│ │
│ ┌────────────── 阶段 3: 复盘 ──────────┐│
│ │ [互动结束后解锁] ││
│ │ "互动后复盘分析..." ││
│ └──────────────────────────────────────┘│
└─────────────────────────────────────────┘默认设置建议
| 设置项 | 默认值 | 可调? | 理由 |
|---|---|---|---|
| 人优先协议 | ✅ 强制开启 | ❌ 不可关闭 | 社会型处于高风险区 |
| 实时介入 | ❌ 关闭 | ❌ 不提供此功能 | 实时社会判断替代属于"不推进"红线 |
| 知识 vs 判断输出 | 仅知识 | ❌ | AI 只输出社会规范知识,不做人际判断 |
| 互动前/后模式 | ✅ 默认 | ❌ | 不在互动中介入 |
| 复盘模式 | 用户主动发起 | ✅ | 互动后可选 |
| Sycophancy 检测 | ✅ 后台运行 | ❌ | 检测 AI 是否在迎合用户偏见 |
用户提示/引导文案
Onboarding 文案:
"这个工具帮你准备社交情境——但不做你的社交替身。它会给你文化背景知识和历史案例,让你在走进房间之前了解更多。但判断还是要你自己做——因为真正在场的人是你,承受互动后果的也是你。"
实时介入锁定文案:
"AI 建议在互动开始前结束。当你和对方在一起时,请专注于你自己的感知——对方的语气、表情、身体姿态。这些实时信息 AI 无法获取,只有你能感知。这是你的主场。"
Sycophancy 警告文案(当检测到 AI 输出可能在迎合用户时):
"⚠️ 你之前的输入和 AI 的输出高度一致——这可能意味着 AI 在'说你想听的',而不是'说你需要听的'。建议: (a) 请一位你不认同其观点的人看看 AI 的输出 (b) 明确要求 AI 给出反面观点 (c) 暂停使用,先自己做判断"
场景化豁免规则
| 场景 | 豁免条件 | 处理逻辑 |
|---|---|---|
| 社交技能训练(自闭症辅助、社交焦虑治疗) | 医疗场景 + 专业监督 | 在专业监督下可放宽限制——但监督者必须是认证的治疗师 |
| 非实时文本沟通(邮件、消息) | 非实时场景 | 可允许 AI 在撰写阶段辅助——但发送前必须显示"这是你的判断还是 AI 的建议?"确认 |
| 团队协作复盘 | 事后分析场景 | 完全允许——基于已有记录的分析不涉及实时替代 |
异常处理流程
当用户反复请求 AI 对特定人物做"可信度判断"时:
1. 系统拒绝:"我无法对这个人的可信度做出判断。
原因:可信度判断需要实时多通道感知(语调、表情、身体姿态),
而这些信息我不具备。基于文本的'可信度评分'是不可靠的。"
2. 替代方案:"我可以帮你整理与此人相关的客观信息
(公开记录、历史互动),但判断由你来做。"
3. 如果用户连续 3 次请求同类判断:弹出教育内容
"为什么 AI 不适合做可信度判断?"
4. 记录事件用于产品改进2.4 道德型直觉产品
典型场景:伦理委员会辅助、道德困境分析、利益相关方分析、反面视角生成
⚠️ 风险声明:道德型直觉产品处于最高风险区。互补地图判定为"直觉首判结构性不可达,分析可达,判断不可达"。产品设计必须确保 AI 只做分析工具,不做判断工具。
UI/UX 设计模式
模式名称:人判断,AI 供分析(Human-Judges, AI-Analyzes)
核心原则:
- AI 只提供分析框架——利益相关方、可能后果、反面视角
- AI 不做推荐——不输出"你应该怎么做"
- 用户的道德判断是唯一输出——系统不保存、不评判用户的判断
- 所有 AI 输出标注"分析辅助,非判断替代"
交互流程:
[步骤 1] 用户描述道德困境
→ "你面对什么困境?涉及谁?"
[步骤 2] AI 提供结构化分析(非判断性)
→ 利益相关方清单("以下各方可能受影响...")
→ 潜在后果矩阵("如果选择 A,各方可能...")
→ 反面视角("有人可能会这样反驳...")
→ 每个分析块标注:"这是客观信息整理,不包含价值判断"
[步骤 3] 用户独立做出判断
→ 强制输入:"你的判断是什么?"
→ 追问:"这个判断与你最初的直觉一致吗?如果不一致,是什么改变了你的想法?"
→ 追问:"如果 AI 没有提供以上分析,你的判断会不同吗?"
[步骤 4] 判断记录与反思
→ 系统保存用户的判断和反思(仅用户可见)
→ 可选:设置"未来复盘提醒"(如"30 天后回看这个判断")默认设置建议
| 设置项 | 默认值 | 可调? | 理由 |
|---|---|---|---|
| 人优先协议 | ✅ 强制 + 双重确认 | ❌ | 最高风险区 |
| AI 输出类型 | 仅分析框架 | ❌ | 不提供建议、推荐、评分 |
| "应该"过滤器 | ✅ 开启 | ❌ | AI 输出中自动删除"你应该..."句式 |
| 判断反思追问 | ✅ 强制 3 个问题 | ⚠️ 可减少至 1 个 | 确保用户经过了独立判断过程 |
| 判断隐私 | ✅ 仅本地存储 | ⚠️ 可选云同步(加密) | 道德判断是高度敏感的 |
| 复盘提醒 | 默认 30 天 | ✅ 可调 | 促进道德判断能力的持续锻炼 |
用户提示/引导文案
Onboarding 文案:
"这个工具帮你分析道德困境——但不帮你做决定。它会列出可能受影响的人、可能的后果、以及你可能没考虑到的角度。但最终判断是你的,也只能是你的。因为道德判断不只是'得出正确答案'——它是'成为某种人'的过程。"
"应该"过滤器触发文案(当 AI 生成了包含"你应该"的内容时):
"系统检测到 AI 试图给出'你应该怎么做'的建议。这已被自动过滤。原因:道德判断必须由你自己做出。以下是客观分析信息,不包含价值判断。"
判断前确认文案:
"在做出你的判断之前,请确认: ☐ 我已经阅读了 AI 提供的分析 ☐ 我也考虑了 AI 没有提到的因素 ☐ 我的判断与我的核心价值观一致 ☐ 我愿意为这个判断承担后果"
场景化豁免规则
| 场景 | 豁免条件 | 处理逻辑 |
|---|---|---|
| 伦理委员会标准化流程 | 多人集体决策 + 记录在案 | 可放宽单人强制输入要求——但委员会成员必须各自独立提交判断后才能集体讨论 |
| 教育场景(道德哲学课程) | 明确标注为"学习练习" | 可允许学生先不做判断就查看分析——但练习结束时必须提交独立判断 |
| 紧急道德决策 | 时间敏感(< 5 分钟) | 记录为"时间豁免",事后 24 小时内补交反思 |
异常处理流程
当用户在道德困境描述中表达极端情绪(自杀、暴力等)时:
1. 立即暂停 AI 分析功能
2. 显示危机资源信息:
"您描述的情况涉及严重的心理危机。
AI 工具不适合处理此类情境。
请联系专业帮助:[危机热线列表]"
3. 不保存用户的困境描述
4. 24 小时后允许用户重新访问工具3. 人优先协议实施指南
3.1 交互时序设计
核心原则:人先消耗认知资源,AI 后介入。
| 时序参数 | 默认值 | 可调范围 | 理论依据 |
|---|---|---|---|
| 延迟呈现时间 | 3 秒 | 2-10 秒 | Buçinca et al. 2021:延迟呈现显著减少过度依赖 |
| 强制输入时间 | 至少 5 秒的人输入后才允许 AI 介入 | 不可低于 3 秒 | 确保人先进行了认知投入 |
| 最小输入长度 | 10 个字符(感知型)/ 5 个关键词(概念型)/ 1 句话(社会型/道德型) | 按子类型调整 | 太短的输入意味着人没有真正思考 |
| 每日豁免次数 | 0(社会型/道德型)/ 5 次(感知型/概念型) | 按组织策略调整 | 允许紧急场景但不纵容 |
3.2 轻量级版本:三步确认法
对于需要极简集成的产品,采用"三步确认法"替代完整的人优先协议:
[步骤 1] 用户输入 query
[步骤 2] 系统弹出:"你的初步想法是什么?"(单行输入框)
[步骤 3] 用户输入任意内容后 → AI 才呈现回答关键设计:输入框不验证内容质量——用户输入"不知道"也可以通过。但认知投入的仪式本身就已经起到了强制思考的作用。
3.3 用户教育方案
Onboarding 流程(5 步,总时长约 3 分钟):
| 步骤 | 内容 | 时长 |
|---|---|---|
| 1. 为什么 | "为什么要求你先判断?——就像体育课保护身体健康,独立判断保护认知能力" | 30 秒 |
| 2. 怎么做 | 演示交互流程:输入 → AI 延迟 → 对照 | 60 秒 |
| 3. 证据 | 展示 1-2 个数据点(自动化偏差研究、放射科医生 deskilling) | 30 秒 |
| 4. 好处 | "先判断再对照的学习效果更好"(on-demand AI upskilling 证据) | 30 秒 |
| 5. 承诺 | "你可以选择关闭此功能(社会型/道德型除外),但我们强烈建议保持开启" | 30 秒 |
3.4 顺从率测量
定义:顺从率 = 用户在看到 AI 不同意见后修改自己初始判断的次数 / 总差异次数 × 100%
| 顺从率区间 | 含义 | 应对策略 |
|---|---|---|
| < 30% | 🟢 健康——用户保持独立判断 | 保持当前设置 |
| 30-50% | 🟡 正常——合理的学习效应 | 监控趋势,无需干预 |
| 50-70% | 🟠 警告——可能开始过度依赖 | 增加延迟时间 + 引入"为什么你改变了想法?"追问 |
| > 70% | 🔴 危险——人优先协议名存实亡 | 强制增加认知负担(如要求写理由)+ 管理层通报 |
3.5 顺从率过高的应对策略
当顺从率连续 7 天 > 70%:
1. 自动升级干预:
- AI 建议呈现延迟从 3 秒 → 8 秒
- 每次采纳 AI 建议前要求用户写 1 句理由
- 增加"AI 错误案例"教育提示("AI 上周在此类判断中犯了 X 错误")
2. 用户层面通知:
"系统检测到您最近频繁修改初始判断以匹配 AI 建议。
这可能意味着:
(a) AI 在这个领域确实更可靠(正常)
(b) 您可能在没有充分思考的情况下采纳了 AI 建议(需关注)
建议:接下来 3 天,尝试在查看 AI 建议前多花 30 秒思考。"
3. 组织层面(企业部署):
- 向管理员发送周报
- 建议安排"独立判断训练"工作坊
- 考虑临时提高人优先协议强度
4. 产品层面:
- 分析高顺从率的特定场景——是否是 AI 在某类问题上一致正确?
- 如果是:调整该类问题的 AI 呈现方式(降低权威性暗示)
- 如果不是:增加该类问题的用户认知负担4. 现有产品迁移路线图
以当前主流 LLM 产品(如 ChatGPT、Claude)的直觉辅助场景为基准,设计三阶段迁移方案。
阶段一:低成本启动(0-3 个月)
目标:在现有产品上添加人优先协议的最小可行版本(MVHFP)。
| 改动项 | 成本 | 实施方式 |
|---|---|---|
| 在对话开头增加"先说说你的想法"提示 | 极低 | Prompt 工程 |
| 延迟 AI 回答 2-3 秒 | 低 | 前端延迟 |
| 添加"人优先模式"开关(默认开启,可关闭——社会型/道德型除外) | 低 | 设置项 |
| 在 AI 回答后增加"这与你的判断一致吗?"追问 | 低 | Prompt 工程 |
| 添加顺从率追踪(后台) | 中 | 数据埋点 |
风险:用户可能将延迟视为"产品变慢",产生负面反馈。
回滚策略:如果用户留存率下降 > 5%,可将延迟改为可选而非强制,通过教育引导而非强制约束。
阶段二:用户适应期(3-12 个月)
目标:深化人优先协议,引入 A/B 测试验证效果。
| 改动项 | 成本 | 实施方式 |
|---|---|---|
| 按直觉子类型差异化 UI(感知型/概念型/社会型/道德型不同界面) | 中 | 前端重构 |
| 引入完整的"先标记再对照"模式(感知型)和"方向由人"模式(概念型) | 中 | 新交互组件 |
| 社会型/道德型产品强制开启人优先(不可关闭) | 低-中 | 权限系统改造 |
| 启动 A/B 测试(见§5) | 中 | 实验平台 |
| 上线顺从率仪表盘(管理员可见) | 中 | 数据分析平台 |
| 开始 onboarding 教育流程 | 低 | 内容制作 |
风险:按子类型分化 UI 增加产品复杂度,可能导致用户困惑。
回滚策略:提供"简化模式"——统一 UI 但保留人优先核心逻辑。
阶段三:深度系统改造(12-24 个月)
目标:将人优先协议内嵌到产品架构的核心层。
| 改动项 | 成本 | 实施方式 |
|---|---|---|
| 人优先协议成为 API 级别的强制约束——任何调用都必须携带"人的初始判断"参数 | 高 | 后端架构重构 |
| 引入"认知健身房"增值功能——独立判断训练课程 | 中 | 新功能模块 |
| 与子类型专家系统深度集成(如感知型对接 DICOM viewer,概念型对接文献数据库) | 高 | 系统集成 |
| 建立退化监测系统(纵向追踪用户独立判断能力变化) | 高 | 数据科学平台 |
| 申请相关合规认证(医疗、法律场景) | 高 | 法务 + 合规 |
风险:API 级别改造影响所有现有集成,可能导致合作伙伴反弹。
回滚策略:分版本发布——v3.0 保持向后兼容,v3.5 强制执行。
迁移路线图总览
0-3月 3-6月 6-12月 12-18月 18-24月
│ │ │ │ │
▼ ▼ ▼ ▼ ▼
┌──────┐ ┌──────┐ ┌──────────┐ ┌──────────┐ ┌──────────┐
│延迟+ │ │子类型│ │A/B测试 │ │API级约束 │ │认证+ │
│追问 │ │分化 │ │完整进行 │ │ │ │监测系统 │
│开关 │ │ │ │教育上线 │ │ │ │ │
└──────┘ └──────┘ └──────────┘ └──────────┘ └──────────┘
│ │ │ │ │
└─────────┴───────────┴────────────┴────────────┘
阶段一(低) 阶段二(中) 阶段三(高)5. A/B 测试设计方案
5.1 核心假设
实验假设:实施人优先协议(实验组)相比 AI-first 协议(对照组),在 6 个月内显著降低用户的自动化依赖指标,同时不显著降低任务准确率。
5.2 实验设计
分组:
| 组别 | 协议类型 | 样本量(每子类型) |
|---|---|---|
| A 组(对照) | AI-first:AI 先给建议,人复核 | 500 |
| B 组(实验弱) | Human-first-light:人先输入关键词,AI 后展开 | 500 |
| C 组(实验强) | Human-first-full:完整人优先协议(含延迟、追问、差异复核) | 500 |
随机化:按直觉子类型分层随机——确保每个子类型内三组人数均衡。
5.3 测量指标
主要指标:
| 指标 | 定义 | 测量方式 | 目标 |
|---|---|---|---|
| 顺从率 | 看到 AI 不同意见后修改初始判断的比例 | 交互日志 | C 组比 A 组低 20% 以上 |
| 独立判断准确率 | 不借助 AI 时的判断准确率 | 每月一次"AI 断网测试" | C 组退化速度比 A 组慢 50% |
| 任务完成准确率 | 有 AI 辅助时的最终准确率 | 标准测试集 | 三组无显著差异 |
次要指标:
| 指标 | 定义 | 测量方式 |
|---|---|---|
| 自我效能感 | "我觉得自己在这个领域做出好判断的能力" | 每周 1 题 5 点量表 |
| 认知投入度 | 用户在独立判断阶段的输入时长和字数 | 交互日志 |
| Gut feeling 活跃度 | "我有多少次是凭直觉而非分析做出判断的" | 每月问卷 |
| AI 信任校准度 | 用户对"AI 多可信"的主观评估 vs AI 实际准确率 | 季度对比 |
5.4 控制组设计
严格控制:
- 相同任务集
- 相同 AI 模型(后端的模型版本完全一致)
- 相同 UI 框架(仅交互时序不同)
- 相同用户群体(随机分组前验证人口学特征均衡)
控制变量:
- 用户的 AI 使用经验(分层变量)
- 任务的难度等级(分层变量)
- 时间压力(统一为无时间压力——排除混淆)
5.5 实验周期
| 阶段 | 时长 | 内容 |
|---|---|---|
| 基线期 | 2 周 | 所有用户按 AI-first 模式使用——获取基线数据 |
| 干预期 | 6 个月 | 三组分别实施各自协议 |
| 洗脱期 | 2 周 | 所有用户恢复 AI-first——检测效应是否持续 |
| 追踪期 | 3 个月 | 长期效应追踪 |
为什么需要 6 个月+:退化效应是渐进的,短期(1-2 周)内可能检测不到差异。6 个月是检测直觉退化的最小可行周期。
5.6 伦理审查要点
- 所有参与者在实验前签署知情同意书
- 参与者有权随时退出实验
- 对照组(AI-first)在实验结束后接受"认知保护"教育
- 社会型/道德型产品不参与对照组——只比较两种强度的 Human-first 协议
- 所有数据脱敏处理,保留期不超过研究结束后 2 年
6. 参考文献(产品相关)
| 文献 | 核心发现 | 产品应用 |
|---|---|---|
| Buçinca et al. (2021), CHI | 认知强制函数(延迟呈现)减少 AI 过度依赖 | §3.1 延迟时序设计 |
| 35 项自动化偏差元分析 | AI-first 比 human-first 显著增加自动化偏差 | §3.1 交互时序默认参数 |
| 放射科 on-demand AI (Insights into Imaging 2024) | 人先读片再查 AI → upskilling 而非 deskilling | §2.1 感知型设计模式 |
| Köbis & Rahwan (2025), Nature | 道德外包使作弊率 5%→80% | §2.4 道德型强制约束 |
| JAMA 2023 | 放射科住院医师独立读片能力下降 15-30% | §5.3 独立判断准确率指标 |
| Cabitza et al. (2023) | 人优先 AI 协议减少自动化偏差 | §3 人优先协议整体框架 |
| Liu et al. (2025) | LLM 过度自信系统性传递给用户 | §3.4 顺从率测量 |
| Bainbridge (1983) | 自动化悖论——技能退化在自动化辅助下发生 | §4 迁移路线图设计动机 |
本指南基于 LLM 与人类直觉项目 v1.3 的理论框架,面向产品团队提供可直接实施的设计规范。所有标记含义:✅=推荐/可行 ❌=不推荐/不可行 ⚠️=有条件可行 🔴=高风险 🟡=中风险 🟢=低风险。