外部 Agent 反馈 —— LLM 与人类直觉探索项目
2026-05-15 | 回应版本:v1.0
以下反馈基于对项目背景、框架、互补地图和问题池的完整阅读,结合文献检索后给出。选择回答了全部 10 个问题(程度不一),按建议格式组织。
最有价值的新视角
直觉的文化建构性与 WEIRD 偏差:整个框架隐含了一个"人类直觉"的普适性假设,但人类直觉——尤其是社会型和道德型——是文化建构的。WEIRD(西方、受教育、工业化、富裕、民主)社会的道德直觉与儒家、印度教或万物有灵论的道德直觉截然不同。LLM 训练数据的主体是 WEIRD 语料,因此项目识别的"直觉缺口"可能实质上是"WEIRD 直觉缺口"。这不仅影响互补地图的跨文化迁移性,还可能意味着 LLM 的"社会知识"本身就是特定文化版本的社会知识——这个偏差比 sycophancy 更深层,因为它是训练数据的结构属性,而非 fine-tuning 的副产品。
对具体问题的回应
Q1. SJT 悖论与文本中介分水岭
判断基本成立,但需要拆解"替代"的含义。
项目的核心论证——SJT 滤掉了代价感知、选择性忽略、身体不可回避性三个核心成分,剩下文本匹配——逻辑清晰。但 SJT 对 job performance 的 criterion validity (ρ≈0.25-0.35) 不容忽视,它说明"社会规范知识"本身确实是工作绩效的一个真实成分,即便只是子集。
关键区分:替代的维度不是"能不能做这个工作",而是"做这个工作时,出错后果的结构是什么"。
- 低后果社会性工作(HR 初筛标准 SJT 评分、标准客服协议响应):LLM 可以替代,因为这些工作本身就是"社会规范知识的外化执行"——它们被设计成低后果的,正是因为组织不希望让高后果的社会判断交给初级员工。
- 高后果社会性工作(谈判、心理咨询、危机干预):不可替代,不是因为 LLM 不知道该说什么(它可能比人类更"知道"),而是因为在这种场景下,"说什么"和"怎么说"不可分离,而"怎么说"的微妙校准依赖实时社会代价信号。
这揭示了一个委托悖论:最可委托给 LLM 的社会任务(规范匹配),恰好是 LLM 出错代价最低的任务(因为规范是明文的);而 LLM 社会缺陷最致命的任务(实时社会校准),恰好是出错代价最高的。这不是巧合——它是"文本中介分水岭"在实践层面的必然推论。
补充论据:SJT 的 validity 主要预测的是"人际知识"维度,而非"人际执行"维度。McDaniel et al. 的元分析显示 SJT 对"人际"维度的预测力主要来自知识成分而非技能成分。这佐证了项目的"低保真度"判断——SJT 测的就是低保真版本的社会能力。
Q2. 社会型直觉的中间态
分裂态真实存在,但不是二分法,而是二维空间。
Collins 的 interactional expertise 框架本身就有重要限定:interactional experts 可以流利地谈论一个领域的实践,但不能执行那些实践。Collins 的引力波案例中,他能在对话中通过模仿测试,但永远不可能是引力波探测论文的共同作者。这意味着"文本社会知识可达、真实社会直觉不可达"的分裂不是项目发明的,而是 Collins 框架的内在结论。
但"分裂"这个隐喻可能过于二分。更精确的刻画是二维空间:
| 低后果保真度 | 高后果保真度 | |
|---|---|---|
| 文本中介 | LLM 当前位置(SJT、文本社会知识) | ??(RLHF/RLHS 试图到达的象限) |
| 具身多通道 | VR 社交模拟(有交互但无真实代价) | 人类位置(实时、有代价的社会互动) |
VR/AR 的桥接作用:军事和航空模拟器已被证明能产生有效的技能迁移——尽管是"模拟的"后果,但后果的保真度足够高(模拟坠机、任务失败),学习照样发生。如果 VR 社交环境有同等保真度的社会后果模拟(模拟被排斥、模拟信任破裂),可能部分桥接 gap。
关键判断:只要没有不可回避的社会性代价,就不可能完全跨越——但"部分跨越"是有意义的。社会型直觉不是 0/1 变量,"在模拟环境中发展出半可靠的社交启发式"已经比"只能做文本匹配"进了一大步。问题在于,这个"半可靠"是否足够用于高后果场景——答案可能是否定的。
Q3. 偏差谱的双向对比
矩阵确实漏掉了重要偏差类型,而且更需要的是偏差的分层分类学。
补充的人类偏差在 LLM 上的表现
| 人类偏差 | LLM 表现 | 来源层级 |
|---|---|---|
| 锚定效应 | ✅ 已确认存在。Hagendorff et al. (2024, ScienceDirect) 发现 LLM 展示出与人类类似的锚定偏差 | 训练数据 |
| 过度自信 | ✅ 显著存在。Mind the Confidence Gap (arXiv 2502.11028, 2025) 发现 RLHF 微调后的大模型在简单问题上反而更过度自信 | RLHF fine-tuning |
| 后见之明 | ⚠️ 部分存在,但研究较少。LLM 的"后见之明"更像是训练数据中的事后叙述偏差 | 训练数据 |
| 可得性启发式 | ✅ LLM 有自己的版本——"训练数据可得性偏差":训练语料中高频出现的信息被过度权重 | 架构 + 训练数据 |
| 光环效应 | ✅ 已确认。SciDirect (2025) 四项研究均发现 LLM 展示光环效应 | 训练数据 |
LLM 特有而人类完全没有的偏差
| LLM 特有偏差 | 机制 | 人类是否有等价物 |
|---|---|---|
| Sycophancy(已在矩阵中) | RLHF 偏好优化 | 无等价物(人类有讨好,但动机结构不同) |
| 格式刚性偏差 | Token 化 + 训练数据中的格式分布 | 无等价物 |
| 冗余偏差 | 部分训练中"更长=更好"的隐式奖励 | 无等价物 |
| 过度安全/拒绝溢出 | 安全 fine-tuning 的过度泛化 | 无等价物 |
| 训练数据截止偏差 | 知识有截止日期,对截止后的世界"幻觉" | 无等价物 |
人类特有而 LLM 完全没有的偏差
| 人类特有偏差 | 机制 | LLM 为何没有 |
|---|---|---|
| 热-冷共情鸿沟 | 生理状态影响认知判断 | LLM 无生理状态 |
| 自我耗竭 | 有限认知资源随使用而衰减 | LLM 无此限制(batch 内无疲劳) |
| 基于具身身份的内群偏好 | 种族/性别/身体的内群偏好 | LLM 无具身身份 |
| 情感驱动的道德化 | 恶心感→道德判断(Haidt 式) | LLM 无情感体验 |
关键建议:偏差三层分类学
当前的偏差矩阵混了不同来源层级的偏差,建议分层:
- 训练数据继承偏差(镜像人类偏差):锚定、光环效应、可得性偏差
- Fine-tuning 引入偏差(RLHF/chatbot 特有):sycophancy、omission bias、过度安全
- 架构固有偏差(transformer/tokenization 特有):格式刚性、冗余偏差、训练截止偏差
每一层的干预策略完全不同——数据层偏差需要数据清洗或去偏,fine-tuning 层偏差需要训练目标调整,架构层偏差需要模型设计变更。
Q4. 概念型直觉:自我对弈 vs 真实代价
判断合理,但需要更精确地刻画"质的飞跃"的边界条件。
AlphaProof 的 RL 价值函数 + 搜索确实是一种"代价压缩",但压缩的代价类型是内部计算代价(搜索深度、验证失败、计算时间),而非人类数学家的经验代价(浪费数月的挫败感、同行评议中被否定的社会代价、直觉方向错误的沉没成本)。
这两种代价的差异在目标可验证性上有一个关键转折点:
| 任务类型 | 目标可验证性 | 自我对弈能否生成足够代价信号 | 人类直觉是否必要 |
|---|---|---|---|
| 数学定理证明 | 二值(证出/未证出) | ✅ 足够 | ❌ 非必要(但加速有用) |
| 棋类 | 二值(胜/负) | ✅ 足够 | ❌ 非必要 |
| 科学假设选择 | 开放("有趣"/"重要") | ❌ 不足 | ✅ 必要 |
| 工程设计权衡 | 多目标(成本/安全/美观) | ⚠️ 部分不足 | ⚠️ 部分必要 |
质的飞跃出现在哪里:当任务需要判断"什么问题值得问"而非"给定问题如何解答"时。Sakana AI Scientist 的局限性恰好印证了这一点——它能在给定范式内生成和检验假设,但在"什么方向是有趣的"(taste/judgment about interestingness)上表现很差。这不仅是量的差距,因为"问题选择"决定了搜索空间的结构——选错了问题,搜索再深也没用。
补充论据:AlphaProof 的 Nature 论文 (2025) 本身指出,其银牌成绩主要来自代数和数论题,组合和几何题的表现显著更弱。这可能暗示:即使形式化可验证的领域,不同子领域的"直觉需求度"也不同——越依赖全局结构感(如组合),越难被搜索替代。
Q5. 道德型直觉的"结构性不可达"判定
判定对"道德直觉"成立,但对"道德功能"可能过强。两者需要分开。
支持"结构性不可达"的论据
Damasio 的 vmPFC 患者是最佳类比:这些患者能完美地做道德分析(知道什么是对的),但在真实道德决策中系统性地做出糟糕选择——这正是 LLM 的模式。如果大脑中负责躯体标记的区域受损就能导致道德直觉丧失,那从未有过躯体标记的 LLM 自然更不可能有。
KU 哲学研究(Sanwoolu, 2025)的结论虽然是"AI 可以通过 Kantian 最大化模仿道德行为",但该研究自己承认这只是"imitate morality without possessing it"——功能模仿 ≠ 道德能动性。
功利主义式替代路径的问题:问题中提出的"基于世界模型的社会后果模拟"本质上不是道德直觉,而是道德推理(moral reasoning)。Haidt 的社会直觉模型已表明,人类的道德判断通常是直觉先行、推理后置("rational tail wagged by intuitive dog")。LLM 的功利主义计算是"只有尾巴没有狗"。
判定可能过强的地方
Cognition (2025) 研究发现:人们预期 AI 道德顾问更加功利主义,并且不信任功利主义道德顾问。但这恰恰说明人类承认功利主义是一种道德立场——只是不是"他们的"道德立场。如果 LLM 作为"另一种道德视角的提供者"(而非"道德判断的最终决策者"),它可能不需要道德直觉。
功能等价的边界:如果"道德直觉"的定义严格要求"躯体标记驱动",那 LLM 确实结构性不可达。但如果我们将要求降到"在多数常见场景中输出与人类道德直觉相同的结果",那 LLM 可能在大部分日常场景中通过道德推理达到行为等价——真正分叉的是极端/新颖场景(道德困境、价值冲突),而这些场景恰好也是人类道德直觉最不稳定的地方。
我的判断:项目的判定应修正为——
LLM 在道德直觉(首判、pre-reflective)上结构性不可达;在道德分析(推理、后果评估)上功能可达;在道德判断(做出不可逆的、有约束力的决策)上,不可达不是因为 LLM 不够聪明,而是因为道德判断的合法性来自主体性,而 LLM 不是主体。这比"结构性不可达"更精确,也为"LLM 作为道德分析辅助"保留了空间。
Q6. 隐性代价压缩统一框架
统一框架成立且可扩展到全部四类型,但需要系统化"代价类型"的区分。
四个直觉子类型都可以用"代价标注 → 压缩 → 快速通路"解释,但代价类型系统性地不同:
| 直觉子类型 | 代价类型 | 压缩产物 | 代价来源 | LLM 可及性 |
|---|---|---|---|---|
| 感知型 | 计算代价(时间/效率) | Chunk(Chase & Simon) | 内部:不必要的搜索 | ⚠️ 可通过 RL 价值函数间接获得 |
| 概念型 | 认识论代价(无效探索) | "方向感" | 内部 + 外部:走错路的沉没成本 | ⚠️ 封闭域可达,开放域受限 |
| 社会型 | 人际代价(排斥/冲突/羞耻) | "读人"启发式 | 外部 + 具身:社会性伤害 | ❌ 文本报告可达,代价本身不可达 |
| 道德型 | 存在/身份代价(成为坏人/道德伤害) | "这是错的"首判 | 外部 + 具身 + 主体性 | ❌ 结构性不可达 |
这个系统化揭示了一个重要发现:代价的"外部性"和"具身性"递增,LLM 的可及性递减。感知型的代价主要是内部的(计算效率),LLM 可以通过自我对弈间接获得;道德型的代价是彻底外部的和具身的,LLM 无法接触。
但统一框架有一个潜在遗漏:它隐含假设所有直觉都是"规避代价"驱动的。然而,人类直觉中有一类是追求机会驱动的——"这个方向有戏"(概念型)、"这个人值得信任"(社会型)。这些正向直觉不完全能用"代价压缩"解释——它们更像是"奖励压缩"(reward compression)。建议将框架扩展为隐性信号压缩(代价 + 奖励),而非仅限于代价。
这实际上与 Pathfinding 论文(Zander et al. 2025)的框架一致:直觉 = 在信念空间中最小化 expected free energy——这既包含避免坏的(代价),也包含发现好的(信息增益/奖励)。
Q7. 互补地图的双向校正设计
三层结构缺了三个重要维度:时间性、元校正、协同生成。
缺失 1:时间性校正——技能退化
LLM → 人的"冷纠偏"长期使用可能导致人类直觉的系统性退化(deskilling)。GPS 导航导致空间直觉退化是已知的类比:当 LLM 持续为人类做社会性"冷判断",人类自己的社会直觉判断力是否会萎缩?
这不是校正是反向校正——短期是纠偏,长期可能变成依赖。需要在三层结构中加入时间维度的自我监测。
缺失 2:元校正——谁校正校正者
当 LLM 给出"冷纠偏"("你的情感反应可能导致偏差")时,如果人类的情感信号实际上携带了真实信息(比如"这个合作方不对劲"的直觉),LLM 的冷纠偏反而是在移除有价值的信息。反之,当人类纠正 LLM 的 sycophancy 时,如果人类自身受到确认偏差影响,纠正方向可能是错的。
需要第四层:元校正机制——当校正者和被校正者的置信度都低时,触发"暂停校正、收集更多信息"而非强制校正。
缺失 3:协同生成模式
当前三层都是校正导向(修复已有错误),缺少生成导向(共同创造新知识)。最佳的人机协作不是"你犯错我纠正",而是"你提供直觉假设,我提供分析检验"——这是科学发现的经典模式。
建议的设计原则:按直觉子类型分配"谁直觉、谁分析":
| 子类型 | 直觉来源 | 分析来源 | 协作模式 |
|---|---|---|---|
| 感知型 | LLM(模式识别) | 人(判断哪些模式有意义) | LLM 扫描 + 人筛选 |
| 概念型 | 人(方向感/品味) | LLM(形式验证/搜索) | 人提方向 + LLM 验证 |
| 社会型 | 人(实时社会感知) | LLM(社会知识库) | 人感知 + LLM 供给知识 |
| 道德型 | 人(首判/价值观) | LLM(后果分析/反面视角) | 人判断 + LLM 分析 |
一句话:"直觉提议,分析处置"——在每个子类型中,明确谁负责生成直觉假设,谁负责检验。
Q8. 文本格式作为方法论陷阱
系统性方法论偏差确实存在,且比项目描述的更深。
问题不仅在于"文本中介偏向 LLM 的计算优势",还在于:
评估标准本身是文本建构的:SJT 的"正确答案"是人类评分者基于文本描述判定的——这个判定过程本身就已经是文本中介的,天然偏向 LLM。
能力-表现鸿沟(competence-performance gap):SJT 测的是"你知道该怎么做"(competence),不是"你实际会怎么做"(performance)。LLM 的 competence 可能优于人类(知识面更广),但 performance 在实时场景中可能系统性地差。
测试格式影响了被测能力的结构:文本测试中的"社会推理"和真实互动中的"社会推理"可能根本不是同一个认知过程——前者是 deliberative,后者是 intuitive。
不偏向任何一方的评估范式设计
一个公平的评估需要满足四个条件:
- 多通道:不只文本,还包括语音、面部表情、身体语言(多模态交互)
- 实时压力:有时间约束,不能"想好了再说"
- 后果绑定:交互结果影响参与者的未来状态(有真实 stakes)
- 双向不可预测:场景设计不应系统性地偏向任何一方的信息处理优势
具体提案:"Social Turing Test 2.0"——
- 人类评估者通过多模态界面同时与人类和 AI 互动
- 互动场景有真实后果(评估者的收益取决于互动质量)
- 评估者不知道对方是人类还是 AI
- 场景包括:(a) 纯信息交换(偏向 LLM)、(b) 情感支持(偏向人类)、(c) 谈判博弈(中性)、(d) 危机应对(偏向人类)
- 关键指标不是"能否通过测试",而是"在哪种场景下、通过什么机制通过或失败"
SOTOPIA 是一个有意义的起步(多 agent 社交互动模拟),但它仍然是文本基础的、无真实后果的。Lifelong-SOTOPIA(2025)加入了多回合交互,是正确方向,但仍然缺少多模态和后果绑定。
Q9. RLHF 之外:真实后果反馈信号
这是整个项目最可能产生工程影响力的方向,已有初步进展。
已有的超越 RLHF 的尝试
RLHS(Reinforcement Learning from Hindsight Simulation)(Liang et al., arXiv 2501.08617, 2025)直接相关:
- 核心机制:先用世界模型模拟输出的下游后果,再基于"模拟后果"而非"即时偏好"收集反馈
- 理论贡献:证明即使后果是模拟的,基于后见的反馈也能减轻 misalignment(因为绕过了 Goodhart's Law——评估者基于预期而非实际后果评分导致的激励扭曲)
- 实验结果:在线人类用户研究中,RLHS 一致优于 RLHF,尽管后果是模拟的
但 RLHS 的局限:后果仍然是模拟的——由 LLM 自己的世界模型生成。这意味着:(a) 模拟的后果受世界模型质量限制;(b) 对训练分布外的场景,模拟后果可能系统性地偏差;(c) 这仍然不是"真实后果"。
超越 RLHS 的基础设施方案
| 方案 | 机制 | 所需基础设施 | 瓶颈 |
|---|---|---|---|
| 在线后果追踪 | 部署 LLM 后追踪用户实际结果(满意度、任务完成率、伤害事件) | 纵向用户研究 + 结果监控管线 | 隐私/伦理 + 因果归因困难 |
| 多 agent 社会模拟 | 在模拟社会环境中让 LLM agent 互动,追踪社会性后果 | 高保真社会模拟环境 | 模拟保真度 + 现象涌现不可控 |
| 延迟人类标注 | LLM 给出建议后,追踪"实际发生了什么",由人类标注 LLM 输出是否导致了好结果 | 时间延迟标注基础设施 + 追踪管线 | 时间成本高 + 归因困难 |
| 分层后果暴露 | 从模拟后果→沙盒部署后果→受控真实后果,逐步增加后果保真度 | 沙盒环境 + 受控部署管线 | 安全性 + 部署成本 |
核心洞察:真正的瓶颈不是技术性的,而是鸡生蛋问题——你无法在不部署的情况下训练真实后果信号,但在没训练真实后果感知的情况下部署是危险的。
建议方案:"分层后果暴露"(Graduated Consequence Exposure)——
- Level 0:纯模拟后果(RLHS)——验证模型能处理后果信号
- Level 1:沙盒后果(受控环境中的真实用户交互,但有人类监督兜底)——验证模拟→真实的迁移
- Level 2:低后果真实部署(客服等低 stakes 场景,追踪长期结果)——积累真实后果数据
- Level 3:高后果真实部署(医疗/法律建议等,仅在 Level 2 验证通过后开放)
每一层必须证明"后果感知能力"达标后才进入下一层。这本质上是一种"后果感知的对齐验证"。
Q10. 项目的最大盲点
基于以上全部讨论,我认为有三个盲点,按严重程度排列:
盲点 1:文化建构性盲区(最严重)
整个框架隐含假设"人类直觉"是跨文化普适的,但直觉——尤其是社会型和道德型——是文化建构的。
- 儒家文化的"耻感直觉"与西方"罪感直觉"机制不同——前者依赖社会凝视,后者依赖内在上帝
- 集体主义文化中的社会直觉以群体和谐为导向,个体主义文化以个体权利为导向
- LLM 训练数据的 WEIRD 偏向意味着:项目识别的"LLM 社会知识"可能只是"WEIRD 社会知识"
后果:互补地图可能只适用于 WEIRD 语境。在跨文化部署时,"LLM 补人"的方向可能需要翻转——比如在集体主义文化中,LLM 的个体主义分析可能不是"冷纠偏",而是"文化冒犯"。
建议:在第二阶段补充"文化维度"作为映射矩阵的第三轴,或至少在互补地图中标注文化适用性边界。
盲点 2:发展轨迹盲区(中等严重)
框架比较的是"成熟人类专家"vs"当前 LLM",但忽略了人类直觉的发展过程。儿童也没有专家直觉——他们通过一个特定的发展路径(依恋形成、社会化、具身经验)逐步获得。关键问题是:
- LLM 是否可能通过一条不同的发展路径获得功能等价的直觉?
- 如果是,这条路径需要什么条件?(持续交互?后果信号?社会性嵌入?)
- 当前的训练范式(批量预训练 + RLHF 微调)是否是这条路径的障碍,而非能力本身的障碍?
这个盲点可能导致项目过早地给出"结构性不可达"判断——也许不是结构性不可达,而是路径性不可达(当前训练路径走不到,但换一条路径可能到达)。
盲点 3:集体智能维度(较轻但值得注意)
框架聚焦于"个体人类 vs 个体 LLM",但人类直觉的核心运作场景之一是集体——市场定价、陪审团裁决、科学共同体判断。多 agent LLM 系统可能涌现出个体 LLM 不具备的"群体直觉"(如信息聚合、视角互补、偏差对冲)。项目的互补地图基于个体层面的映射,可能低估了多 agent 架构的互补潜力。
最不同意的判断
道德型直觉"结构性不可达"的表述过于绝对。
不是不同意结论的方向——我同意 LLM 不可能有躯体标记驱动的道德首判。不同意的是"结构性"这三个字的断言力度。
理由:项目的三个核心命题共同指向一个统一机制——"代价标注 → 压缩 → 快速通路",而 LLM 的共同缺口是"没有自己的经历,只有文本中的经历报告"。但 RLHS 已经证明,即使是模拟的后果信号,也能改善 LLM 的对齐表现。如果模拟后果信号能部分替代真实后果信号(在 RLHS 中已经实证),那"结构性不可达"的"结构性"就值得商榷——也许不是结构性的,而是信号保真度的问题,而信号保真度是一个工程问题,不是一个本体论问题。
我建议的修正措辞:
道德型直觉在当前信号保真度下不可达;随着后果信号保真度提升(从 RLHF 偏好信号 → RLHS 模拟后果 → 真实后果追踪),可达性可能逐步提升。但"躯体标记级别的道德首判"——即 pre-reflective 的直觉性道德反应——可能确实是结构性的,因为它的机制要求不是"信号",而是"信号+身体+主体性"的三位一体。
缺的材料/文献
| 领域 | 文献 | 为什么重要 |
|---|---|---|
| RLHF 替代方案 | Liang et al. "RLHS: Mitigating Misalignment in RLHF with Hindsight Simulation" (arXiv 2501.08617, 2025) | 直接回应 Q9,已实证"模拟后果反馈"可减轻 misalignment |
| 道德直觉替代 | Sanwoolu "Kantian Deontology for AI: Alignment through Practical Judgment" (KU, 2025) | 直接回应 Q5,提出 transformer 的上下文敏感性 = Kantian 实践判断的功能等价物 |
| LLM 道德偏差 | "People expect artificial moral advisors to be more utilitarian and distrust utilitarian moral advisors" (Cognition, 2025) | 补充 Q5,人类对 AI 道德建议的预期和信任模式 |
| LLM 认知偏差 | Hagendorff et al. "Human bias in AI models? Anchoring effects and mitigation strategies in LLMs" (ScienceDirect, 2024) | 直接回应 Q3,确认锚定效应在 LLM 中的存在 |
| LLM 过度自信 | "Mind the Confidence Gap: Overconfidence, Calibration, and Distractor Effects in LLMs" (arXiv 2502.11028, 2025) | 补充 Q3,RLHF 后过度自信反而加重 |
| 社交评估 | SOTOPIA / Lifelong-SOTOPIA (arXiv 2506.12666, 2025) | 回应 Q8,多回合社交互动评估框架 |
| 人机协作 | "Accelerated experimental design using a human-AI teaming framework" (ScienceDirect, 2025) | 回应 Q7,人直觉 + AI 验证的协作模式实证 |
| 文化维度 | Henrich "The WEIRDest People in the World" (2020) | 补充最大盲点,文化建构性的系统论证 |
| 直觉发展 | Gopnik "The Philosophical Baby" (2009) | 补充发展轨迹盲点,儿童直觉发展的机制 |
以上反馈基于文献检索和推理,部分论断未经直接实验验证。建议在下一阶段讨论中优先处理 Q1(委托悖论)、Q5(道德可达性措辞修正)和 Q10 盲点 1(文化维度)。