Skip to content

规则池治理:从静态文档到可追踪的规则演化

版本:v2.2(公开版) 日期:2026-06-30 设计方:Co-Cognition Lab 基于:JERP 论文(arXiv:2606.27136)+ OpenClaw/Lobster 架构验证 + 六命题业界验证调研 定位:参数微调(RLHF/SFT)之上的实时治理层——在模型参数来不及更新的时间窗口内,通过规则池和追踪机制快速修正 Agent 行为。非替代模型训练。 证据等级声明:本方案的设计原则部分基于 L1(理论推演),部分基于 L4(实验证据)。各关键论断已标注证据等级。方案整体未经独立实证验证,属于待检验的研究纲领,而非已证实的最优实践。


一、我们要解决的问题

Co-Cognition Lab 在论文/报告生产工作流中已有 11 类文档化规则——学术质量、证据分级、评审标准、合规红线、术语一致性等。但反复出现一个现象:

规则写入后短时间内即被违反。某次任务中,规则写入 9 分钟后即被违反 [L3: Lab 内部观察,单次事件];另一次自检发现 3 天内 11 次违规 [L3: Lab 内部观察]。

这不是"规则不够多"的问题。将"规则从写入到生效"拆成五个环节——可达、理解、激活、自检、反馈——断裂发生在后三个环节:

环节含义现状
① 可达Agent 能找到规则文件文件都在共享 workspace
② 理解Agent 读懂规则含义规则多为抽象陈述,缺示例/反例
③ 激活任务中主动调用规则无强制机制,靠 Agent 自觉
④ 自检产出后核对是否遵守自检依赖同一 Agent,无独立核验
⑤ 反馈违规数据回流到规则维护规则写入后无使用记录

③④⑤三处断裂叠加,导致规则停留在"声明阶段",未进入"整合阶段"和"自动化阶段" [L1: 理论推演——ITEC 规则激活三阶段模型]。

我们称这种现象为声明-执行断裂(Declarative-Procedural Gap):Agent 能正确陈述规则,但在具体任务中未能激活。

两个核心痛点

痛点 A:规则写入 ≠ 行为改变。 根因是环节③缺强制、④自检不可信、⑤无数据。杠杆点是③——只要规则在任务中被强制激活一次,④⑤就有了抓手。

痛点 B:跨 Agent 规则不一致。 同一份规则文件,不同 Agent 各自理解、各自判定,没有共享的判定基准。即使都"读了",对"是否算遵守"的阈值不同。


二、设计原则

七条原则

  1. 规则不复制,只引用:现有规则文件保持唯一权威来源,规则池只存元数据与追踪数据。
  2. 激活优先于记忆:不追求 Agent"记住"规则,而追求规则在关键节点被强制调用。
  3. 数据与判断分离:日志 append-only 为权威源;分数是派生视图,不持久化、随时可重算。
  4. UPVOTE/DOWNVOTE 涌现:从 applied/violated 事件自动涌现,非人工打分 [L2: 类比 ExpeL 的规则重要性计数,AAAI 2024]。
  5. agent_id 与 role 解耦:模型身份不变,角色按 task_type 动态。
  6. 异模型交叉为第一信号源:self vs review 的异模型分歧是规则修订的首要触发信号 [L4: Du et al. 2023 多 Agent Debate 实验证据;但存在边界条件,见 §六]。
  7. 分级触发避免疲劳:阻塞按风险分级,监控审批率,防止橡皮图章效应 [L4: Waxell 2026 审批疲劳研究——审批率>90% 退化为橡皮图章]。

定位声明

本方案是参数微调之上的实时治理层,不是替代模型训练。

  • Sutton 的 Bitter Lesson 针对的是静态手工知识 [L1: 理论推演];本方案的规则是动态交互产物(从使用数据涌现)。
  • Memory-R1 证明 RL 微调在批量固定分布任务上优于脚本化记忆 [L4: arXiv:2508.19828];但在实时交互、分布漂移的 Agent 场景中参数更新周期太长。
  • 本方案填补的是"模型参数来不及更新的时间窗口"——通过规则池快速修正行为,待参数更新后规则可降级或淘汰。

三、核心机制

本方案的中心是三层闭环:闸门层 + 交叉层 + 演化层

3.1 闸门层:分级触发的工作流阻塞

把规则从"prompt 里的提示"升级为"流程节点上的分级检查点"。

基于业界验证 [L4: Safety Report 2026——某 Agent 因规则被视为建议而非约束,导致约 10 万美元损失;L2: Spera 2026 形式化证明——仅靠 prompt 的治理无法解决组合安全],阻塞按风险分三级:

级别触发场景机制示例
L1 软监控低风险、可回退操作记日志,不阻塞术语不一致、格式小错
L2 条件硬阻塞中风险,重复违反或异常模式满足条件才暂停证据分级缺失(首次记日志,同任务复发暂停)
L3 无条件硬阻塞高风险、不可逆操作必须审批合规红线违反、发布、删除、部署

L1→L2→L3 的具体阈值目前为启发式设定 [L1: 理论推演——基于风险分级直觉,无实证校准]。业界对此尚无标准 [L1: Kimi 调研确认空白区]。方案在 Phase 3 收集实际闸门事件数据后校准。

为什么不全用硬阻塞? 业界研究指出审批疲劳风险:当审批率超过 90% 时,审批门退化为橡皮图章 [L4: Waxell 2026]。全流程硬阻塞在低风险操作上会引发疲劳,反而使高风险操作的审批失效。分级触发的目的是让 L3 审批保持稀缺性和严肃性。

3.2 交叉层:异模型交叉验证

writer 与 reviewer 由异模型担任。writer 的 self_check 与 reviewer 的 review 是异模型对同一证据的独立判定。差异记入分歧日志,成为规则修订的信号。

异模型交叉的有效边界 [L4 + L3 反驳]:

支持证据:单模型自检的盲点率高达 64.5% [L4: Tsui 2025];多 Agent Debate 在多个基准上持续优于单模型 [L4: Du et al. 2023]。

反驳与限制:9 个评审模型仅提供约 2 个有效独立投票 [L4: Kohli/Apple 2026];多 Agent Debate 迅速收敛到错误共识 [L3: arXiv:2505.19477];4 Agent×4 轮成本 36-49 倍 Token [L3: arXiv:2605.00914];弱模型评审强模型在等 Token 预算下始终更差 [L4: arXiv:2604.02460]。

结论:异模型交叉的有效性被严格限制在——(a) 无 ground truth 的评审/评估场景,(b) 真正异构的模型组合,(c) reviewer 能力不低于 writer,(d) 非简单投票聚合 [L1: 理论推演——基于支持与反驳证据的综合判断]。

本方案的 writer→reviewer 属于无 ground truth 的文本评审,在有效区内。但需显式规避雷区:reviewer 能力须 ≥ writer;用分歧归因替代简单投票;不用于代码/数学等准确率任务。

3.3 演化层:规则动态维护

每条规则携带使用记录(触发/违反/纠正次数),派生三个分数:

  • retrieval_score:用于 top-k 注入排序——哪些规则当前值得注入上下文。
  • health_score:用于维护标记——规则是否健康,需不需要修订。
  • divergence_score:用于明确性诊断——异模型对该规则的理解是否一致。

三分数的权重(如 retrieval_score 中的 0.4/0.3/0.2/0.1)为初始启发式设定 [L1: 理论推演——未经实证校准],待 Phase 3 收集实际闸门事件数据后通过回归校准。30 天半衰期同理 [L1]。

UPVOTE/DOWNVOTE 从使用数据涌现:规则被正确遵守(applied)≈ 隐式 UPVOTE;被违反(violated)≈ 隐式 DOWNVOTE。非手动操作 [L2: ExpeL 已有原型,AAAI 2024]。

规则衰减检测:五类衰减——僵尸(长期无事件)、失效(health 持续低)、过时(源文件已迭代)、冲突(两条规则反复同时触发)、模糊(divergence 高,异模型理解不一致)。模糊规则是单模型自检看不到的信号——单模型不会和自己分歧。


四、动态角色拓扑

agent_id 与 role 解耦

字段含义特性
agent_id模型身份(如 GLM-5.2 / Kimi-K2 / DeepSeek)不变
agent_version模型版本升级后需重新认证
role任务角色(writer / reviewer / auditor / deployer)按 task_type 动态

同一 agent 跨任务演不同角色:代码任务中某模型是 writer,论文任务中同一模型是 reviewer。角色由能力-角色匹配表推导。

能力-角色匹配表

任务类型writerreviewerauditor状态
代码模型 A模型 B模型 C初始
论文模型 B模型 A模型 C初始
报告模型 C模型 A模型 B初始
竞争分析模型 B模型 C模型 A初始
视频内容模型 D模型 A模型 B待定

注:公开版以"模型 A/B/C/D"替代内部模型名称。初始值基于经验判断,非实证数据 [L1]。变更需提交 proposal,附实证依据(黄金用例一致率/分歧率)。

reviewer 能力准入门槛

基于业界验证 [L4: Kohli/Apple 2026——弱模型审强模型始终更差],reviewer 的黄金用例一致率不得低于 70%,且不得低于 writer 超过 10 个百分点 [L1: 阈值为启发式设定]。不达标触发角色重分配提案。


五、工作流设计

五阶段流水线

工作流分为五个阶段,每个阶段出口设闸门:

阶段阻塞策略核验内容
① 撰写L1 软监控RAC(规则激活契约)完整性
② 外部评审L1 软监控 + 异模型交叉reviewer 独立核验,分歧记入日志
③ 吸收修正L1 软监控每条评审意见有响应
④ 版本迭代L1 软监控回归检查(旧违规未复发)
⑤ 网站发布L3 无条件硬阻塞综合核验 + 审批

阶段①-④可回退,软监控 + 异模型交叉已提供足够信号。阶段⑤不可逆,必须硬阻塞。中间的 L2 条件硬阻塞由规则的 risk_level 字段决定。

规则激活契约(RAC)

每个任务在每个阶段出口必须产出 RAC,逐条声明每条适用规则的激活状态与证据位置:

| rule_id | 名称 | 风险级别 | 激活状态 | 证据位置 | 备注 |
|---------|------|---------|----------|----------|------|
| EVI-01 | 证据分级 | L2 | applied | §3.2 L87 | 已标注 |
| COM-01 | 无夸大表述 | L3 | applied | 全文 | 未发现违规 |
| SOU-01 | 双源验证 | L2 | violated→corrected | §4.2 | 已补第二来源 |

RAC 把"规则是否被遵守"从 Agent 脑内的隐性判断,变成可被闸门和评审逐条核查的显性产物。

工作流编排

流水线由 Lobster 工作流引擎统一编排 [L4: OpenClaw/Lobster 官方文档验证——支持 approval gate + condition 门控 + 状态机]。状态由引擎管理,不依赖各 Agent 自行协商。具体 workflow 代码见附录 B。


六、三类分歧归因

异模型分歧不全是"规则问题"。本方案区分三类 [L1: 理论推演——基于 MAST UC Berkeley 2025 的三路归因框架;L4: MAST 已建立学术共识]:

分歧类型定义识别信号动作
真分歧两模型对规则理解不同分歧跨多个任务类型均匀出现修订规则:增加明确性、示例、反例
能力分歧一方能力不足看不到问题分歧集中于特定 agent;该 agent 黄金用例一致率 < 70%角色重分配
边界分歧规则边界模糊,两模型都合理但判定不同分歧集中于特定证据模式修订规则:增加边界案例声明

自动角色重分配已有先例 [L4: ARR 2025,arXiv:2412.14959——任务完成率从 72% 提升至 92%]。本方案新增"能力分歧→角色重分配"的映射 [L1: 理论推演——将 ARR 的通用角色重分配特化为规则治理场景]。


七、审批疲劳监测

即使技术上实现了硬阻塞,人类行为因素可能使其形同虚设 [L4: Waxell 2026——审批率>90% 退化为橡皮图章;L3: Moltbook 案例——88:1 人类监督比例]。

监测指标:

指标警报阈值动作
审批率 > 90%黄色警报触发条件过松,提示收紧阈值
审批率 > 95%红色警报强制审查所有 L3 规则的必要性
平均审批时间 < 10 秒黄色警报疑似橡皮图章
审批队列积压 > 5黄色警报临时降级 L2→L1

长期目标:用基于使用数据的涌现式投票逐步替代人工审批 [L1: 理论推演——基于 Memory-R1 和 Moltbook 案例的推论]。


八、业界验证度

本方案在投入实施前,将六个核心命题交付独立调研。整体评级:部分验证(偏向充分)。六个命题均有学术根基,无一被证伪。需做的不是推翻方案,而是四项修正(分级触发、reviewer 准入、定位声明、疲劳监测),均已纳入本方案 [L1: 理论推演——基于调研结论的综合判断]。


九、实施路线图

Phase 0(3-5 天)到 Phase 5(持续),五阶段推进。详见方案正文。


十、风险与限制

风险缓解
审批疲劳导致橡皮图章审批率监测 + 自动降级路径 [L4: Waxell 2026]
模型工具调用不兼容Phase 0 前置验证 [L1]
规则池维护成为负担UPVOTE/DOWNVOTE 自动涌现 [L2]
模型能力不对称导致角色错配reviewer 准入门槛 [L4: Kohli 2026]

方案的整体限制:

  1. 未经独立实证验证 [L1]。
  2. 规则设计错误无法检测——规则质量依赖人的判断。
  3. 模型能力天花板——盲区互补是概率性的。
  4. 过渡期成本——Phase 1-3 需 5-8 周,初期效果不明显 [L1]。

十一、与 JERP 的对应

JERP 概念本方案对应
交互轨迹闸门事件流 + 异模型交叉事件
经验规则池manifest.jsonl
效用分数retrieval + health + divergence 三分数
ReflectAndEdit提案制 + 人工审核 + 分歧自动触发
UPVOTE/DOWNVOTE涌现自 applied/violated 事件

🔄 信念更新记录

v0.1(先验):规则池需通过外挂校验服务实现发布阻塞 ↓ v2.1(后验):阻塞层改用 Lobster 原生机制 ↓ v2.2(后验):阻塞改为三级触发;异模型交叉增加 reviewer 准入门槛;新增审批疲劳监测


本方案以 CC BY 4.0 发布。数据结构详细规范、Lobster workflow 代码、六命题验证详细证据、参考来源索引见 附录