规则池治理：从静态文档到可追踪的规则演化

版本：v2.2（公开版）日期：2026-06-30 设计方：Co-Cognition Lab 基于：JERP 论文（arXiv:2606.27136）+ OpenClaw/Lobster 架构验证 + 六命题业界验证调研定位：参数微调（RLHF/SFT）之上的实时治理层——在模型参数来不及更新的时间窗口内，通过规则池和追踪机制快速修正 Agent 行为。非替代模型训练。证据等级声明：本方案的设计原则部分基于 L1（理论推演），部分基于 L4（实验证据）。各关键论断已标注证据等级。方案整体未经独立实证验证，属于待检验的研究纲领，而非已证实的最优实践。

一、我们要解决的问题

Co-Cognition Lab 在论文/报告生产工作流中已有 11 类文档化规则——学术质量、证据分级、评审标准、合规红线、术语一致性等。但反复出现一个现象：

规则写入后短时间内即被违反。某次任务中，规则写入 9 分钟后即被违反 [L3: Lab 内部观察，单次事件]；另一次自检发现 3 天内 11 次违规 [L3: Lab 内部观察]。

这不是"规则不够多"的问题。将"规则从写入到生效"拆成五个环节——可达、理解、激活、自检、反馈——断裂发生在后三个环节：

环节	含义	现状
① 可达	Agent 能找到规则文件	文件都在共享 workspace
② 理解	Agent 读懂规则含义	规则多为抽象陈述，缺示例/反例
③ 激活	任务中主动调用规则	无强制机制，靠 Agent 自觉
④ 自检	产出后核对是否遵守	自检依赖同一 Agent，无独立核验
⑤ 反馈	违规数据回流到规则维护	规则写入后无使用记录

③④⑤三处断裂叠加，导致规则停留在"声明阶段"，未进入"整合阶段"和"自动化阶段" [L1: 理论推演——ITEC 规则激活三阶段模型]。

我们称这种现象为声明-执行断裂（Declarative-Procedural Gap）：Agent 能正确陈述规则，但在具体任务中未能激活。

两个核心痛点

痛点 A：规则写入 ≠ 行为改变。 根因是环节③缺强制、④自检不可信、⑤无数据。杠杆点是③——只要规则在任务中被强制激活一次，④⑤就有了抓手。

痛点 B：跨 Agent 规则不一致。 同一份规则文件，不同 Agent 各自理解、各自判定，没有共享的判定基准。即使都"读了"，对"是否算遵守"的阈值不同。

二、设计原则

七条原则

规则不复制，只引用：现有规则文件保持唯一权威来源，规则池只存元数据与追踪数据。
激活优先于记忆：不追求 Agent"记住"规则，而追求规则在关键节点被强制调用。
数据与判断分离：日志 append-only 为权威源；分数是派生视图，不持久化、随时可重算。
UPVOTE/DOWNVOTE 涌现：从 applied/violated 事件自动涌现，非人工打分 [L2: 类比 ExpeL 的规则重要性计数，AAAI 2024]。
agent_id 与 role 解耦：模型身份不变，角色按 task_type 动态。
异模型交叉为第一信号源：self vs review 的异模型分歧是规则修订的首要触发信号 [L4: Du et al. 2023 多 Agent Debate 实验证据；但存在边界条件，见 §六]。
分级触发避免疲劳：阻塞按风险分级，监控审批率，防止橡皮图章效应 [L4: Waxell 2026 审批疲劳研究——审批率>90% 退化为橡皮图章]。

定位声明

本方案是参数微调之上的实时治理层，不是替代模型训练。

Sutton 的 Bitter Lesson 针对的是静态手工知识 [L1: 理论推演]；本方案的规则是动态交互产物（从使用数据涌现）。
Memory-R1 证明 RL 微调在批量固定分布任务上优于脚本化记忆 [L4: arXiv:2508.19828]；但在实时交互、分布漂移的 Agent 场景中参数更新周期太长。
本方案填补的是"模型参数来不及更新的时间窗口"——通过规则池快速修正行为，待参数更新后规则可降级或淘汰。

三、核心机制

本方案的中心是三层闭环：闸门层 + 交叉层 + 演化层。

3.1 闸门层：分级触发的工作流阻塞

把规则从"prompt 里的提示"升级为"流程节点上的分级检查点"。

基于业界验证 [L4: Safety Report 2026——某 Agent 因规则被视为建议而非约束，导致约 10 万美元损失；L2: Spera 2026 形式化证明——仅靠 prompt 的治理无法解决组合安全]，阻塞按风险分三级：

级别	触发场景	机制	示例
L1 软监控	低风险、可回退操作	记日志，不阻塞	术语不一致、格式小错
L2 条件硬阻塞	中风险，重复违反或异常模式	满足条件才暂停	证据分级缺失（首次记日志，同任务复发暂停）
L3 无条件硬阻塞	高风险、不可逆操作	必须审批	合规红线违反、发布、删除、部署

L1→L2→L3 的具体阈值目前为启发式设定 [L1: 理论推演——基于风险分级直觉，无实证校准]。业界对此尚无标准 [L1: Kimi 调研确认空白区]。方案在 Phase 3 收集实际闸门事件数据后校准。

为什么不全用硬阻塞？ 业界研究指出审批疲劳风险：当审批率超过 90% 时，审批门退化为橡皮图章 [L4: Waxell 2026]。全流程硬阻塞在低风险操作上会引发疲劳，反而使高风险操作的审批失效。分级触发的目的是让 L3 审批保持稀缺性和严肃性。

3.2 交叉层：异模型交叉验证

writer 与 reviewer 由异模型担任。writer 的 self_check 与 reviewer 的 review 是异模型对同一证据的独立判定。差异记入分歧日志，成为规则修订的信号。

异模型交叉的有效边界 [L4 + L3 反驳]：

支持证据：单模型自检的盲点率高达 64.5% [L4: Tsui 2025]；多 Agent Debate 在多个基准上持续优于单模型 [L4: Du et al. 2023]。

反驳与限制：9 个评审模型仅提供约 2 个有效独立投票 [L4: Kohli/Apple 2026]；多 Agent Debate 迅速收敛到错误共识 [L3: arXiv:2505.19477]；4 Agent×4 轮成本 36-49 倍 Token [L3: arXiv:2605.00914]；弱模型评审强模型在等 Token 预算下始终更差 [L4: arXiv:2604.02460]。

结论：异模型交叉的有效性被严格限制在——(a) 无 ground truth 的评审/评估场景，(b) 真正异构的模型组合，(c) reviewer 能力不低于 writer，(d) 非简单投票聚合 [L1: 理论推演——基于支持与反驳证据的综合判断]。

本方案的 writer→reviewer 属于无 ground truth 的文本评审，在有效区内。但需显式规避雷区：reviewer 能力须 ≥ writer；用分歧归因替代简单投票；不用于代码/数学等准确率任务。

3.3 演化层：规则动态维护

每条规则携带使用记录（触发/违反/纠正次数），派生三个分数：

retrieval_score：用于 top-k 注入排序——哪些规则当前值得注入上下文。
health_score：用于维护标记——规则是否健康，需不需要修订。
divergence_score：用于明确性诊断——异模型对该规则的理解是否一致。

三分数的权重（如 retrieval_score 中的 0.4/0.3/0.2/0.1）为初始启发式设定 [L1: 理论推演——未经实证校准]，待 Phase 3 收集实际闸门事件数据后通过回归校准。30 天半衰期同理 [L1]。

UPVOTE/DOWNVOTE 从使用数据涌现：规则被正确遵守（applied）≈ 隐式 UPVOTE；被违反（violated）≈ 隐式 DOWNVOTE。非手动操作 [L2: ExpeL 已有原型，AAAI 2024]。

规则衰减检测：五类衰减——僵尸（长期无事件）、失效（health 持续低）、过时（源文件已迭代）、冲突（两条规则反复同时触发）、模糊（divergence 高，异模型理解不一致）。模糊规则是单模型自检看不到的信号——单模型不会和自己分歧。

四、动态角色拓扑

agent_id 与 role 解耦

字段	含义	特性
agent_id	模型身份（如 GLM-5.2 / Kimi-K2 / DeepSeek）	不变
agent_version	模型版本	升级后需重新认证
role	任务角色（writer / reviewer / auditor / deployer）	按 task_type 动态

同一 agent 跨任务演不同角色：代码任务中某模型是 writer，论文任务中同一模型是 reviewer。角色由能力-角色匹配表推导。

能力-角色匹配表

任务类型	writer	reviewer	auditor	状态
代码	模型 A	模型 B	模型 C	初始
论文	模型 B	模型 A	模型 C	初始
报告	模型 C	模型 A	模型 B	初始
竞争分析	模型 B	模型 C	模型 A	初始
视频内容	模型 D	模型 A	模型 B	待定

注：公开版以"模型 A/B/C/D"替代内部模型名称。初始值基于经验判断，非实证数据 [L1]。变更需提交 proposal，附实证依据（黄金用例一致率/分歧率）。

reviewer 能力准入门槛

基于业界验证 [L4: Kohli/Apple 2026——弱模型审强模型始终更差]，reviewer 的黄金用例一致率不得低于 70%，且不得低于 writer 超过 10 个百分点 [L1: 阈值为启发式设定]。不达标触发角色重分配提案。

五、工作流设计

五阶段流水线

工作流分为五个阶段，每个阶段出口设闸门：

阶段	阻塞策略	核验内容
① 撰写	L1 软监控	RAC（规则激活契约）完整性
② 外部评审	L1 软监控 + 异模型交叉	reviewer 独立核验，分歧记入日志
③ 吸收修正	L1 软监控	每条评审意见有响应
④ 版本迭代	L1 软监控	回归检查（旧违规未复发）
⑤ 网站发布	L3 无条件硬阻塞	综合核验 + 审批

阶段①-④可回退，软监控 + 异模型交叉已提供足够信号。阶段⑤不可逆，必须硬阻塞。中间的 L2 条件硬阻塞由规则的 risk_level 字段决定。

规则激活契约（RAC）

每个任务在每个阶段出口必须产出 RAC，逐条声明每条适用规则的激活状态与证据位置：

| rule_id | 名称 | 风险级别 | 激活状态 | 证据位置 | 备注 |
|---------|------|---------|----------|----------|------|
| EVI-01 | 证据分级 | L2 | applied | §3.2 L87 | 已标注 |
| COM-01 | 无夸大表述 | L3 | applied | 全文 | 未发现违规 |
| SOU-01 | 双源验证 | L2 | violated→corrected | §4.2 | 已补第二来源 |

RAC 把"规则是否被遵守"从 Agent 脑内的隐性判断，变成可被闸门和评审逐条核查的显性产物。

工作流编排

流水线由 Lobster 工作流引擎统一编排 [L4: OpenClaw/Lobster 官方文档验证——支持 approval gate + condition 门控 + 状态机]。状态由引擎管理，不依赖各 Agent 自行协商。具体 workflow 代码见附录 B。

六、三类分歧归因

异模型分歧不全是"规则问题"。本方案区分三类 [L1: 理论推演——基于 MAST UC Berkeley 2025 的三路归因框架；L4: MAST 已建立学术共识]：

分歧类型	定义	识别信号	动作
真分歧	两模型对规则理解不同	分歧跨多个任务类型均匀出现	修订规则：增加明确性、示例、反例
能力分歧	一方能力不足看不到问题	分歧集中于特定 agent；该 agent 黄金用例一致率 < 70%	角色重分配
边界分歧	规则边界模糊，两模型都合理但判定不同	分歧集中于特定证据模式	修订规则：增加边界案例声明

自动角色重分配已有先例 [L4: ARR 2025，arXiv:2412.14959——任务完成率从 72% 提升至 92%]。本方案新增"能力分歧→角色重分配"的映射 [L1: 理论推演——将 ARR 的通用角色重分配特化为规则治理场景]。

七、审批疲劳监测

即使技术上实现了硬阻塞，人类行为因素可能使其形同虚设 [L4: Waxell 2026——审批率>90% 退化为橡皮图章；L3: Moltbook 案例——88:1 人类监督比例]。

监测指标：

指标	警报阈值	动作
审批率 > 90%	黄色警报	触发条件过松，提示收紧阈值
审批率 > 95%	红色警报	强制审查所有 L3 规则的必要性
平均审批时间 < 10 秒	黄色警报	疑似橡皮图章
审批队列积压 > 5	黄色警报	临时降级 L2→L1

长期目标：用基于使用数据的涌现式投票逐步替代人工审批 [L1: 理论推演——基于 Memory-R1 和 Moltbook 案例的推论]。

八、业界验证度

本方案在投入实施前，将六个核心命题交付独立调研。整体评级：部分验证（偏向充分）。六个命题均有学术根基，无一被证伪。需做的不是推翻方案，而是四项修正（分级触发、reviewer 准入、定位声明、疲劳监测），均已纳入本方案 [L1: 理论推演——基于调研结论的综合判断]。

九、实施路线图

Phase 0（3-5 天）到 Phase 5（持续），五阶段推进。详见方案正文。

十、风险与限制

风险	缓解
审批疲劳导致橡皮图章	审批率监测 + 自动降级路径 [L4: Waxell 2026]
模型工具调用不兼容	Phase 0 前置验证 [L1]
规则池维护成为负担	UPVOTE/DOWNVOTE 自动涌现 [L2]
模型能力不对称导致角色错配	reviewer 准入门槛 [L4: Kohli 2026]

方案的整体限制：

未经独立实证验证 [L1]。
规则设计错误无法检测——规则质量依赖人的判断。
模型能力天花板——盲区互补是概率性的。
过渡期成本——Phase 1-3 需 5-8 周，初期效果不明显 [L1]。

十一、与 JERP 的对应

JERP 概念	本方案对应
交互轨迹	闸门事件流 + 异模型交叉事件
经验规则池	manifest.jsonl
效用分数	retrieval + health + divergence 三分数
ReflectAndEdit	提案制 + 人工审核 + 分歧自动触发
UPVOTE/DOWNVOTE	涌现自 applied/violated 事件

🔄 信念更新记录

v0.1（先验）：规则池需通过外挂校验服务实现发布阻塞 ↓ v2.1（后验）：阻塞层改用 Lobster 原生机制 ↓ v2.2（后验）：阻塞改为三级触发；异模型交叉增加 reviewer 准入门槛；新增审批疲劳监测

本方案以 CC BY 4.0 发布。数据结构详细规范、Lobster workflow 代码、六命题验证详细证据、参考来源索引见附录。

规则池治理：从静态文档到可追踪的规则演化 ​

一、我们要解决的问题 ​

两个核心痛点 ​

二、设计原则 ​

七条原则 ​

定位声明 ​

三、核心机制 ​

3.1 闸门层：分级触发的工作流阻塞 ​

3.2 交叉层：异模型交叉验证 ​

3.3 演化层：规则动态维护 ​

四、动态角色拓扑 ​

agent_id 与 role 解耦 ​

能力-角色匹配表 ​

reviewer 能力准入门槛 ​

五、工作流设计 ​

五阶段流水线 ​

规则激活契约（RAC） ​

工作流编排 ​

六、三类分歧归因 ​

七、审批疲劳监测 ​

八、业界验证度 ​

九、实施路线图 ​

Phase 0（3-5 天）到 Phase 5（持续），五阶段推进。详见方案正文。 ​

十、风险与限制 ​

方案的整体限制： ​

十一、与 JERP 的对应 ​

🔄 信念更新记录 ​