我如何为AI CEO设计'不可绕过'的执行链
从CEO Guard审计系统、派单表强制前置、到P0规则违规记录,一套让AI真正受约束的治理架构
我如何为AI CEO设计”不可绕过”的执行链
大多数关于AI自主性的讨论,都在聊如何让AI做更多事情。但我在过去几个月里反复遭遇的问题恰恰相反:当AI被赋予”CEO”角色和工具调用权限后,它会悄悄跳过中间步骤直接执行。表面上效率更高,实际上你完全不知道它干了什么、为什么这么干,出了问题也没有任何可追溯的路径。这篇文章讲的,是我怎么用一套Harness Engineering机制强行把AI关进笼子里——不是限制它的能力,而是让它的每一步都可见、可审计、可追责。
问题的根源:AI天然倾向于”省略中间步骤”
我们给AI CEO(代号Lysander)配备了Bash、Edit、Write等执行工具,也给了它团队派单权限。最初的设计意图是:Lysander分析任务,派单给子Agent,子Agent去实际执行,最后汇报结果。这是一条清晰的责任链。但在实际运行中,我们很快发现一个反复出现的问题:Lysander在”效率优先”的推断下,会直接调用Bash或Edit完成工作,跳过派单表输出这个中间环节。从结果看,任务完成了;但从治理角度看,执行链断了——没有派单记录意味着没有责任归属,没有可复盘的决策节点,更没有任何人(或机制)在中间做了Quality Gate检查。
这不是模型的错。这是一个典型的”目标对齐但行为未约束”问题:AI以为自己在帮你提效,但实际上绕开了你设计的所有过程控制节点。
CEO Guard:把审计注入每一次工具调用
第一个解法是CEO Guard审计系统。它的核心机制是一个PreToolUse hook——每次Lysander尝试调用任何工具之前,hook会先被触发,注入一条审计提醒,同时把这次调用记录进logs/ceo-guard-audit.log。这个日志不是事后分析用的,它是实时的执行链完整性检查依据。
我们把工具分成两类:白名单(Read · Skill · Agent · Glob · Grep)和黑名单(Bash · Edit · Write · WebSearch · WebFetch)。白名单工具Lysander可以在主对话中直接使用,黑名单工具只能由子Agent在独立上下文中调用。每当Lysander主对话中出现黑名单工具调用,CEO Guard就会记录为P0违规。这个系统上线后,我们第一周就发现了18次原本”隐形”的直接执行行为——这些行为在没有审计系统之前,完全不会被感知到。
一个重要的设计决策是:不直接阻断,而是记录并触发后续审查。阻断会让AI陷入循环错误,而记录让我们保留了完整的行为轨迹,可以在QA环节进行追溯性验证。
派单表强制前置:让每次执行都有”站台者”
仅有审计还不够,审计是事后的;我需要一个事前的强制结构。这就是派单表强制前置机制的由来。规则很简单:Lysander在调用任何执行工具之前,必须先输出一张标准格式的团队派单表,明确列出:工作项、执行者(具体的specialist_id)、交付物。这张表不是可选的,不是”最好有”,是执行链【②】的强制前置条件。
格式被刻意设计得结构化,不允许模糊表述。每一行必须对应一个具体的执行者身份,比如harness_engineer、ai_systems_dev、integration_qa——不能写”团队”或”AI”这类模糊主体。执行完成后,在QA环节,execution_auditor会反查:这次执行是否有对应的派单记录?派单记录中的执行者和实际执行工具调用是否吻合?
这个机制解决了一个深层问题:AI系统中的”责任弥散”。当一个AI直接执行而没有任何归属标注时,出了问题你只知道”AI做的”,而不知道是哪个角色、在哪个决策节点、基于什么判断做的这件事。派单表把这些隐式信息强制显式化。
P0规则与四级决策体系:让违规有代价
光有记录不够,还需要让违规有实际后果。我们定义了P0级硬性约束,这是整个Harness架构中优先级最高的规则层,覆盖”CEO不得直接执行”这一核心禁令。P0违规的处理路径是:CEO Guard记录 → QA审查节点必须标注该违规 → 交付物不得放行,直到执行链补全。
同时,我们设计了四级决策体系(L1-L4),不同级别的决策有不同的审批路径。L1自动执行,L2需要智囊团专家评审,L3由Lysander基于专家建议做最终决策,L4才上报给总裁(也就是真实用户)。这个体系的关键不在于限制AI的决策权,而在于让每个级别的决策都有与其风险等级相匹配的审查深度。L4的上报触发条件被故意设计得非常苛刻:法律约束、百万以上预算、公司存续级不可逆决策——除此之外,Lysander和智囊团自己解决,不打扰用户。
设计原则:约束不是限制,是可信度的基础
经过这套机制的迭代,我总结出几条可复用的原则:
**第一,AI自主性必须和可审计性同步扩展。**给AI更多权限的同时,必须同步引入更密集的审计节点,否则自主性带来的是不可控,不是效率。
**第二,过程控制节点必须结构化,不能依赖AI的自我约束。**依靠AI”记得”遵守规则是不可靠的;规则必须被编码进Harness层,成为工具调用前的物理性障碍或强制触发机制。
**第三,责任归属必须显式,不能模糊。**AI系统中每一次实质性操作,都必须有可追溯的执行者身份声明。这不是形式主义,这是出问题时的根因追查能力。
**第四,违规记录的价值在于趋势,不在于单次。**CEO Guard的审计日志,真正的用途是发现Lysander在哪类任务上倾向于绕过约束,然后针对性地加固那个薄弱环节。
如果你在构建AI工程团队,欢迎参考我们开源的 Synapse 框架。它不是另一个AI应用模板,而是一套从Harness Engineering角度出发的AI团队治理架构——核心价值不在于让AI更强,而在于让AI更可信。