学院首页

METHODOLOGY

Harness Engineering

为什么写了规则但AI不遵守?为什么同一个Prompt每次结果不一样?
Harness Engineering 从根本上解决这个问题。

核心公式

Agent = Model + Harness

Model 是能力上限,Harness 是一致性保障。
没有 Harness 的 Agent,能力强也不可控;有了 Harness,普通 Model 也能稳定交付。

为什么需要 Harness Engineering?

没有 Harness 时

  • · 规则写在Prompt里,AI忽略或遗忘
  • · CEO直接帮你搜索、写代码、做分析
  • · 每次对话结果不一致,无法预期
  • · Agent越来越多,越来越混乱
  • · 换模型就全部重来

有 Harness 之后

  • · 执行链有强制检查点,不可绕过
  • · CEO只做调度,专家做执行
  • · 结构化流程保证可重复结果
  • · 团队可扩展,质量有审计
  • · Harness可迁移,能力持续积累

Harness Engineering 5项核心原则

1

Guides + Sensors 双保险

前馈控制(Guides)告诉Agent"要做什么",反馈控制(Sensors)检测"做得怎么样"。只靠Guides会漂移,只靠Sensors会延迟,两者组合才能稳定。

Guide: "每次回复前必须先输出派单表" → Sensor: "检查是否有派单记录" → 违规记录
2

执行链不可绕过

每个任务必须经历固定步骤:目标接收 → 分级 → 方案 → 派单 → 执行 → QA → 交付。任何一步跳过都是执行链断裂。Harness定义检查点,不允许跳步。

【①分级】→【②派单(强制)】→【③执行】→【④QA(强制)】→【⑤交付】
3

角色分离与专家路由

管理角色(CEO)绝对不做执行。执行角色(专家)绝对不做决策。路由规则将任务匹配到最匹配的专家,而不是最方便的角色。

代码 → harness_engineer / ai_systems_dev  |  策略 → strategist / decision_advisor
4

五级决策框架

L1 自动执行 → L2 专家评审 → L3 Lysander 决策 → L4 战略对齐知会总裁 → L5 价值裁决。专业问题先过专家,不上报让总裁猜。具体 L3 以下自动处理的比例随任务结构波动,未做严格统计。

L5 触发条件:外部合同 / 预算 > 1M / 价值取向无客观最优解 / 总裁明确指定上报
5

Agent 能力可审计

每位Agent有明确的能力描述(B级及以上:具体到方法论),自动评分(合格线90分),不合格触发能力升级。团队能力透明可量化。

A级: "基于pytest+Playwright的E2E测试框架" · C级(不合格): "测试" / "质量管理"

Synapse 是 Harness Engineering 的完整实现

Synapse 不是一个规则文件,而是5项原则在真实 AI 团队中的完整落地:

CLAUDE.md = Harness Configuration(Guides + Sensors + Constraints)
organization.yaml = 角色定义与路由规则
hr_base.py = 能力审计引擎(≥90分合格)
decision_rules.yaml = 五级决策框架配置
14个 Skills = 执行链强制检查点实现
evolution_engine = 持续自进化闭环