学院首页
METHODOLOGY
Harness Engineering
为什么写了规则但AI不遵守?为什么同一个Prompt每次结果不一样?
Harness Engineering 从根本上解决这个问题。
核心公式
Agent = Model + Harness
Model 是能力上限,Harness 是一致性保障。
没有 Harness 的 Agent,能力强也不可控;有了 Harness,普通 Model 也能稳定交付。
为什么需要 Harness Engineering?
❌ 没有 Harness 时
- · 规则写在Prompt里,AI忽略或遗忘
- · CEO直接帮你搜索、写代码、做分析
- · 每次对话结果不一致,无法预期
- · Agent越来越多,越来越混乱
- · 换模型就全部重来
✅ 有 Harness 之后
- · 执行链有强制检查点,不可绕过
- · CEO只做调度,专家做执行
- · 结构化流程保证可重复结果
- · 团队可扩展,质量有审计
- · Harness可迁移,能力持续积累
Harness Engineering 5项核心原则
1
Guides + Sensors 双保险
前馈控制(Guides)告诉Agent"要做什么",反馈控制(Sensors)检测"做得怎么样"。只靠Guides会漂移,只靠Sensors会延迟,两者组合才能稳定。
Guide: "每次回复前必须先输出派单表" → Sensor: "检查是否有派单记录" → 违规记录
2
执行链不可绕过
每个任务必须经历固定步骤:目标接收 → 分级 → 方案 → 派单 → 执行 → QA → 交付。任何一步跳过都是执行链断裂。Harness定义检查点,不允许跳步。
【①分级】→【②派单(强制)】→【③执行】→【④QA(强制)】→【⑤交付】
3
角色分离与专家路由
管理角色(CEO)绝对不做执行。执行角色(专家)绝对不做决策。路由规则将任务匹配到最匹配的专家,而不是最方便的角色。
代码 → harness_engineer / ai_systems_dev | 策略 → strategist / decision_advisor
4
五级决策框架
L1 自动执行 → L2 专家评审 → L3 Lysander 决策 → L4 战略对齐知会总裁 → L5 价值裁决。专业问题先过专家,不上报让总裁猜。具体 L3 以下自动处理的比例随任务结构波动,未做严格统计。
L5 触发条件:外部合同 / 预算 > 1M / 价值取向无客观最优解 / 总裁明确指定上报
5
Agent 能力可审计
每位Agent有明确的能力描述(B级及以上:具体到方法论),自动评分(合格线90分),不合格触发能力升级。团队能力透明可量化。
A级: "基于pytest+Playwright的E2E测试框架" · C级(不合格): "测试" / "质量管理"
Synapse 是 Harness Engineering 的完整实现
Synapse 不是一个规则文件,而是5项原则在真实 AI 团队中的完整落地:
CLAUDE.md = Harness Configuration(Guides + Sensors + Constraints)
organization.yaml = 角色定义与路由规则
hr_base.py = 能力审计引擎(≥90分合格)
decision_rules.yaml = 五级决策框架配置
14个 Skills = 执行链强制检查点实现
evolution_engine = 持续自进化闭环