Harness 六层架构倒着建：80% 稳定性来自第 5、6 层

Sat, 18 Apr 2026 16:00:00 +0800

Harness Engineering 的六层不是平等权重的。

这句话推翻了流行讲法。所有的 talk、所有的框架图、所有「Harness Engineering 是什么」的解释都把六层画成一个整齐的栈，告诉你按顺序建：Context → Tools → Execution → Memory → Evaluation → Recovery。讲起来顺、教起来顺、做起来——如果你真的想让 agent 在生产环境稳，完全错。

我在生产环境跑 AI 编程 harness 60 天，数据在手。第 5 层评估和第 6 层容错恢复，加起来贡献了大约 80% 的稳定性。 第 1-4 层是必要的，但只是入场券，不是 demo agent 和能扛住周一早高峰的 agent 之间的差距来源。如果你这周开始上 Harness Engineering，倒着建。

这篇是 6 层框架的实施配套文。框架本身已经被多个团队清晰阐述过，我会简短重述，然后把剩余篇幅花在没人讲的部分：哪些层真的重要、按什么顺序投、ROI 各是多少。

简述六层框架

flowchart TD
 L1["第 1 层 Context
模型看到什么"] --> L2["第 2 层 Tools
模型能做什么"]
 L2 --> L3["第 3 层 Execution
步骤怎么串起来"]
 L3 --> L4["第 4 层 Memory & State
跨轮次记什么"]
 L4 --> L5["第 5 层 Eval & Observability
到底有没有做对？"]
 L5 --> L6["第 6 层 Constraints & Recovery
出错了怎么办"]

 style L1 fill:#1e40af,color:#fff
 style L2 fill:#1e40af,color:#fff
 style L3 fill:#1e40af,color:#fff
 style L4 fill:#1e40af,color:#fff
 style L5 fill:#7c3aed,color:#fff
 style L6 fill:#059669,color:#fff

作为分类标签，框架是对的。作为施工顺序，框架是危险的。 从上到下读会让人理解为「先做 Context 再做 Tools 再做 Execution 再做 Memory，最后加 Eval 和 Recovery」。这正是我看到的大多数团队的做法，也正是大多数团队卡在 60-70% 成功率好几个月的原因。

Production AI on Bruce AI 工程笔记

Harness 六层架构倒着建：80% 稳定性来自第 5、6 层

简述六层框架