Meta-Harness:让 Claude Code 自动优化 Agent 的编排代码
> 来源: yoonholee.com/meta-harness / 论文 PDF
> 作者: Yoonho Lee, Chelsea Finn(Stanford), Omar Khattab(MIT, DSPy 作者)等
> 发布时间: 2026-03-30
> 互动: 731 likes, 819 bookmarks, 94.5K views
> 研究时间: 2026-03-31
🎯 一句话版本
Meta-Harness 是 Stanford + MIT 做的一个系统——让 Claude Code 读取之前所有失败/成功的代码、日志和分数(每步高达 1000 万 tokens 的诊断信息),然后自动写出更好的 agent 编排代码。在 TerminalBench-2 上排名 Opus 4.6 第二、Haiku 4.5 第一。
🧠 核心概念:什么是"Harness"
Harness = 围绕 LLM 的编排代码,包括:
- 构造什么 prompt
- 怎么检索/记忆
- 状态管理逻辑
- 工具调用策略
- 验证和重试逻辑
模型是冻结的——Meta-Harness 不改模型,只优化模型周围的代码。
类比:模型是引擎,harness 是车身、悬挂、变速箱。Meta-Harness 自动调校整台车。
🔧 工作原理
┌─────────────────────────────────────┐
│ 文件系统(所有历史记录) │
│ ├── candidate_001/ │
│ │ ├── harness.py (源代码) │
│ │ ├── traces/ (执行日志) │
│ │ └── scores.json │
│ ├── candidate_002/ ... │
│ └── candidate_040/ ... │
└───────────────┬─────────────────────┘
↓ grep, cat, 选择性读取
┌─────────────────────────────────────┐
│ Claude Code (Opus 4.6) │
│ 读取 trace → 分析失败原因 → │
│ 写出新的 harness.py │
└───────────────┬─────────────────────┘
↓ 评估
存入文件系统 → 循环
核心区别:之前的方法(Self-Refine、OPRO、TextGrad、AlphaEvolve 等)每步只能看 0.001-0.026M tokens 的压缩信息。Meta-Harness 每步可看 10M tokens 的完整诊断信息——通过文件系统 + grep/cat 选择性读取,不是全塞进 prompt。
| 方法 | 历史可见度 | 每步 context |
|---|---|---|
| Self-Refine | 只看上一次输出 | 0.001M |
| OPRO | 最近几个(方案,分数) | 0.002M |
| AlphaEvolve | 代码库 + 分数 | 0.022M |
| GEPA | rollout traces | 0.008M |
| **Meta-Harness** | **全部代码+trace+分数** | **10.0M** |
差了 400-10000 倍的信息量。
📊 实验结果
文本分类(GPT-OSS-120B)
| 方法 | 平均 Accuracy | Context 消耗 |
|---|---|---|
| Zero-shot | 27.4% | 0 |
| Few-shot (all) | 40.8% | 49.3K |
| ACE(人工设计) | 40.9% | 203K |
| **Meta-Harness** | **48.6%** | **45.5K** |
+7.7%,同时用 4 倍更少的 context。在 LawBench(215 类)上提升 16 个百分点。
数学推理(200 道 IMO 级,跨 5 个模型泛化)
| 方法 | 平均 pass@1 |
|---|---|
| No retriever | 34.1% |
| BM25 | 37.5% |
| **Meta-Harness** | **38.8%** (+4.7%) |
发现的检索策略在 5 个未见过的模型上都有提升——说明学到的是通用策略。
TerminalBench-2(89 个 Docker 化 CLI 任务)⭐
| Agent | Opus 4.6 Pass% |
|---|---|
| Claude Code | 58.0% |
| Terminus-KIRA | 74.7% |
| **Meta-Harness** | **76.4%** (#2) |
| ForgeCode | 81.8% (#1) |
| Agent | Haiku 4.5 Pass% |
|---|---|
| Claude Code | 27.5% |
| Goose | 35.5% |
| **Meta-Harness** | **37.6%** (#1) |
小模型上效果更猛——Haiku 4.5 上从 27.5% 直接拉到 37.6%。
搜索效率
Meta-Harness 用 10 倍更少的评估次数 达到 OpenEvolve/TTT-Discover 的最终准确率。4 次迭代就匹配了它们的终点。
🔑 关键发现
Trace 是关键(不能只看分数)
| 信息级别 | Median Accuracy |
|---|---|
| Full filesystem(trace+代码+分数) | **50.0%** |
| Scores only | 34.6% |
差 15.4 个百分点——完整执行 trace 是归因和改进的关键。
Credit Assignment 问题
长任务失败时,压缩成一个分数无法归因。Meta-Harness 保留完整 trace,让 Claude Code 可以:
- 追溯到具体哪行代码导致了下游失败
- 形成因果假设而不是猜测
- 做精准的代码修改
🎓 通俗理解:用深度研究 agent 举例
假设要自动优化我们的"深度研究"流程。当前流程写在 AGENTS.md 里——这就是一个 harness。
第 1 轮:用当前 AGENTS.md 跑 50 篇链接,记录每篇的完整过程(调了什么工具、prompt 是什么、输出了什么、用户给了几分)。全部存到一个文件夹。
第 2 轮:让 Claude Code 读这 50 篇的完整日志,发现:
> "第 23 篇论文,web_fetch 只拿到了摘要没抓到方法论细节,报告技术深度不够,评分低。但第 7 篇用了 PDF 工具读全文,评分就高。"
于是 Claude Code 改写 AGENTS.md——加一条:如果链接是 arxiv,先用 pdf 工具读全文。
第 3 轮:再跑 50 篇,效果好了。又发现:
> "第 12 篇 GitHub 项目只读了 README 没读源码,评分低。读了源码的就高。"
再改:如果是 GitHub 项目,额外读 3 个核心源文件。
循环 20 轮,AGENTS.md 越来越好。
关键区别:之前的方法只告诉优化器"这篇报告得了 6 分",优化器只能瞎猜怎么改。Meta-Harness 把完整执行日志全部给 Claude Code 看,所以它能精确归因——"是因为没读源码才扣分的"。
一句话总结:Meta-Harness = 让 AI 读自己干活的完整日志,然后自动改进自己的工作流程。
⚠️ 代码开源状态
目前没有开源代码。 作者 GitHub(github.com/yoonholee)上没有 meta-harness 仓库。有一个相关的 claude-code-wrapper("Minimal wrapper around claude -p with logging"),可能是跑实验时记日志的基础工具。
论文标注为 Preprint,代码可能在正式发表后开源,也可能不开源。
不过论文里的 proposer 就是 Claude Code(claude -p 命令行模式),整个外循环本质上是:
1. 一个目录结构存历史日志
2. 一段 Python 脚本调 Claude Code 读目录、写新 harness
3. 一段评估脚本跑 benchmark
思路不复杂,核心壁垒是"让 agent 读文件系统而不是塞 prompt"的设计决策 + 大量 Claude Code 调用费用。
💡 与我们的关联
1. 这就是 agent 工程的未来方向
我们手写 AGENTS.md、SOUL.md、prompt engineering——Meta-Harness 说这些都可以自动优化。给定一个任务目标和评估指标,让 agent 自己迭代优化自己的编排代码。
2. 我们的 OpenClaw skill 可以这样改进
Meta-Harness 发现的 harness 包括检索策略、prompt 构造、验证逻辑——这些正是 OpenClaw skill 的组成部分。理论上可以用 Meta-Harness 的方法自动优化我们的深度研究 workflow。
3. 文件系统 > Prompt 塞入
Meta-Harness 的核心洞察——用文件系统 + grep/cat 让 agent 选择性读取,而不是把所有东西塞进一个 prompt——和 OpenClaw 的 workspace 模式完全一致。MEMORY.md、AGENTS.md 就是这种"文件系统即上下文"的朴素版本。
4. 作者阵容
Yoonho Lee + Chelsea Finn(Stanford, meta-learning 权威)+ Omar Khattab(MIT, DSPy 作者)。DSPy 就是"自动优化 LLM pipeline"的先驱,Meta-Harness 是 DSPy 思路的自然延伸。
5. ACON/SUPO/Meta-Harness 三篇构成完整图景
- ACON(微软):优化压缩提示词(推理时)
- SUPO(字节):端到端 RL 训练摘要能力(训练时)
- Meta-Harness(Stanford):优化整个编排代码(外循环)
三个层次,三种方法,都在解决同一个大问题:怎么让 agent 在长任务中更聪明。
📊 评分
| 维度 | 评分(/10) |
|---|---|
| 技术深度 | 9.5 — 完整框架 + 3 个 benchmark + ablation + leaderboard 排名 |
| 创新性 | 9.0 — "文件系统即上下文" + 10M token 诊断信息 |
| 实验质量 | 9.5 — 跨任务类型、跨模型泛化、与 leaderboard 对比 |
| 实用性 | 8.0 — 需要大量 Claude Code 调用,成本高 |
| 与我们的相关度 | 8.0 — 我们的 skill/workflow 都可以用这种方法迭代优化 |
| **综合** | **9.0** |
报告由深度研究助手自动生成 | 2026-03-31
来源: yoonholee.com/meta-harness / 论文 / x.com