Anthropic Defending Code Reference Harness:用 Claude 自主找漏洞、修漏洞
> 来源: https://github.com/anthropics/defending-code-reference-harness
> 日期: 2026-06-05
> 发布: Anthropic (Claude Code 团队)
> 关联项目: Project Glasswing, Claude Mythos Preview, Claude Security
一句话版本
Anthropic 开源了一套"AI 自动化漏洞发现与修复"的参考实现——你在 Claude Code 里打开这个仓库,敲 /quickstart 就能让 Claude 自动给你的代码做威胁建模、漏洞扫描、分类排序,甚至在沙箱里自主找零日漏洞并生成补丁。
这是什么
这是 Anthropic 官方发布的开源参考实现,展示了如何用 Claude(尤其是 Claude Opus 和 Mythos Preview)来自动发现和修复代码中的安全漏洞。它不是产品,而是一套可复用的模式、技能和管线代码。
核心组件有两个:
1. Claude Code Skills 层(交互式)
打开仓库的 claude 命令 + 以下斜杠命令:
| 命令 | 功能 |
|---|---|
| `/quickstart` | 30 秒入门 + 在示例目标上跑第一轮 |
| `/threat-model` | 构建威胁模型(从代码/CVE/git 历史推导) |
| `/vuln-scan` | 基于威胁模型做静态扫描 |
| `/triage` | 验证、去重、排优先级 |
| `/patch` | 生成候选补丁 |
| `/customize` | 把管线适配到你的技术栈 |
这些技能只读写文件,在交互模式下安全,不需要沙箱。
2. 自主管线(自动化)
7 阶段管线,专为 C/C++ 内存漏洞优化,使用 Docker + ASAN:
Build → Recon → Find → Verify → Dedupe → Report → Patch
- Build: 把目标编译为带 ASAN 的 Docker 镜像
- Recon: Agent 读源码,提出攻击面分区方案
- Find: N 个 Agent 并行在独立容器里制造畸形输入,直到 3/3 次触发崩溃
- Verify: 独立 grader 在新容器里复现崩溃
- Dedupe: judge Agent 比较去重
- Report: 每个唯一 bug 写结构化利用性分析
- Patch: 生成修复,验证构建通过 + PoC 不崩溃 + 测试通过 + 无法绕过
安全设计:gVisor 沙箱 + egress 白名单只允许访问 Claude API。
背景:Project Glasswing 与 Mythos Preview
这个仓库是 Anthropic 更宏大的 Project Glasswing 倡议的一部分:
- 2026 年 4 月,Anthropic 发布 Claude Mythos Preview——一个未公开发布的 frontier 模型,能力达到了"自主发现零日漏洞并构建利用链"的程度
- Mythos Preview 已发现 数千个零日漏洞,涵盖所有主要操作系统和浏览器
- 合作伙伴包括 Amazon、Apple、Google、Microsoft、NVIDIA、CrowdStrike 等 14+ 家巨头
- Anthropic 承诺最高 $100M 的 Mythos Preview API 信用额度 + $4M 开源安全捐赠
- CyberGym 基准:Mythos Preview 83.1% vs Opus 4.6 的 66.6%
代表性发现:
- OpenBSD 中 27 年历史的远程崩溃漏洞
- FFmpeg 中 16 年历史的漏洞(自动化测试工具已命中 500 万次但从未发现问题)
- Linux kernel 中自主链式利用:从普通用户权限升级到完全控制
截至 2026-05-22,Anthropic 已披露 1,596 个漏洞,其中 97 个已被修复。
管线博客的核心洞察:漏洞发现已经可以轻松并行化,瓶颈转移到了验证、分类和修复。
Harness 设计:Agent 安全工程的最佳实践
这个仓库对 Jay 最有价值的部分是它展示的 Harness 设计模式:
1. Multi-agent 分工 — Recon/Find/Verify/Dedupe/Report/Patch 各司其职,每步用独立的 Agent + 独立的隔离容器
2. 隔离执行 — gVisor 沙箱 + egress 白名单,Agent 运行目标代码时不能访问外网
3. 上下文边界管理 — 每个 Agent 只看到自己需要的上下文,Verify 阶段的 grader 甚至不知道 find agent 是怎么工作的
4. 渐进式安全 — 交互式技能不跑代码(安全),管线跑代码必须进沙箱
5. Claude Code Skills 作为 DSL — 把复杂的工作流编码成 /threat-model 这样的 CLI DSL
对我们的意义
对 Jay 的 Harness 研究
这是 Anthropic 首次公开其 内部使用的 Agent 安全管线 的参考实现。之前 Anthropic 封锁第三方 harness 时说了"要自己做",这个 repo 就是他们对"what should a harness look like"的回答。
关键点:
- Skills 是 Harness 的 DSL — 和 OpenClaw Skills 的思路完全一致
- 自主 ≠ 不安全 — 自主 Agent 跑在 gVisor 里,和 OpenClaw 的 sandbox 设计同源
- 管线 vs 单 Agent — 分工管线比单 Agent + 大 prompt 更可靠
对 OpenClaw 生态
这个仓库的 .claude/skills/ 结构(含 Threat Model / Vuln Scan / Triage / Patch)展示了 Anthropic 对 Skills 的工程化思路,和 OpenClaw Skill Workshop 的提案审核流程可以互相对照。
对 Claude Code 第三方 harness 争议
在 Anthropic 切断第三方 harness OAuth(如 OpenClaw 和 NanoClaw)并推出 pay-as-you-go 计费的背景下,这个开源仓库既是技术文档也是姿态声明——"我们不锁死,你要自建就按这个来"。
评分
| 维度 | 评分 | 说明 |
|---|---|---|
| 技术深度 | ★★★★★ | Multi-agent 管线 + gVisor 沙箱 + ASAN 集成,engineering 质量极高 |
| 实用性 | ★★★★☆ | C/C++ 内存漏洞场景专门优化,其他语言需定制 |
| 借鉴价值 | ★★★★★ | Harness 设计模式、Skills 工程化、Agent 安全隔离,很多可学 |
| 安全性 | ★★★★★ | gVisor + egress 白名单 + 多层验证,安全设计非常完整 |
| 推荐程度 | ★★★★★ | 对研究 Agent Harness 设计的人来说是必读的参考实现 |
相关报告
- Anthropic Cut Off Third-Party Harnesses — 了解第三方 harness 争议背景
- OpenClaw Skill Workshop — Anthropic Skills vs OpenClaw Skills 对比
- ActiveGraph — 事件溯源的 Agent 架构
报告生成时间: 2026-06-05 01:19 UTC