Anthropic Defending Code Reference Harness：用 Claude 自主找漏洞、修漏洞

> 来源: https://github.com/anthropics/defending-code-reference-harness

> 日期: 2026-06-05

> 发布: Anthropic (Claude Code 团队)

> 关联项目: Project Glasswing, Claude Mythos Preview, Claude Security

一句话版本

Anthropic 开源了一套"AI 自动化漏洞发现与修复"的参考实现——你在 Claude Code 里打开这个仓库，敲 /quickstart 就能让 Claude 自动给你的代码做威胁建模、漏洞扫描、分类排序，甚至在沙箱里自主找零日漏洞并生成补丁。

这是什么

这是 Anthropic 官方发布的开源参考实现，展示了如何用 Claude（尤其是 Claude Opus 和 Mythos Preview）来自动发现和修复代码中的安全漏洞。它不是产品，而是一套可复用的模式、技能和管线代码。

核心组件有两个：

1. Claude Code Skills 层（交互式）

打开仓库的 claude 命令 + 以下斜杠命令：

命令	功能
`/quickstart`	30 秒入门 + 在示例目标上跑第一轮
`/threat-model`	构建威胁模型（从代码/CVE/git 历史推导）
`/vuln-scan`	基于威胁模型做静态扫描
`/triage`	验证、去重、排优先级
`/patch`	生成候选补丁
`/customize`	把管线适配到你的技术栈

这些技能只读写文件，在交互模式下安全，不需要沙箱。

2. 自主管线（自动化）

7 阶段管线，专为 C/C++ 内存漏洞优化，使用 Docker + ASAN：


Build → Recon → Find → Verify → Dedupe → Report → Patch

Build: 把目标编译为带 ASAN 的 Docker 镜像
Recon: Agent 读源码，提出攻击面分区方案
Find: N 个 Agent 并行在独立容器里制造畸形输入，直到 3/3 次触发崩溃
Verify: 独立 grader 在新容器里复现崩溃
Dedupe: judge Agent 比较去重
Report: 每个唯一 bug 写结构化利用性分析
Patch: 生成修复，验证构建通过 + PoC 不崩溃 + 测试通过 + 无法绕过

安全设计：gVisor 沙箱 + egress 白名单只允许访问 Claude API。

背景：Project Glasswing 与 Mythos Preview

这个仓库是 Anthropic 更宏大的 Project Glasswing 倡议的一部分：

2026 年 4 月，Anthropic 发布 Claude Mythos Preview——一个未公开发布的 frontier 模型，能力达到了"自主发现零日漏洞并构建利用链"的程度
Mythos Preview 已发现 数千个零日漏洞，涵盖所有主要操作系统和浏览器
合作伙伴包括 Amazon、Apple、Google、Microsoft、NVIDIA、CrowdStrike 等 14+ 家巨头
Anthropic 承诺最高 $100M 的 Mythos Preview API 信用额度 + $4M 开源安全捐赠
CyberGym 基准：Mythos Preview 83.1% vs Opus 4.6 的 66.6%

代表性发现：

OpenBSD 中 27 年历史的远程崩溃漏洞
FFmpeg 中 16 年历史的漏洞（自动化测试工具已命中 500 万次但从未发现问题）
Linux kernel 中自主链式利用：从普通用户权限升级到完全控制

截至 2026-05-22，Anthropic 已披露 1,596 个漏洞，其中 97 个已被修复。

管线博客的核心洞察：漏洞发现已经可以轻松并行化，瓶颈转移到了验证、分类和修复。

Harness 设计：Agent 安全工程的最佳实践

这个仓库对 Jay 最有价值的部分是它展示的 Harness 设计模式：

1. Multi-agent 分工 — Recon/Find/Verify/Dedupe/Report/Patch 各司其职，每步用独立的 Agent + 独立的隔离容器

2. 隔离执行 — gVisor 沙箱 + egress 白名单，Agent 运行目标代码时不能访问外网

3. 上下文边界管理 — 每个 Agent 只看到自己需要的上下文，Verify 阶段的 grader 甚至不知道 find agent 是怎么工作的

4. 渐进式安全 — 交互式技能不跑代码（安全），管线跑代码必须进沙箱

5. Claude Code Skills 作为 DSL — 把复杂的工作流编码成 /threat-model 这样的 CLI DSL

对我们的意义

对 Jay 的 Harness 研究

这是 Anthropic 首次公开其 内部使用的 Agent 安全管线 的参考实现。之前 Anthropic 封锁第三方 harness 时说了"要自己做"，这个 repo 就是他们对"what should a harness look like"的回答。

关键点：

Skills 是 Harness 的 DSL — 和 OpenClaw Skills 的思路完全一致
自主 ≠ 不安全 — 自主 Agent 跑在 gVisor 里，和 OpenClaw 的 sandbox 设计同源
管线 vs 单 Agent — 分工管线比单 Agent + 大 prompt 更可靠

对 OpenClaw 生态

这个仓库的 .claude/skills/ 结构（含 Threat Model / Vuln Scan / Triage / Patch）展示了 Anthropic 对 Skills 的工程化思路，和 OpenClaw Skill Workshop 的提案审核流程可以互相对照。

对 Claude Code 第三方 harness 争议

在 Anthropic 切断第三方 harness OAuth（如 OpenClaw 和 NanoClaw）并推出 pay-as-you-go 计费的背景下，这个开源仓库既是技术文档也是姿态声明——"我们不锁死，你要自建就按这个来"。

评分

维度	评分	说明
技术深度	★★★★★	Multi-agent 管线 + gVisor 沙箱 + ASAN 集成，engineering 质量极高
实用性	★★★★☆	C/C++ 内存漏洞场景专门优化，其他语言需定制
借鉴价值	★★★★★	Harness 设计模式、Skills 工程化、Agent 安全隔离，很多可学
安全性	★★★★★	gVisor + egress 白名单 + 多层验证，安全设计非常完整
推荐程度	★★★★★	对研究 Agent Harness 设计的人来说是必读的参考实现