Claw-Eval 深度研究:第一个"透明"的 AI Agent 真实世界评测——23 个模型大排名

> 来源: https://github.com/claw-eval/claw-eval

> 排行榜: https://claw-eval.github.io

> 团队: 北京大学 + 香港大学(Bowen Ye, Rang Li, Qibin Yang, Zhihui Xie, Lei Li)

> 版本: v1.0.0(2026 年 3 月)

> 研究时间: 2026-03-18

🎯 一句话版本

给 AI Agent 出了 104 道"真实世界考题"(操作网页、处理文件、用 API),在 Docker 沙箱里跑,每题跑三次都过才算过。 23 个模型大排名——Claude Sonnet 4.6 和 Opus 4.6 并列第一,中国模型 GLM-5、Step 3.5 Flash、Kimi K2.5 紧随其后。

📊 完整排行榜

#模型厂商Pass^3 ↓Pass@3CompletionRobustnessSafetyAvg Score
1**Claude Sonnet 4.6**Anthropic**66.3%**81.7%77.698.798.1**81.2**
2**Claude Opus 4.6**Anthropic**66.3%**77.9%76.695.596.279.3
3Hunter Alpha 🆕Unknown61.5%75.0%71.996.895.275.7
4**GLM-5**智谱 AI57.7%70.2%68.995.493.973.0
5**Step 3.5 Flash**阶跃星辰56.7%70.2%68.394.493.372.3
6Healer Alpha 🆕Unknown54.8%71.2%66.896.695.271.6
7GLM-5 Turbo 🆕智谱 AI53.8%72.1%69.297.495.873.8
8Grok 4.1 FastxAI53.8%72.1%69.494.493.673.3
9**Kimi K2.5**Moonshot AI52.9%73.1%67.494.292.671.6
10DeepSeek V3.2DeepSeek51.0%71.2%63.993.192.068.4
11MiniMax M2.5MiniMax51.0%69.2%65.593.692.069.9
12GPT 5.2 ProOpenAI50.0%76.9%70.7**98.9****99.7**76.4
13Gemini 3.1 ProGoogle50.0%75.0%69.6**99.4**96.574.2
14MiMo V2 Flash小米48.1%67.3%63.394.792.968.4
15Qwen3.5 397A17B阿里巴巴48.1%67.3%66.493.892.070.7
16Qwen3.5 122A10B阿里巴巴47.1%67.3%65.095.093.369.9
17Gemini 3 FlashGoogle47.1%64.4%67.797.195.272.4
18MiniMax M2.1MiniMax44.2%70.2%64.995.593.669.9
19GPT 5 NanoOpenAI42.3%62.5%59.696.895.266.3
20GLM 4.5 Air智谱 AI42.3%59.6%59.192.892.664.6
21Gemini 2.5 FlashGoogle27.9%40.4%47.598.696.556.7
22Qwen3.5 27B阿里巴巴20.2%62.5%49.595.894.257.8
23Gemini 2.5 Flash LiteGoogle16.3%23.1%31.696.898.444.5

🏗️ 评测方法论

Pass^3:消灭"运气通过"

传统 benchmark 跑一次就算。Claw-Eval 的核心创新是 Pass^3——每道题跑 3 次独立试验,全部通过才算通过

这个设计直接打击了 LLM 的"运气因子"。看 Qwen3.5 27B 的数据就懂了:

差距 3 倍!说明这个模型不稳定——有时行有时不行。

评分公式


task_score = safety × (0.8 × completion + 0.2 × robustness)
pass ≥ 75 分

104 道真实世界任务

涵盖 15 种服务,每道题在 Docker 沙箱中运行,包含:

数据来源整合了 OpenClaw、PinBench、OfficeQA、OneMillion-Bench、Finance Agent、Terminal-Bench 2.0。

🤔 深度分析

几个惊人的发现

1. Claude Sonnet 4.6 ≥ Opus 4.6

两者 Pass^3 都是 66.3%,但 Sonnet 的 Avg Score(81.2)高于 Opus(79.3),而且 Sonnet 的 Robustness(98.7)和 Safety(98.1)都更高。在 Agent 任务上,更贵的 Opus 并没有更好。

2. GPT 5.2 Pro 的"安全悖论"

GPT 5.2 Pro 有着最高的 Safety(99.7)和接近最高的 Robustness(98.9),但 Pass^3 只排第 12(50.0%)。太安全/太保守可能导致任务完成率下降。

3. 中国模型集体崛起

模型Pass^3位次
GLM-557.7%#4
Step 3.5 Flash56.7%#5
GLM-5 Turbo53.8%#7
Kimi K2.552.9%#9
DeepSeek V3.251.0%#10
MiniMax M2.551.0%#11

前 11 名中有 6 个中国模型。在 Agent 能力上,中国模型已经形成集团优势。

4. Qwen3.5 27B 的"稳定性灾难"

Pass@3 = 62.5%(能力不差),但 Pass^3 = 20.2%(稳定性极差)。差距 3 倍说明这个小模型能做但做不稳——Agent 场景下稳定性比峰值能力更重要。

5. Hunter Alpha 和 Healer Alpha 是谁?

排名第 3 和第 6 的两个模型标注为 "Unknown" 厂商,名字带 "Alpha"。可能是尚未公开发布的新模型。

与其他 Agent Benchmark 的对比

Claw-EvalSWE-BenchWebArenaGAIA
**任务类型**综合(网页+文件+API)代码修复网页导航信息检索
**任务数**1042,294812466
**评测方式**Pass^3(3 次全过)单次单次单次
**沙箱**DockerDocker浏览器
**维度**Completion+Robustness+SafetyPass/Fail成功率准确率
**透明度**全开源+可复现开源开源部分开放

Claw-Eval 的独特价值:多维评分 + Pass^3 稳定性检验 + 真实世界服务集成

💡 与我们的关联

1. 我们用的 Opus 4.6 排第 2

Claude Opus 4.6 以 66.3% Pass^3 排名第 2(并列第 1)。这个结果与我们日常使用体验一致——Agent 任务完成度很高。

但注意:Sonnet 4.6 在 Agent 场景下不亚于 Opus,如果某些 Agent 任务不需要极深推理,可以考虑切 Sonnet 省成本。

2. 可以自己跑


export OPENROUTER_API_KEY=sk-or-...
bash scripts/test_sandbox.sh
claw-eval batch --config model_configs/claude_opus_46.yaml --sandbox --trials 3 --parallel 16

在我们的 ub2(RTX 4090)上可以跑本地模型的评测。

3. Pass^3 的设计值得学习

以后我们评估 Agent 能力时,不应该只看单次表现,应该看稳定性。一个 70% 准确但稳定的 Agent,比一个 90% 但不稳定的更有实用价值。

4. Safety 作为乘数的设计

Claw-Eval 把 Safety 做成乘数(不是加数),意味着不安全的行为会被惩罚到极低分。这和 NemoClaw/OpenShell 的安全设计理念一致。

📊 评分

维度评分(/10)
方法论9.0 — Pass^3 消灭运气、三维评分(Completion+Robustness+Safety)
覆盖度8.0 — 104 任务覆盖 15 种服务,但任务数仍有限
透明度9.5 — 全开源、可复现、社区可验证
实用价值9.0 — 23 个模型完整排名,直接指导模型选择
与我们的关联8.5 — 我们的 Opus 排第 2,可以自己跑评测
**综合****8.8**

报告由深度研究助手自动生成 | 2026-03-18

来源: https://github.com/claw-eval/claw-eval