PinchBench：OpenClaw Agent 模型性能排行榜

🎯 一句话版本

关于PinchBench：OpenClaw Agent 模型性能排行榜的深度研究报告

> 来源: https://x.com/steipete/status/2030312187915309311

> 网站: https://pinchbench.com

> 作者: Peter Steinberger (@steipete)

> 日期: 2026-03-07

> 互动: 38.2 万查看 · 2630 喜欢 · 2256 书签 · 345 转帖

> GitHub: https://github.com/pinchbench/skill

📌 核心内容

PinchBench 是一个专门测试 "哪个模型最适合做 OpenClaw Agent" 的开源基准测试。它通过一系列标准化的 Agent 任务（文件操作、代码生成、工具调用等），用自动检查 + LLM 评判的方式给模型打分。

Peter Steinberger（OpenClaw 社区知名开发者 🦞）分享了这个排行榜，引发了巨大关注。

🏆 完整排行榜（32 个模型，183 次运行）

第一梯队（90%+）— Agent 就绪

排名	模型	成功率	评价
🦞 1	google/gemini-3-flash-preview	95.1%	冠军，Flash 级别碾压全场
🦀 2	minimax/minimax-m2.1	93.6%	国产模型最强，性价比极高
3	moonshotai/kimi-k2.5	93.4%	月之暗面，紧追 MiniMax
4	anthropic/claude-sonnet-4.5	92.7%	Anthropic 最强 Agent 模型
5	google/gemini-3-pro-preview	91.7%	Google Pro 级
6	anthropic/claude-haiku-4.5	90.8%	Haiku 超越 Opus！
7	anthropic/claude-opus-4.6	90.6%	我们当前在用的模型

第二梯队（80-90%）— 可用但有短板

排名	模型	成功率	评价
8	anthropic/claude-opus-4.5	88.9%	上一代 Opus
9	openai/gpt-5-nano	85.8%	OpenAI 小模型表现不错
10	qwen/qwen3-coder-next	85.4%	通义千问编码版
11	z-ai/glm-4.5-air	85.4%	智谱 GLM
12	openai/gpt-4o	85.2%	GPT-4o
13	openai/gpt-4o-mini	83.4%	4o-mini
14	google/gemini-2.5-flash-lite	83.2%	上一代 Flash Lite
15	deepseek/deepseek-v3.2	82.1%	DeepSeek V3.2
16	mistralai/devstral-2512	81.7%	Mistral 编码模型

第三梯队（65-80%）— 勉强能用

排名	模型	成功率
17	anthropic/claude-sonnet-4	77.5%
18	deepseek/deepseek-chat	77.3%
19	google/gemini-2.5-flash	76.6%
20	x-ai/grok-4.1-fast	70.0%
21	openai/gpt-5.2	65.6%
22	arcee-ai/trinity-large-preview:free	65.5%

第四梯队（<50%）— 不适合做 Agent

排名	模型	成功率
23	stepfun/step-3.5-flash	40.9%
24	qwen/qwen3-max-thinking	40.9%
25	aurora-alpha	40.1%

🧪 测试方法详解

测试流程


# 1. 克隆仓库
git clone https://github.com/pinchbench/skill.git
cd skill

# 2. 指定模型运行（需要一个真实的 OpenClaw 实例）
./scripts/run.sh --model anthropic/claude-opus-4-6

# 3. 结果自动上传排行榜（可选 --no-upload 仅本地）

仓库地址：https://github.com/pinchbench/skill

环境要求：Python 3.10+、uv 包管理器、一个运行中的 OpenClaw 实例

23 个任务覆盖 8 个真实场景

类别	任务示例	测的是什么
生产力	日历安排、日报	事件创建、时间解析
研究	查股价、搜会议	网页搜索、数据提取
写作	博客、邮件	内容生成、语气、格式
编码	天气脚本、文件结构	代码生成、文件操作
分析	表格、PDF	数据处理、摘要
邮件	分类、搜索	收件箱管理
记忆	上下文检索	长期记忆、召回
技能	ClawHub 集成	OpenClaw 生态整合

核心设计原则

PinchBench 不是传统的合成测试，测的不是模型知道什么，而是：

✅ 能不能正确调用工具（参数对不对）
✅ 能不能多步推理（一步步完成复杂任务）
✅ 能不能处理模糊指令（真实用户不会写完美 prompt）
✅ 结果验证：文件是不是真的创建了？邮件是不是真的发了？

评分方式

自动检查 + LLM 评判双重评分——既有客观指标（文件是否存在、API 是否调用成功），也有主观质量评估（内容是否合理、格式是否正确）。

这就解释了为什么 Haiku 能超过 Opus——Agent 任务更考验听话执行而不是深度思考。

常用参数

参数	说明
`--model MODEL`	测试的模型（如 `anthropic/claude-sonnet-4`）
`--suite SUITE`	`all`、`automated-only` 或逗号分隔的任务 ID
`--runs N`	每个任务跑几次取平均
`--timeout-multiplier N`	为慢模型放大超时时间
`--no-upload`	不上传排行榜，仅本地测试
`--register`	注册 API token 用于提交结果

💡 关键洞察

1. Gemini 3 Flash 是 Agent 之王

95.1% 的成功率，而且是 Flash 级别（快速、便宜）。这意味着：

做 Agent 不需要最贵的模型
Google 在 Agent 优化上做得最好
Flash 级别意味着延迟低、成本低

2. 国产模型表现惊人

MiniMax M2.1（93.6%） 和 Kimi K2.5（93.4%） 分列二三名，超越了所有 Anthropic 和 OpenAI 模型。这与之前 ClawRouter 报告的观点一致——很多任务不需要最贵的模型。

3. Haiku 超越 Opus

claude-haiku-4.5（90.8%）> claude-opus-4.6（90.6%）

这个结果极为反直觉。Haiku 是 Anthropic 最便宜的模型，但在 Agent 任务中表现比 Opus 还好。可能的原因：

Agent 任务更看重指令遵循和工具调用，不看推理深度
Haiku 可能针对结构化输出做了优化
Opus 的"过度思考"在简单 Agent 任务中反而是负担

4. GPT-5.2 表现糟糕

65.6% — 远低于 GPT-4o（85.2%）和 GPT-5-nano（85.8%）。OpenAI 的新一代大模型在 Agent 场景似乎退步了。

5. Thinking 模型不适合做 Agent

qwen3-max-thinking（40.9%） vs qwen3-coder-next（85.4%）。带推理链的模型在 Agent 场景明显不如专注编码的模型。

📊 测试方法

任务类型：标准化的 OpenClaw Agent 测试（文件操作、代码、工具调用等）
评分方式：自动检查 + LLM 评判
数据量：32 个模型，183 次运行
开源：所有任务和评分标准在 GitHub 上
可复现：任何人都可以 Run the benchmark yourself

🔗 与我们的关联

评分

维度	分数	说明
创意	?/10
技术深度	?/10
实用性	?/10
影响力	?/10
数据支撑	?/10
与我们的相关性	?/10
综合	?/10	需要后续评估

> 一句话总结：（报告的核心价值与我们的关联）

评分

维度	分数	说明
创意	?/10
技术深度	?/10
实用性	?/10
影响力	?/10
数据支撑	?/10
与我们的相关性	?/10
综合	?/10	需要后续评估

> 一句话总结：（报告的核心价值与我们的关联）

直接影响我们的配置

我们当前用的	排名	建议
claude-opus-4.6（主模型）	#7 (90.6%)	考虑切换到 Gemini 3 Flash 做日常 Agent
deepseek-v3.2	#15 (82.1%)	可以升级到 MiniMax M2.1 或 Kimi K2.5
minimax-m2.5	未测试	M2.1 排名第 2，值得关注
kimi-k2.5	#3 (93.4%)	已经是很好的选择
glm-5	未测试	GLM-4.5-air 排 #11 (85.4%)

成本优化启示

结合 ClawRouter 报告：

日常 Agent 任务 → 用 Gemini 3 Flash（95.1% 成功率 + 便宜）
需要深度推理 → 保留 Claude Opus
国产模型 → MiniMax 和 Kimi 已经是 Agent 场景最优解之一

评分

维度	评分（/10）
数据价值	9.5
方法论	8.5
实用性	9.5
可复现性	9
社区影响	9
综合	9.1

报告由深度研究助手自动生成 | 2026-03-08

排名	模型	成功率	评价
🦞 1	google/gemini-3-flash-preview	95.1%	冠军，Flash 级别碾压全场
🦀 2	minimax/minimax-m2.1	93.6%	国产模型最强，性价比极高
3	moonshotai/kimi-k2.5	93.4%	月之暗面，紧追 MiniMax
4	anthropic/claude-sonnet-4.5	92.7%	Anthropic 最强 Agent 模型
5	google/gemini-3-pro-preview	91.7%	Google Pro 级
6	anthropic/claude-haiku-4.5	90.8%	Haiku 超越 Opus！
7	anthropic/claude-opus-4.6	90.6%	我们当前在用的模型