PinchBench:OpenClaw Agent 模型性能排行榜
> 来源: https://x.com/steipete/status/2030312187915309311
> 网站: https://pinchbench.com
> 作者: Peter Steinberger (@steipete)
> 日期: 2026-03-07
> 互动: 38.2 万查看 · 2630 喜欢 · 2256 书签 · 345 转帖
> GitHub: https://github.com/pinchbench/skill
📌 核心内容
PinchBench 是一个专门测试 "哪个模型最适合做 OpenClaw Agent" 的开源基准测试。它通过一系列标准化的 Agent 任务(文件操作、代码生成、工具调用等),用自动检查 + LLM 评判的方式给模型打分。
Peter Steinberger(OpenClaw 社区知名开发者 🦞)分享了这个排行榜,引发了巨大关注。
🏆 完整排行榜(32 个模型,183 次运行)
第一梯队(90%+)— Agent 就绪
| 排名 | 模型 | 成功率 | 评价 |
|---|---|---|---|
| 🦞 1 | **google/gemini-3-flash-preview** | **95.1%** | 冠军,Flash 级别碾压全场 |
| 🦀 2 | **minimax/minimax-m2.1** | **93.6%** | 国产模型最强,性价比极高 |
| 3 | **moonshotai/kimi-k2.5** | **93.4%** | 月之暗面,紧追 MiniMax |
| 4 | **anthropic/claude-sonnet-4.5** | **92.7%** | Anthropic 最强 Agent 模型 |
| 5 | **google/gemini-3-pro-preview** | **91.7%** | Google Pro 级 |
| 6 | **anthropic/claude-haiku-4.5** | **90.8%** | Haiku 超越 Opus! |
| 7 | **anthropic/claude-opus-4.6** | **90.6%** | 我们当前在用的模型 |
第二梯队(80-90%)— 可用但有短板
| 排名 | 模型 | 成功率 | 评价 |
|---|---|---|---|
| 8 | anthropic/claude-opus-4.5 | 88.9% | 上一代 Opus |
| 9 | openai/gpt-5-nano | 85.8% | OpenAI 小模型表现不错 |
| 10 | qwen/qwen3-coder-next | 85.4% | 通义千问编码版 |
| 11 | z-ai/glm-4.5-air | 85.4% | 智谱 GLM |
| 12 | openai/gpt-4o | 85.2% | GPT-4o |
| 13 | openai/gpt-4o-mini | 83.4% | 4o-mini |
| 14 | google/gemini-2.5-flash-lite | 83.2% | 上一代 Flash Lite |
| 15 | deepseek/deepseek-v3.2 | 82.1% | DeepSeek V3.2 |
| 16 | mistralai/devstral-2512 | 81.7% | Mistral 编码模型 |
第三梯队(65-80%)— 勉强能用
| 排名 | 模型 | 成功率 |
|---|---|---|
| 17 | anthropic/claude-sonnet-4 | 77.5% |
| 18 | deepseek/deepseek-chat | 77.3% |
| 19 | google/gemini-2.5-flash | 76.6% |
| 20 | x-ai/grok-4.1-fast | 70.0% |
| 21 | openai/gpt-5.2 | 65.6% |
| 22 | arcee-ai/trinity-large-preview:free | 65.5% |
第四梯队(<50%)— 不适合做 Agent
| 排名 | 模型 | 成功率 |
|---|---|---|
| 23 | stepfun/step-3.5-flash | 40.9% |
| 24 | qwen/qwen3-max-thinking | 40.9% |
| 25 | aurora-alpha | 40.1% |
🧪 测试方法详解
测试流程
# 1. 克隆仓库
git clone https://github.com/pinchbench/skill.git
cd skill
# 2. 指定模型运行(需要一个真实的 OpenClaw 实例)
./scripts/run.sh --model anthropic/claude-opus-4-6
# 3. 结果自动上传排行榜(可选 --no-upload 仅本地)
仓库地址:https://github.com/pinchbench/skill
环境要求:Python 3.10+、uv 包管理器、一个运行中的 OpenClaw 实例
23 个任务覆盖 8 个真实场景
| 类别 | 任务示例 | 测的是什么 |
|---|---|---|
| **生产力** | 日历安排、日报 | 事件创建、时间解析 |
| **研究** | 查股价、搜会议 | 网页搜索、数据提取 |
| **写作** | 博客、邮件 | 内容生成、语气、格式 |
| **编码** | 天气脚本、文件结构 | 代码生成、文件操作 |
| **分析** | 表格、PDF | 数据处理、摘要 |
| **邮件** | 分类、搜索 | 收件箱管理 |
| **记忆** | 上下文检索 | 长期记忆、召回 |
| **技能** | ClawHub 集成 | OpenClaw 生态整合 |
核心设计原则
PinchBench 不是传统的合成测试,测的不是模型知道什么,而是:
- ✅ 能不能正确调用工具(参数对不对)
- ✅ 能不能多步推理(一步步完成复杂任务)
- ✅ 能不能处理模糊指令(真实用户不会写完美 prompt)
- ✅ 结果验证:文件是不是真的创建了?邮件是不是真的发了?
评分方式
自动检查 + LLM 评判双重评分——既有客观指标(文件是否存在、API 是否调用成功),也有主观质量评估(内容是否合理、格式是否正确)。
这就解释了为什么 Haiku 能超过 Opus——Agent 任务更考验听话执行而不是深度思考。
常用参数
| 参数 | 说明 |
|---|---|
| `--model MODEL` | 测试的模型(如 `anthropic/claude-sonnet-4`) |
| `--suite SUITE` | `all`、`automated-only` 或逗号分隔的任务 ID |
| `--runs N` | 每个任务跑几次取平均 |
| `--timeout-multiplier N` | 为慢模型放大超时时间 |
| `--no-upload` | 不上传排行榜,仅本地测试 |
| `--register` | 注册 API token 用于提交结果 |
💡 关键洞察
1. Gemini 3 Flash 是 Agent 之王
95.1% 的成功率,而且是 Flash 级别(快速、便宜)。这意味着:
- 做 Agent 不需要最贵的模型
- Google 在 Agent 优化上做得最好
- Flash 级别意味着延迟低、成本低
2. 国产模型表现惊人
MiniMax M2.1(93.6%) 和 Kimi K2.5(93.4%) 分列二三名,超越了所有 Anthropic 和 OpenAI 模型。这与之前 ClawRouter 报告 的观点一致——很多任务不需要最贵的模型。
3. Haiku 超越 Opus
claude-haiku-4.5(90.8%)> claude-opus-4.6(90.6%)
这个结果极为反直觉。Haiku 是 Anthropic 最便宜的模型,但在 Agent 任务中表现比 Opus 还好。可能的原因:
- Agent 任务更看重指令遵循和工具调用,不看推理深度
- Haiku 可能针对结构化输出做了优化
- Opus 的"过度思考"在简单 Agent 任务中反而是负担
4. GPT-5.2 表现糟糕
65.6% — 远低于 GPT-4o(85.2%)和 GPT-5-nano(85.8%)。OpenAI 的新一代大模型在 Agent 场景似乎退步了。
5. Thinking 模型不适合做 Agent
qwen3-max-thinking(40.9%) vs qwen3-coder-next(85.4%)。带推理链的模型在 Agent 场景明显不如专注编码的模型。
📊 测试方法
- 任务类型:标准化的 OpenClaw Agent 测试(文件操作、代码、工具调用等)
- 评分方式:自动检查 + LLM 评判
- 数据量:32 个模型,183 次运行
- 开源:所有任务和评分标准在 GitHub 上
- 可复现:任何人都可以
Run the benchmark yourself
🔗 与我们的关联
直接影响我们的配置
| 我们当前用的 | 排名 | 建议 |
|---|---|---|
| **claude-opus-4.6**(主模型) | #7 (90.6%) | 考虑切换到 Gemini 3 Flash 做日常 Agent |
| **deepseek-v3.2** | #15 (82.1%) | 可以升级到 MiniMax M2.1 或 Kimi K2.5 |
| **minimax-m2.5** | 未测试 | M2.1 排名第 2,值得关注 |
| **kimi-k2.5** | #3 (93.4%) | 已经是很好的选择 |
| **glm-5** | 未测试 | GLM-4.5-air 排 #11 (85.4%) |
成本优化启示
结合 ClawRouter 报告:
- 日常 Agent 任务 → 用 Gemini 3 Flash(95.1% 成功率 + 便宜)
- 需要深度推理 → 保留 Claude Opus
- 国产模型 → MiniMax 和 Kimi 已经是 Agent 场景最优解之一
评分
| 维度 | 评分(/10) |
|---|---|
| 数据价值 | 9.5 |
| 方法论 | 8.5 |
| 实用性 | 9.5 |
| 可复现性 | 9 |
| 社区影响 | 9 |
| **综合** | **9.1** |
报告由深度研究助手自动生成 | 2026-03-08