PinchBench:OpenClaw Agent 模型性能排行榜

> 来源: https://x.com/steipete/status/2030312187915309311

> 网站: https://pinchbench.com

> 作者: Peter Steinberger (@steipete)

> 日期: 2026-03-07

> 互动: 38.2 万查看 · 2630 喜欢 · 2256 书签 · 345 转帖

> GitHub: https://github.com/pinchbench/skill

📌 核心内容

PinchBench 是一个专门测试 "哪个模型最适合做 OpenClaw Agent" 的开源基准测试。它通过一系列标准化的 Agent 任务(文件操作、代码生成、工具调用等),用自动检查 + LLM 评判的方式给模型打分。

Peter Steinberger(OpenClaw 社区知名开发者 🦞)分享了这个排行榜,引发了巨大关注。

🏆 完整排行榜(32 个模型,183 次运行)

第一梯队(90%+)— Agent 就绪

排名模型成功率评价
🦞 1**google/gemini-3-flash-preview****95.1%**冠军,Flash 级别碾压全场
🦀 2**minimax/minimax-m2.1****93.6%**国产模型最强,性价比极高
3**moonshotai/kimi-k2.5****93.4%**月之暗面,紧追 MiniMax
4**anthropic/claude-sonnet-4.5****92.7%**Anthropic 最强 Agent 模型
5**google/gemini-3-pro-preview****91.7%**Google Pro 级
6**anthropic/claude-haiku-4.5****90.8%**Haiku 超越 Opus!
7**anthropic/claude-opus-4.6****90.6%**我们当前在用的模型

第二梯队(80-90%)— 可用但有短板

排名模型成功率评价
8anthropic/claude-opus-4.588.9%上一代 Opus
9openai/gpt-5-nano85.8%OpenAI 小模型表现不错
10qwen/qwen3-coder-next85.4%通义千问编码版
11z-ai/glm-4.5-air85.4%智谱 GLM
12openai/gpt-4o85.2%GPT-4o
13openai/gpt-4o-mini83.4%4o-mini
14google/gemini-2.5-flash-lite83.2%上一代 Flash Lite
15deepseek/deepseek-v3.282.1%DeepSeek V3.2
16mistralai/devstral-251281.7%Mistral 编码模型

第三梯队(65-80%)— 勉强能用

排名模型成功率
17anthropic/claude-sonnet-477.5%
18deepseek/deepseek-chat77.3%
19google/gemini-2.5-flash76.6%
20x-ai/grok-4.1-fast70.0%
21openai/gpt-5.265.6%
22arcee-ai/trinity-large-preview:free65.5%

第四梯队(<50%)— 不适合做 Agent

排名模型成功率
23stepfun/step-3.5-flash40.9%
24qwen/qwen3-max-thinking40.9%
25aurora-alpha40.1%

🧪 测试方法详解

测试流程


# 1. 克隆仓库
git clone https://github.com/pinchbench/skill.git
cd skill

# 2. 指定模型运行(需要一个真实的 OpenClaw 实例)
./scripts/run.sh --model anthropic/claude-opus-4-6

# 3. 结果自动上传排行榜(可选 --no-upload 仅本地)

仓库地址:https://github.com/pinchbench/skill

环境要求:Python 3.10+、uv 包管理器、一个运行中的 OpenClaw 实例

23 个任务覆盖 8 个真实场景

类别任务示例测的是什么
**生产力**日历安排、日报事件创建、时间解析
**研究**查股价、搜会议网页搜索、数据提取
**写作**博客、邮件内容生成、语气、格式
**编码**天气脚本、文件结构代码生成、文件操作
**分析**表格、PDF数据处理、摘要
**邮件**分类、搜索收件箱管理
**记忆**上下文检索长期记忆、召回
**技能**ClawHub 集成OpenClaw 生态整合

核心设计原则

PinchBench 不是传统的合成测试,测的不是模型知道什么,而是:

评分方式

自动检查 + LLM 评判双重评分——既有客观指标(文件是否存在、API 是否调用成功),也有主观质量评估(内容是否合理、格式是否正确)。

这就解释了为什么 Haiku 能超过 Opus——Agent 任务更考验听话执行而不是深度思考。

常用参数

参数说明
`--model MODEL`测试的模型(如 `anthropic/claude-sonnet-4`)
`--suite SUITE``all`、`automated-only` 或逗号分隔的任务 ID
`--runs N`每个任务跑几次取平均
`--timeout-multiplier N`为慢模型放大超时时间
`--no-upload`不上传排行榜,仅本地测试
`--register`注册 API token 用于提交结果

💡 关键洞察

1. Gemini 3 Flash 是 Agent 之王

95.1% 的成功率,而且是 Flash 级别(快速、便宜)。这意味着:

2. 国产模型表现惊人

MiniMax M2.1(93.6%)Kimi K2.5(93.4%) 分列二三名,超越了所有 Anthropic 和 OpenAI 模型。这与之前 ClawRouter 报告 的观点一致——很多任务不需要最贵的模型。

3. Haiku 超越 Opus

claude-haiku-4.5(90.8%)> claude-opus-4.6(90.6%)

这个结果极为反直觉。Haiku 是 Anthropic 最便宜的模型,但在 Agent 任务中表现比 Opus 还好。可能的原因:

4. GPT-5.2 表现糟糕

65.6% — 远低于 GPT-4o(85.2%)和 GPT-5-nano(85.8%)。OpenAI 的新一代大模型在 Agent 场景似乎退步了。

5. Thinking 模型不适合做 Agent

qwen3-max-thinking(40.9%) vs qwen3-coder-next(85.4%)。带推理链的模型在 Agent 场景明显不如专注编码的模型。

📊 测试方法

🔗 与我们的关联

直接影响我们的配置

我们当前用的排名建议
**claude-opus-4.6**(主模型)#7 (90.6%)考虑切换到 Gemini 3 Flash 做日常 Agent
**deepseek-v3.2**#15 (82.1%)可以升级到 MiniMax M2.1 或 Kimi K2.5
**minimax-m2.5**未测试M2.1 排名第 2,值得关注
**kimi-k2.5**#3 (93.4%)已经是很好的选择
**glm-5**未测试GLM-4.5-air 排 #11 (85.4%)

成本优化启示

结合 ClawRouter 报告

评分

维度评分(/10)
数据价值9.5
方法论8.5
实用性9.5
可复现性9
社区影响9
**综合****9.1**

报告由深度研究助手自动生成 | 2026-03-08