🧪 Qwen 模型代码能力测试报告

测试日期: 2026-02-07

测试平台: ub2 (RTX 4090 24GB + i9-13900K + 62GB RAM)

测试框架: 自定义代码能力评测 (8道题)

📊 测试概览

测试内容

类别题目考察能力
代码生成Python 二分查找基础算法实现
代码生成异步 HTTP 请求async/await、aiohttp
Bug 修复列表越界调试、索引理解
Bug 修复并发竞态多线程、锁机制
算法实现LRU Cache数据结构设计
算法实现合并 K 个有序链表堆、链表操作
代码解释装饰器 memoizePython 高级特性理解
代码解释元类 Singleton元编程理解

评分标准

🏆 最终排名

排名模型综合得分平均速度平均耗时
🥇**qwen3:4b****100.0/100**108.5 tok/s36.6s
🥈**qwen3:8b****100.0/100**88.4 tok/s50.1s
🥉qwen3:32b75.0/10023.6 tok/s97.9s
4qwen3:30b-a3b75.0/100129.2 tok/s45.1s
5qwen2.5:7b73.2/1006.6 tok/s86.9s

📈 分项得分详情

qwen3:4b (🥇 冠军)

题目得分耗时速度
二分查找10017.1s138 tok/s
异步HTTP10017.3s105 tok/s
列表越界Bug10059.8s90 tok/s
并发竞态Bug10018.1s125 tok/s
LRU Cache10026.2s100 tok/s
合并链表10047.4s108 tok/s
装饰器解释10015.6s126 tok/s
元类解释10091.7s76 tok/s
**总计****100.0****36.6s avg****108.5 tok/s**

qwen3:8b (🥈 亚军)

题目得分耗时速度
二分查找10018.7s129 tok/s
异步HTTP10062.2s62 tok/s
列表越界Bug10056.7s89 tok/s
并发竞态Bug10050.2s64 tok/s
LRU Cache10068.8s96 tok/s
合并链表10055.0s95 tok/s
装饰器解释10049.3s80 tok/s
元类解释10038.8s89 tok/s
**总计****100.0****50.1s avg****88.4 tok/s**

qwen3:32b (🥉 季军)

题目得分耗时速度
二分查找10082.8s33 tok/s
异步HTTP100101.6s40 tok/s
列表越界Bug⚠️ 0120s超时
并发竞态Bug10050.4s37 tok/s
LRU Cache100118.7s31 tok/s
合并链表⚠️ 0120s超时
装饰器解释10074.6s30 tok/s
元类解释100115.6s19 tok/s
**总计****75.0****97.9s avg****23.6 tok/s**

qwen3:30b-a3b (第4名)

题目得分耗时速度
二分查找10021.5s152 tok/s
异步HTTP10013.2s203 tok/s
列表越界Bug⚠️ 0120s超时
并发竞态Bug1005.4s173 tok/s
LRU Cache⚠️ 0120s超时
合并链表10036.1s171 tok/s
装饰器解释10019.3s151 tok/s
元类解释10025.3s184 tok/s
**总计****75.0****45.1s avg****129.2 tok/s**

qwen2.5:7b (第5名)

题目得分耗时速度
二分查找10074.0s9 tok/s
异步HTTP10090.2s7 tok/s
列表越界Bug86118.8s4 tok/s
并发竞态Bug10057.8s8 tok/s
LRU Cache⚠️ 0120s超时
合并链表⚠️ 0120s超时
装饰器解释10061.2s16 tok/s
元类解释10053.2s9 tok/s
**总计****73.2****86.9s avg****6.6 tok/s**

📊 能力维度对比

模型代码生成Bug修复算法实现代码解释
qwen3:4b⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
qwen3:8b⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
qwen3:32b⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
qwen3:30b-a3b⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
qwen2.5:7b⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐

💡 关键发现

1. 小模型完胜大模型

2. 速度与质量可以兼得

3. 大模型超时问题

4. qwen2.5:7b 异常缓慢

🎯 使用建议

日常代码助手

推荐: qwen3:8b

追求极致速度

推荐: qwen3:4b

需要深度推理

推荐: DeepSeek-R1:32b (未在本次测试)

不推荐

📋 测试环境

项目配置
主机ub2 (Tailscale)
CPUIntel Core i9-13900K
GPUNVIDIA RTX 4090 (24GB)
RAM62 GB
系统Ubuntu 20.04 LTS
CUDA12.2
Ollama最新版
超时设置120秒/题

📁 原始数据

完整测试日志: /tmp/benchmark-output.log

JSON 结果: /tmp/qwen-benchmark-results.json

报告生成时间: 2026-02-07 13:40 UTC