MiMo-V2.5-Pro — 小米最强 Agent 模型
> 一句话版本:小米的旗舰 AI 模型升级版,专为长程 Agent 任务优化。4.3 小时自主写完北大编译器满分、11.5 小时写出 8192 行视频编辑器。比 Claude Opus 4.6 省 40-60% token。即将开源。
| 项目 | 信息 |
|---|---|
| 来源 | [mimo.xiaomi.com/mimo-v2-5-pro](https://mimo.xiaomi.com/mimo-v2-5-pro/) |
| 公司 | 小米(Xiaomi) |
| 发布 | 2026-04-22(昨天) |
| 定价 | $1/M input, $3/M output(OpenRouter) |
| 上下文 | 1M tokens |
| 即将开源 | V2.5 系列将正式开源 |
V2.5-Pro vs V2-Omni(之前报告的版本)
| V2-Omni | V2.5-Pro | |
|---|---|---|
| 定价 | $0.40/$2.00 | $1.00/$3.00 |
| 定位 | 全模态旗舰 | Agent 旗舰 |
| Agent 能力 | 前沿 | **显著提升** |
| Token 效率 | — | **比 Opus 4.6 省 40-60%** |
三大 Agent 实验成果
1. 北大 SysY 编译器(Rust)
- 任务:从零实现完整 SysY 编译器(词法、语法、AST、Koopa IR、RISC-V 后端、性能优化)
- 参考时间:北大 CS 学生需要数周
- MiMo:4.3 小时,672 次工具调用,233/233 满分
- 亮点:先搭完整 pipeline → 修 Koopa IR (110/110) → 修 RISC-V (103/103) → 性能 (20/20)。首次编译就通过 59% 测试,说明架构设计正确
- 自我修复:turn 512 重构时回归了 2 个测试,模型自主诊断并恢复
2. 全功能视频编辑器
- 任务:多轨时间线、剪辑、交叉淡入淡出、音频混音、导出
- 成果:8,192 行代码,1,868 次工具调用,11.5 小时自主工作
- 配音:使用 MiMo-V2-TTS 做 AI 旁白
3. 模拟电路 EDA(FVF-LDO 设计)
- 任务:TSMC 180nm 下设计 FVF-LDO 低压差稳压器
- 参考时间:训练有素的模拟 IC 设计师需要数天
- MiMo:约 1 小时闭环迭代(ngspice 仿真循环)
- 配合:Claude Code 作为 harness
- 结果:6 项指标全部达标,4 项比初始设计提升一个数量级
关键特性
Harness Awareness
V2.5-Pro 展现出"工具环境感知"——充分利用 harness 的能力,主动管理记忆,塑造自己的上下文朝目标推进。
Token 效率
在 ClawEval 上达到 64% Pass³,仅用 ~70K tokens/trajectory。同等能力下比 Claude Opus 4.6、Gemini 3.1 Pro、GPT-5.4 省 40-60% tokens。
上下文连贯性
超长上下文中保持强连贯性,可靠地遵循上下文中的隐含需求。
分析
优势:
- 🔥 Agent 能力飞跃——三大实验都是真实长程任务,不是 toy benchmark
- 🔥 Token 效率极高——省 40-60% 意味着成本大幅降低
- 🔥 即将开源——V2.5 系列将开源,社区可本地部署
- 🔥 性价比碾压——$1/$3 vs Opus 4.6 的 $15/$75(约 15x 更便宜)
- 📊 ClawEval 榜首——在 Agent 评估基准上表现顶尖
风险:
- ⚠️ 价格是 V2-Omni 的 2.5x——从 $0.40/$2 涨到 $1/$3
- ⚠️ 昨天刚发布——需要社区验证实际效果
- 🟡 中文公司模型——全球开发者采用率待观察
- 🟡 依赖 Claude Code 作为 harness——EDA 实验中用了 Claude Code
与 Jay 的关联:
- 🔥 OpenClaw 模型选择——MiMo-V2.5-Pro 可以作为 OpenClaw 的主力模型,性价比极高
- Agent 场景验证——编译器/视频编辑器/EDA 都是复杂长程任务,和 Jay 的 researcher agent 场景类似
- 即将开源——如果开源,Jay 可以在本地 Mac M3 上跑(取决于模型大小)
- 与 MiMo-V2-Omni 对比——我们写过 V2-Omni 报告,V2.5-Pro 是 Agent 专精升级
评分
| 维度 | 评分 (1-10) | 说明 |
|---|---|---|
| Agent 能力 | 9 | 编译器满分、视频编辑器 8K 行、EDA 1 小时 |
| Token 效率 | 9 | 比 Opus 4.6 省 40-60% |
| 性价比 | 9 | $1/$3,Opus 的 ~1/15 |
| 创新性 | 7 | 模型能力提升,架构创新不多 |
| 开放性 | 8 | 即将开源 |
| 与 Jay 的关联 | 9 | OpenClaw 模型选择的强力候选 |
| **总分** | **8.5** | 当前性价比最高的 Agent 模型 |