小米 MiMo-V2.5:开源多模态 Agent 模型的里程碑
- 来源: Hugging Face | 官方博客 | MarkTechPost
- 日期: 2026-04-22(发布)/ 2026-05-25(本报告)
- 模型: MiMo-V2.5 (310B total / 15B active) + MiMo-V2.5-Pro (1.02T total / 42B active)
- 许可证: MIT(完全开源)
一句话版本
小米发布了一个能看、能听、能写代码、能自动完成复杂任务的 AI 模型,性能接近 GPT-5 和 Claude Opus,但成本只有它们的几分之一,而且是完全开源的。
核心概述
MiMo-V2.5 是小米 MiMo 团队在 2026 年 4 月发布的开源多模态大模型。它并非传统的「文生图」或「图生文」拼接式模型,而是原生多模态设计——从底层架构上统一处理文本、图像、视频和音频。同时,它在 Agent(自主代理)能力上达到了前沿水平,能够自主完成编写编译器、开发桌面应用、甚至模拟电路设计这类需要多步推理和工具调用的复杂任务。
系列包含两个版本:
- MiMo-V2.5 (310B/15B active) — 性价比之选,日常编码和日常多模态任务
- MiMo-V2.5-Pro (1.02T/42B active) — 旗舰版,长任务深度推理
两者都支持最高 1M token 上下文窗口。
架构亮点
1. Hybrid Attention (混合注意力)
继承自 MiMo-V2-Flash 的混合设计,交错使用 Sliding Window Attention (SWA) 和 Global Attention (GA),比例为 5:1,窗口大小 128。这使得 KV-cache 存储减少近 6 倍,同时通过可学习的 attention sink bias 保持长上下文性能。
2. 原生多模态编码器
- 视觉: 729M 参数的 ViT,28 层(24 SWA + 4 Full),混合窗口注意力
- 音频: 261M 参数的 Audio Transformer,24 层(12 SWA + 12 Full),初始化自 MiMo-Audio-Tokenizer
3. Multi-Token Prediction (MTP)
3 个轻量级 MTP 模块(329M 参数),通过 speculative decoding 加速推理,也能提升 RL 训练效率。
4. MOPD 训练
Multi-Teacher On-Policy Distillation:多教师策略蒸馏,进一步提升感知、推理和 Agent 能力。
训练流水线(5 阶段,~48T tokens)
1. Text Pre-training → 2. Projector Warmup → 3. Multimodal Pre-training → 4. SFT & Agentic Post-training(逐步扩展 32K → 256K → 1M)→ 5. RL & MOPD
Benchmarks 表现
多模态
| 基准 | MiMo-V2.5 | 对比模型 |
|---|---|---|
| Video-MME | **87.7** | Gemini 3 Pro 88.4, Gemini 3 Flash 更低 |
| CharXiv RQ | **81.0** | 接近 GPT-5.4 (81.2) |
| MMMU-Pro | **77.9** | 接近 Gemini 3 Pro |
| Claw-Eval Multimodal | **23.8** | 匹配 Claude Sonnet 4.6 |
编码 & Agent
| 基准 | V2.5 | V2.5-Pro | 对比 |
|---|---|---|---|
| SWE-bench Pro | 56.1 | **57.2** | 0.5 分内追平 Opus 4.6 和 GPT-5.4 |
| Claw-Eval General | **62.3** | **63.8** | Pareto 前沿 |
| τ3-Bench | - | **72.9** | 与 Opus 4.6 / GPT-5.4 同级 |
Token 效率
在 Claw-Eval 上,V2.5-Pro 每条轨迹仅用约 70K tokens,比 Claude Opus 4.6、Gemini 3.1 Pro、GPT-5.4 少 40-60%。这意味着同样的智能水平,成本只有一半甚至更低。
真实世界 Demo(令人震撼)
小米发布了三个长篇自主任务演示,展示了模型的实际能力:
1️⃣ SysY 编译器 (Rust)
- 任务:从零实现完整的 SysY 编译器(词法/语法分析器、AST、Koopa IR 代码生成、RISC-V 后端、性能优化)
- 通常需要北大 CS 本科生数周完成
- 结果: 4.3 小时, 672 次工具调用, 233/233 满分通过隐藏测试
- 特别的是:模型不是胡乱尝试,而是按架构逐层构建,第一次编译即通过 137/233 测试(59%),说明架构设计在跑第一个测试之前就是正确的
2️⃣ 桌面视频编辑器
- 任务:根据简单提示开发完整桌面应用
- 结果: 8,192 行代码, 1,868 次工具调用, 11.5 小时自主完成
- 功能:多轨时间线、剪辑裁剪、交叉淡入淡出、音频混音、导出管线
3️⃣ 模拟电路设计 (FVF-LDO)
- 任务:在 TSMC 180nm CMOS 工艺下设计完整的 FVF-LDO 稳压器
- 需要满足 6 个指标(相位裕度、线性调整率、负载调整率、静态电流、PSRR、瞬态响应)
- 结果: ~1 小时,通过 ngspice 仿真闭环,所有指标达标,4 个关键指标比初始尝试提升一个数量级
定价与 API
| 模型 | Token 倍率 | 输入价格 | 输出价格 |
|---|---|---|---|
| MiMo-V2.5 | 1x | ~$0.40/M tokens | ~$2.00/M tokens |
| MiMo-V2.5-Pro | 2x | ~$1.00/M tokens | ~$3.00/M tokens |
1M 上下文窗口不再额外收费。
与我们项目的关联
1. Agent 底座选择:V2.5 已经兼容 Claude Code、OpenCode、Kilo 等 agent scaffold。如果你在做 agent 平台或 AI coding assistant,V2.5 是一个成本极低且完全可控的底座选项。
2. 自托管可能性:MIT 许可证 + 开源权重 + SGLang/vLLM 部署支持,可以在自己的 GPU 集群上运行。
3. 多模态管道:原生视觉+音频理解能力意味着可以替代之前需要多个模型拼接的工作流。
4. 性价比优势:V2.5(15B active)在 MiMo Coding Bench 上匹配 Pro 版的日常编码性能,价格只有一半。对于大部分生产场景,V2.5 就足够了。
评分
| 维度 | 评分 | 说明 |
|---|---|---|
| ⚡ 性能 | ★★★★★ | 开源模型中顶级,追上闭源前沿 |
| 💰 性价比 | ★★★★★ | 比闭源模型便宜 40-60%,性价比极高 |
| 🔓 开源度 | ★★★★★ | MIT 许可证,权重完整开放 |
| 🛠 实用性 | ★★★★★ | 已适配主流 agent scaffold,可直接部署 |
| 📚 文档 | ★★★★☆ | 模型卡详细,博客有 demo,但中文资料较少 |
| 🔄 生态 | ★★★★☆ | SGLang/vLLM 支持完善,社区正在快速增长 |
总体评分: 4.8/5 ⭐
了解更多
- Hugging Face: https://huggingface.co/XiaomiMiMo/MiMo-V2.5
- 官方博客: https://mimo.xiaomi.com/mimo-v2-5
- API 平台: https://platform.xiaomimimo.com
- MiMo Studio (在线试用): https://aistudio.xiaomimimo.com
- GitHub (V2-Flash 基础架构): https://github.com/XiaomiMiMo/MiMo-V2-Flash