小米 MiMo-V2.5：开源多模态 Agent 模型的里程碑

来源: Hugging Face | 官方博客 | MarkTechPost
日期: 2026-04-22（发布）/ 2026-05-25（本报告）
模型: MiMo-V2.5 (310B total / 15B active) + MiMo-V2.5-Pro (1.02T total / 42B active)
许可证: MIT（完全开源）

一句话版本

小米发布了一个能看、能听、能写代码、能自动完成复杂任务的 AI 模型，性能接近 GPT-5 和 Claude Opus，但成本只有它们的几分之一，而且是完全开源的。

核心概述

MiMo-V2.5 是小米 MiMo 团队在 2026 年 4 月发布的开源多模态大模型。它并非传统的「文生图」或「图生文」拼接式模型，而是原生多模态设计——从底层架构上统一处理文本、图像、视频和音频。同时，它在 Agent（自主代理）能力上达到了前沿水平，能够自主完成编写编译器、开发桌面应用、甚至模拟电路设计这类需要多步推理和工具调用的复杂任务。

系列包含两个版本：

MiMo-V2.5 (310B/15B active) — 性价比之选，日常编码和日常多模态任务
MiMo-V2.5-Pro (1.02T/42B active) — 旗舰版，长任务深度推理

两者都支持最高 1M token 上下文窗口。

架构亮点

1. Hybrid Attention (混合注意力)

继承自 MiMo-V2-Flash 的混合设计，交错使用 Sliding Window Attention (SWA) 和 Global Attention (GA)，比例为 5:1，窗口大小 128。这使得 KV-cache 存储减少近 6 倍，同时通过可学习的 attention sink bias 保持长上下文性能。

2. 原生多模态编码器

视觉: 729M 参数的 ViT，28 层（24 SWA + 4 Full），混合窗口注意力
音频: 261M 参数的 Audio Transformer，24 层（12 SWA + 12 Full），初始化自 MiMo-Audio-Tokenizer

3. Multi-Token Prediction (MTP)

3 个轻量级 MTP 模块（329M 参数），通过 speculative decoding 加速推理，也能提升 RL 训练效率。

4. MOPD 训练

Multi-Teacher On-Policy Distillation：多教师策略蒸馏，进一步提升感知、推理和 Agent 能力。

训练流水线（5 阶段，~48T tokens）

1. Text Pre-training → 2. Projector Warmup → 3. Multimodal Pre-training → 4. SFT & Agentic Post-training（逐步扩展 32K → 256K → 1M）→ 5. RL & MOPD

Benchmarks 表现

多模态

基准	MiMo-V2.5	对比模型
Video-MME	87.7	Gemini 3 Pro 88.4, Gemini 3 Flash 更低
CharXiv RQ	81.0	接近 GPT-5.4 (81.2)
MMMU-Pro	77.9	接近 Gemini 3 Pro
Claw-Eval Multimodal	23.8	匹配 Claude Sonnet 4.6

编码 & Agent

基准	V2.5	V2.5-Pro	对比
SWE-bench Pro	56.1	57.2	0.5 分内追平 Opus 4.6 和 GPT-5.4
Claw-Eval General	62.3	63.8	Pareto 前沿
τ3-Bench	-	72.9	与 Opus 4.6 / GPT-5.4 同级

Token 效率

在 Claw-Eval 上，V2.5-Pro 每条轨迹仅用约 70K tokens，比 Claude Opus 4.6、Gemini 3.1 Pro、GPT-5.4 少 40-60%。这意味着同样的智能水平，成本只有一半甚至更低。

真实世界 Demo（令人震撼）

小米发布了三个长篇自主任务演示，展示了模型的实际能力：

1️⃣ SysY 编译器 (Rust)

任务：从零实现完整的 SysY 编译器（词法/语法分析器、AST、Koopa IR 代码生成、RISC-V 后端、性能优化）
通常需要北大 CS 本科生数周完成
结果: 4.3 小时, 672 次工具调用, 233/233 满分通过隐藏测试
特别的是：模型不是胡乱尝试，而是按架构逐层构建，第一次编译即通过 137/233 测试（59%），说明架构设计在跑第一个测试之前就是正确的

2️⃣ 桌面视频编辑器

任务：根据简单提示开发完整桌面应用
结果: 8,192 行代码, 1,868 次工具调用, 11.5 小时自主完成
功能：多轨时间线、剪辑裁剪、交叉淡入淡出、音频混音、导出管线

3️⃣ 模拟电路设计 (FVF-LDO)

任务：在 TSMC 180nm CMOS 工艺下设计完整的 FVF-LDO 稳压器
需要满足 6 个指标（相位裕度、线性调整率、负载调整率、静态电流、PSRR、瞬态响应）
结果: ~1 小时，通过 ngspice 仿真闭环，所有指标达标，4 个关键指标比初始尝试提升一个数量级

定价与 API

模型	Token 倍率	输入价格	输出价格
MiMo-V2.5	1x	~$0.40/M tokens	~$2.00/M tokens
MiMo-V2.5-Pro	2x	~$1.00/M tokens	~$3.00/M tokens

1M 上下文窗口不再额外收费。

与我们项目的关联

1. Agent 底座选择：V2.5 已经兼容 Claude Code、OpenCode、Kilo 等 agent scaffold。如果你在做 agent 平台或 AI coding assistant，V2.5 是一个成本极低且完全可控的底座选项。

2. 自托管可能性：MIT 许可证 + 开源权重 + SGLang/vLLM 部署支持，可以在自己的 GPU 集群上运行。

3. 多模态管道：原生视觉+音频理解能力意味着可以替代之前需要多个模型拼接的工作流。

4. 性价比优势：V2.5（15B active）在 MiMo Coding Bench 上匹配 Pro 版的日常编码性能，价格只有一半。对于大部分生产场景，V2.5 就足够了。

评分

维度	评分	说明
⚡ 性能	★★★★★	开源模型中顶级，追上闭源前沿
💰 性价比	★★★★★	比闭源模型便宜 40-60%，性价比极高
🔓 开源度	★★★★★	MIT 许可证，权重完整开放
🛠 实用性	★★★★★	已适配主流 agent scaffold，可直接部署
📚 文档	★★★★☆	模型卡详细，博客有 demo，但中文资料较少
🔄 生态	★★★★☆	SGLang/vLLM 支持完善，社区正在快速增长

总体评分: 4.8/5 ⭐

了解更多

Hugging Face: https://huggingface.co/XiaomiMiMo/MiMo-V2.5
官方博客: https://mimo.xiaomi.com/mimo-v2-5
API 平台: https://platform.xiaomimimo.com
MiMo Studio (在线试用): https://aistudio.xiaomimimo.com
GitHub (V2-Flash 基础架构): https://github.com/XiaomiMiMo/MiMo-V2-Flash