小米 MiMo-V2.5:开源多模态 Agent 模型的里程碑

一句话版本

小米发布了一个能看、能听、能写代码、能自动完成复杂任务的 AI 模型,性能接近 GPT-5 和 Claude Opus,但成本只有它们的几分之一,而且是完全开源的。

核心概述

MiMo-V2.5 是小米 MiMo 团队在 2026 年 4 月发布的开源多模态大模型。它并非传统的「文生图」或「图生文」拼接式模型,而是原生多模态设计——从底层架构上统一处理文本、图像、视频和音频。同时,它在 Agent(自主代理)能力上达到了前沿水平,能够自主完成编写编译器、开发桌面应用、甚至模拟电路设计这类需要多步推理和工具调用的复杂任务。

系列包含两个版本:

两者都支持最高 1M token 上下文窗口。

架构亮点

1. Hybrid Attention (混合注意力)

继承自 MiMo-V2-Flash 的混合设计,交错使用 Sliding Window Attention (SWA) 和 Global Attention (GA),比例为 5:1,窗口大小 128。这使得 KV-cache 存储减少近 6 倍,同时通过可学习的 attention sink bias 保持长上下文性能。

2. 原生多模态编码器

3. Multi-Token Prediction (MTP)

3 个轻量级 MTP 模块(329M 参数),通过 speculative decoding 加速推理,也能提升 RL 训练效率。

4. MOPD 训练

Multi-Teacher On-Policy Distillation:多教师策略蒸馏,进一步提升感知、推理和 Agent 能力。

训练流水线(5 阶段,~48T tokens)

1. Text Pre-training → 2. Projector Warmup → 3. Multimodal Pre-training → 4. SFT & Agentic Post-training(逐步扩展 32K → 256K → 1M)→ 5. RL & MOPD

Benchmarks 表现

多模态

基准MiMo-V2.5对比模型
Video-MME**87.7**Gemini 3 Pro 88.4, Gemini 3 Flash 更低
CharXiv RQ**81.0**接近 GPT-5.4 (81.2)
MMMU-Pro**77.9**接近 Gemini 3 Pro
Claw-Eval Multimodal**23.8**匹配 Claude Sonnet 4.6

编码 & Agent

基准V2.5V2.5-Pro对比
SWE-bench Pro56.1**57.2**0.5 分内追平 Opus 4.6 和 GPT-5.4
Claw-Eval General**62.3****63.8**Pareto 前沿
τ3-Bench-**72.9**与 Opus 4.6 / GPT-5.4 同级

Token 效率

在 Claw-Eval 上,V2.5-Pro 每条轨迹仅用约 70K tokens,比 Claude Opus 4.6、Gemini 3.1 Pro、GPT-5.4 少 40-60%。这意味着同样的智能水平,成本只有一半甚至更低。

真实世界 Demo(令人震撼)

小米发布了三个长篇自主任务演示,展示了模型的实际能力:

1️⃣ SysY 编译器 (Rust)

2️⃣ 桌面视频编辑器

3️⃣ 模拟电路设计 (FVF-LDO)

定价与 API

模型Token 倍率输入价格输出价格
MiMo-V2.51x~$0.40/M tokens~$2.00/M tokens
MiMo-V2.5-Pro2x~$1.00/M tokens~$3.00/M tokens

1M 上下文窗口不再额外收费。

与我们项目的关联

1. Agent 底座选择:V2.5 已经兼容 Claude Code、OpenCode、Kilo 等 agent scaffold。如果你在做 agent 平台或 AI coding assistant,V2.5 是一个成本极低且完全可控的底座选项。

2. 自托管可能性:MIT 许可证 + 开源权重 + SGLang/vLLM 部署支持,可以在自己的 GPU 集群上运行。

3. 多模态管道:原生视觉+音频理解能力意味着可以替代之前需要多个模型拼接的工作流。

4. 性价比优势:V2.5(15B active)在 MiMo Coding Bench 上匹配 Pro 版的日常编码性能,价格只有一半。对于大部分生产场景,V2.5 就足够了。

评分

维度评分说明
⚡ 性能★★★★★开源模型中顶级,追上闭源前沿
💰 性价比★★★★★比闭源模型便宜 40-60%,性价比极高
🔓 开源度★★★★★MIT 许可证,权重完整开放
🛠 实用性★★★★★已适配主流 agent scaffold,可直接部署
📚 文档★★★★☆模型卡详细,博客有 demo,但中文资料较少
🔄 生态★★★★☆SGLang/vLLM 支持完善,社区正在快速增长

总体评分: 4.8/5

了解更多