MiniMax M2.7 全面解析
发布日期:2026-04-12,4月13日开源
模型概览
MiniMax M2.7 是 MiniMax M2 系列的最新迭代,456B 参数 MoE 架构。核心卖点是模型自我进化能力——能自主更新记忆、构建技能、改进学习流程,100+ 轮自主优化后性能提升 30%。
关键能力:
- 🧬 自我进化:自主优化学习流程
- 💻 代码:SWE-Pro 56.22%,持平 GPT-5.3-Codex
- 🏢 办公:GDPval-AA ELO 1495(开源最高),Word/Excel/PPT 高保真编辑
- 🤖 Agent:40 个复杂 skill 遵循率 97%,多智能体协作
- 🔧 OpenClaw 集成:MMClaw 评测接近 Sonnet 4.6
开源协议:⚠️ 禁止商用
硬件要求
| 项目 | 数值 |
|---|---|
| 模型权重 | ~220GB 显存 |
| 上下文开销 | 每百万 token 额外 240GB |
| 最低配置 | 4× H100/H200/A100 (80GB) |
| 推荐配置 | 8× H100/H200 |
| AMD 支持 | 2× 或 4× MI300X/MI325X/MI350X/MI355X |
现实评估:2 张 H200 勉强,4 张起步,8 张才能跑长上下文。消费级 GPU(24GB)完全无法运行原始权重。
量化版:截至 2026-04-14 尚未发布。unSloth 等社区正在制作,预计压缩到几十 GB 后 2×A100 或单张 24GB 有望跑起。
部署方式
1. vLLM(最成熟,Day-0 支持)
# 4 卡基础部署
vllm serve MiniMaxAI/MiniMax-M2.7 \
--tensor-parallel-size 4 \
--tool-call-parser minimax_m2 \
--reasoning-parser minimax_m2 \
--compilation-config '{"mode":3,"pass_config":{"fuse_minimax_qk_norm":true}}' \
--enable-auto-tool-choice \
--trust-remote-code
# 8 卡 DP+EP 模式
vllm serve MiniMaxAI/MiniMax-M2.7 \
--data-parallel-size 8 \
--enable-expert-parallel \
--tool-call-parser minimax_m2 \
--reasoning-parser minimax_m2 \
--enable-auto-tool-choice \
--trust-remote-code
# Docker 一键启动
docker run --gpus all \
-p 8000:8000 \
--ipc=host \
-v ~/.cache/huggingface:/root/.cache/huggingface \
vllm/vllm-openai:minimax27 MiniMaxAI/MiniMax-M2.7 \
--tensor-parallel-size 4 \
--tool-call-parser minimax_m2 \
--reasoning-parser minimax_m2 \
--enable-auto-tool-choice \
--trust-remote-code
2. SGLang(Day-0 支持,支持 Thinking 模式)
sglang serve \
--model-path MiniMaxAI/MiniMax-M2.7 \
--tp 4 \
--tool-call-parser minimax_m2 \
--reasoning-parser minimax-append-think \
--trust-remote-code \
--mem-fraction-static 0.85
推荐推理参数:temperature=1.0, top_p=0.95, top_k=40
3. Ollama(云端推理)
ollama run minimax-m2.7:cloud
# 与 OpenClaw 集成
ollama launch openclaw --model minimax-m2.7:cloud
⚠️ :cloud 标签 = 云端推理,非本地运行
4. NVIDIA 免费试用
浏览器直接访问:https://build.nvidia.com/minimaxai/minimax-m2.7
5. API 接入
- 标准版 M2.7 + 高速版 M2.7-highspeed
- 自动 Cache,无需配置
- Token Plan 订阅制
权重下载
| 平台 | 地址 |
|---|---|
| HuggingFace | https://huggingface.co/MiniMaxAI/MiniMax-M2.7 |
| ModelScope(国内) | https://modelscope.cn/models/MiniMax/MiniMax-M2.7 |
Tool Calling & Thinking 模式
M2.7 同时支持工具调用和思考模式:
- Tool Calling:通过
--tool-call-parser minimax_m2启用 - Thinking 模式:通过
minimax-append-think解析器,思考过程用💭标签包裹
from openai import OpenAI
client = OpenAI(base_url="http://localhost:30000/v1", api_key="EMPTY")
response = client.chat.completions.create(
model="MiniMaxAI/MiniMax-M2.7",
messages=[{"role": "user", "content": "北京天气如何?"}],
tools=[{"type": "function", "function": {
"name": "get_weather",
"description": "获取城市天气",
"parameters": {"type": "object", "properties": {
"location": {"type": "string", "description": "城市名"}
}, "required": ["location"]}
}}]
)
NVIDIA 优化
NVIDIA 与 MiniMax 深度合作,做了两个关键优化:
1. QK RMS Norm Kernel:计算与通信融合,减少内核启动和显存读写
2. FP8 MoE:集成 TensorRT-LLM 的 FP8 MoE 模块化内核
在 NVIDIA Blackwell Ultra GPU 上的效果:
- vLLM 吞吐量提升 2.5 倍
- SGLang 吞吐量提升 2.7 倍
NemoClaw:NVIDIA 开源参考栈,一键部署 OpenClaw + M2.7 持续运行助手
微调支持
通过 NeMo AutoModel 库进行后训练:
# 微调配方
https://github.com/NVIDIA-NeMo/Automodel/blob/main/examples/llm_finetune/minimax_m2/minimax_m2.7_hellaswag_pp.yaml
# 分布式训练文档
https://github.com/NVIDIA-NeMo/Automodel/discussions/1786
支持 EP + PP 训练方案,NeMo RL 库提供 GRPO 强化学习样例配方(8K/16K 序列长度)。
社区评价(截至 2026-04-14)
- 与 GLM-5.1 水平相近
- 有作者认为不及 Qwen3.6 Plus(个人主观测试,仅供参考)
- 量化版尚未发布是主要痛点
- 禁止商用协议引发争议
快速体验路径(无需硬件)
| 方式 | 链接 | 成本 |
|---|---|---|
| MiniMax API | platform.minimaxi.com | 按量计费 |
| MiniMax Agent | agent.minimaxi.com | 免费体验 |
| Ollama 云端 | `ollama run minimax-m2.7:cloud` | 免费 |
| NVIDIA 端点 | build.nvidia.com/minimaxai/minimax-m2.7 | 免费试用 |
数据来源:MiniMax 官网、腾讯云开发者社区、CSDN、知乎
生成时间:2026-04-14