MiniMax M2.7 全面解析

发布日期：2026-04-12，4月13日开源

模型概览

MiniMax M2.7 是 MiniMax M2 系列的最新迭代，456B 参数 MoE 架构。核心卖点是模型自我进化能力——能自主更新记忆、构建技能、改进学习流程，100+ 轮自主优化后性能提升 30%。

关键能力：

🧬 自我进化：自主优化学习流程
💻 代码：SWE-Pro 56.22%，持平 GPT-5.3-Codex
🏢 办公：GDPval-AA ELO 1495（开源最高），Word/Excel/PPT 高保真编辑
🤖 Agent：40 个复杂 skill 遵循率 97%，多智能体协作
🔧 OpenClaw 集成：MMClaw 评测接近 Sonnet 4.6

开源协议：⚠️ 禁止商用

硬件要求

项目	数值
模型权重	~220GB 显存
上下文开销	每百万 token 额外 240GB
最低配置	4× H100/H200/A100 (80GB)
推荐配置	8× H100/H200
AMD 支持	2× 或 4× MI300X/MI325X/MI350X/MI355X

现实评估：2 张 H200 勉强，4 张起步，8 张才能跑长上下文。消费级 GPU（24GB）完全无法运行原始权重。

量化版：截至 2026-04-14 尚未发布。unSloth 等社区正在制作，预计压缩到几十 GB 后 2×A100 或单张 24GB 有望跑起。

部署方式

1. vLLM（最成熟，Day-0 支持）


# 4 卡基础部署
vllm serve MiniMaxAI/MiniMax-M2.7 \
  --tensor-parallel-size 4 \
  --tool-call-parser minimax_m2 \
  --reasoning-parser minimax_m2 \
  --compilation-config '{"mode":3,"pass_config":{"fuse_minimax_qk_norm":true}}' \
  --enable-auto-tool-choice \
  --trust-remote-code

# 8 卡 DP+EP 模式
vllm serve MiniMaxAI/MiniMax-M2.7 \
  --data-parallel-size 8 \
  --enable-expert-parallel \
  --tool-call-parser minimax_m2 \
  --reasoning-parser minimax_m2 \
  --enable-auto-tool-choice \
  --trust-remote-code

# Docker 一键启动
docker run --gpus all \
  -p 8000:8000 \
  --ipc=host \
  -v ~/.cache/huggingface:/root/.cache/huggingface \
  vllm/vllm-openai:minimax27 MiniMaxAI/MiniMax-M2.7 \
  --tensor-parallel-size 4 \
  --tool-call-parser minimax_m2 \
  --reasoning-parser minimax_m2 \
  --enable-auto-tool-choice \
  --trust-remote-code

2. SGLang（Day-0 支持，支持 Thinking 模式）


sglang serve \
  --model-path MiniMaxAI/MiniMax-M2.7 \
  --tp 4 \
  --tool-call-parser minimax_m2 \
  --reasoning-parser minimax-append-think \
  --trust-remote-code \
  --mem-fraction-static 0.85

推荐推理参数：temperature=1.0, top_p=0.95, top_k=40

3. Ollama（云端推理）


ollama run minimax-m2.7:cloud
# 与 OpenClaw 集成
ollama launch openclaw --model minimax-m2.7:cloud

⚠️ :cloud 标签 = 云端推理，非本地运行

4. NVIDIA 免费试用

浏览器直接访问：https://build.nvidia.com/minimaxai/minimax-m2.7

5. API 接入

标准版 M2.7 + 高速版 M2.7-highspeed
自动 Cache，无需配置
Token Plan 订阅制

权重下载

平台	地址
HuggingFace	https://huggingface.co/MiniMaxAI/MiniMax-M2.7
ModelScope（国内）	https://modelscope.cn/models/MiniMax/MiniMax-M2.7

Tool Calling & Thinking 模式

M2.7 同时支持工具调用和思考模式：

Tool Calling：通过 --tool-call-parser minimax_m2 启用
Thinking 模式：通过 minimax-append-think 解析器，思考过程用 💭 标签包裹


from openai import OpenAI

client = OpenAI(base_url="http://localhost:30000/v1", api_key="EMPTY")

response = client.chat.completions.create(
    model="MiniMaxAI/MiniMax-M2.7",
    messages=[{"role": "user", "content": "北京天气如何？"}],
    tools=[{"type": "function", "function": {
        "name": "get_weather",
        "description": "获取城市天气",
        "parameters": {"type": "object", "properties": {
            "location": {"type": "string", "description": "城市名"}
        }, "required": ["location"]}
    }}]
)

NVIDIA 优化

NVIDIA 与 MiniMax 深度合作，做了两个关键优化：

1. QK RMS Norm Kernel：计算与通信融合，减少内核启动和显存读写

2. FP8 MoE：集成 TensorRT-LLM 的 FP8 MoE 模块化内核

在 NVIDIA Blackwell Ultra GPU 上的效果：

vLLM 吞吐量提升 2.5 倍
SGLang 吞吐量提升 2.7 倍

NemoClaw：NVIDIA 开源参考栈，一键部署 OpenClaw + M2.7 持续运行助手

微调支持

通过 NeMo AutoModel 库进行后训练：


# 微调配方
https://github.com/NVIDIA-NeMo/Automodel/blob/main/examples/llm_finetune/minimax_m2/minimax_m2.7_hellaswag_pp.yaml

# 分布式训练文档
https://github.com/NVIDIA-NeMo/Automodel/discussions/1786

支持 EP + PP 训练方案，NeMo RL 库提供 GRPO 强化学习样例配方（8K/16K 序列长度）。

社区评价（截至 2026-04-14）

与 GLM-5.1 水平相近
有作者认为不及 Qwen3.6 Plus（个人主观测试，仅供参考）
量化版尚未发布是主要痛点
禁止商用协议引发争议

快速体验路径（无需硬件）

方式	链接	成本
MiniMax API	platform.minimaxi.com	按量计费
MiniMax Agent	agent.minimaxi.com	免费体验
Ollama 云端	`ollama run minimax-m2.7:cloud`	免费
NVIDIA 端点	build.nvidia.com/minimaxai/minimax-m2.7	免费试用

数据来源：MiniMax 官网、腾讯云开发者社区、CSDN、知乎

生成时间：2026-04-14