MiniMax M2.7 全面解析

发布日期:2026-04-12,4月13日开源

模型概览

MiniMax M2.7 是 MiniMax M2 系列的最新迭代,456B 参数 MoE 架构。核心卖点是模型自我进化能力——能自主更新记忆、构建技能、改进学习流程,100+ 轮自主优化后性能提升 30%。

关键能力

开源协议:⚠️ 禁止商用

硬件要求

项目数值
模型权重~220GB 显存
上下文开销每百万 token 额外 240GB
最低配置4× H100/H200/A100 (80GB)
推荐配置8× H100/H200
AMD 支持2× 或 4× MI300X/MI325X/MI350X/MI355X

现实评估:2 张 H200 勉强,4 张起步,8 张才能跑长上下文。消费级 GPU(24GB)完全无法运行原始权重。

量化版:截至 2026-04-14 尚未发布。unSloth 等社区正在制作,预计压缩到几十 GB 后 2×A100 或单张 24GB 有望跑起。

部署方式

1. vLLM(最成熟,Day-0 支持)


# 4 卡基础部署
vllm serve MiniMaxAI/MiniMax-M2.7 \
  --tensor-parallel-size 4 \
  --tool-call-parser minimax_m2 \
  --reasoning-parser minimax_m2 \
  --compilation-config '{"mode":3,"pass_config":{"fuse_minimax_qk_norm":true}}' \
  --enable-auto-tool-choice \
  --trust-remote-code

# 8 卡 DP+EP 模式
vllm serve MiniMaxAI/MiniMax-M2.7 \
  --data-parallel-size 8 \
  --enable-expert-parallel \
  --tool-call-parser minimax_m2 \
  --reasoning-parser minimax_m2 \
  --enable-auto-tool-choice \
  --trust-remote-code

# Docker 一键启动
docker run --gpus all \
  -p 8000:8000 \
  --ipc=host \
  -v ~/.cache/huggingface:/root/.cache/huggingface \
  vllm/vllm-openai:minimax27 MiniMaxAI/MiniMax-M2.7 \
  --tensor-parallel-size 4 \
  --tool-call-parser minimax_m2 \
  --reasoning-parser minimax_m2 \
  --enable-auto-tool-choice \
  --trust-remote-code

2. SGLang(Day-0 支持,支持 Thinking 模式)


sglang serve \
  --model-path MiniMaxAI/MiniMax-M2.7 \
  --tp 4 \
  --tool-call-parser minimax_m2 \
  --reasoning-parser minimax-append-think \
  --trust-remote-code \
  --mem-fraction-static 0.85

推荐推理参数:temperature=1.0, top_p=0.95, top_k=40

3. Ollama(云端推理)


ollama run minimax-m2.7:cloud
# 与 OpenClaw 集成
ollama launch openclaw --model minimax-m2.7:cloud

⚠️ :cloud 标签 = 云端推理,非本地运行

4. NVIDIA 免费试用

浏览器直接访问:https://build.nvidia.com/minimaxai/minimax-m2.7

5. API 接入

权重下载

平台地址
HuggingFacehttps://huggingface.co/MiniMaxAI/MiniMax-M2.7
ModelScope(国内)https://modelscope.cn/models/MiniMax/MiniMax-M2.7

Tool Calling & Thinking 模式

M2.7 同时支持工具调用和思考模式:


from openai import OpenAI

client = OpenAI(base_url="http://localhost:30000/v1", api_key="EMPTY")

response = client.chat.completions.create(
    model="MiniMaxAI/MiniMax-M2.7",
    messages=[{"role": "user", "content": "北京天气如何?"}],
    tools=[{"type": "function", "function": {
        "name": "get_weather",
        "description": "获取城市天气",
        "parameters": {"type": "object", "properties": {
            "location": {"type": "string", "description": "城市名"}
        }, "required": ["location"]}
    }}]
)

NVIDIA 优化

NVIDIA 与 MiniMax 深度合作,做了两个关键优化:

1. QK RMS Norm Kernel:计算与通信融合,减少内核启动和显存读写

2. FP8 MoE:集成 TensorRT-LLM 的 FP8 MoE 模块化内核

在 NVIDIA Blackwell Ultra GPU 上的效果:

NemoClaw:NVIDIA 开源参考栈,一键部署 OpenClaw + M2.7 持续运行助手

微调支持

通过 NeMo AutoModel 库进行后训练:


# 微调配方
https://github.com/NVIDIA-NeMo/Automodel/blob/main/examples/llm_finetune/minimax_m2/minimax_m2.7_hellaswag_pp.yaml

# 分布式训练文档
https://github.com/NVIDIA-NeMo/Automodel/discussions/1786

支持 EP + PP 训练方案,NeMo RL 库提供 GRPO 强化学习样例配方(8K/16K 序列长度)。

社区评价(截至 2026-04-14)

快速体验路径(无需硬件)

方式链接成本
MiniMax APIplatform.minimaxi.com按量计费
MiniMax Agentagent.minimaxi.com免费体验
Ollama 云端`ollama run minimax-m2.7:cloud`免费
NVIDIA 端点build.nvidia.com/minimaxai/minimax-m2.7免费试用

数据来源:MiniMax 官网、腾讯云开发者社区、CSDN、知乎

生成时间:2026-04-14