DeepSeek-V4 — 百万 Token 上下文的高效 MoE 模型

> 一句话版本:DeepSeek 的第四代旗舰模型。V4-Pro 1.6T 参数(激活 49B),原生支持 100 万 token 上下文,长文本推理 FLOPs 仅为 V3.2 的 27%,KV cache 仅 10%。开源模型中新的 SOTA。

项目信息
来源[DeepSeek-V4 论文 PDF](https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf)
公司DeepSeek-AI
发布2026-04-24
模型V4-Pro(1.6T / 49B 激活)+ V4-Flash(284B / 13B 激活)
上下文**100 万 token**
协议开源(权重已发布)

两个版本

V4-ProV4-Flash
总参数1.6T284B
激活参数49B13B
训练数据33T tokens32T tokens
定位旗舰高性价比
1M 上下文 FLOPs(vs V3.2)27%10%
1M 上下文 KV cache(vs V3.2)10%7%

三大架构创新

1. 混合注意力:CSA + HCA

Compressed Sparse Attention (CSA)

Heavily Compressed Attention (HCA)

两者交替使用(hybrid),再加上滑动窗口注意力保留局部精细依赖。

2. Manifold-Constrained Hyper-Connections (mHC)

升级传统残差连接:

3. Muon 优化器

其他技术细节

后训练流程

两阶段范式

1. 专家独立训练 — 对数学、代码、Agent、指令遵循分别训练专家(SFT + GRPO 强化学习)

2. 统一蒸馏 — 一个学生模型从所有专家老师学习(reverse KL loss)

推理力度模式

Benchmark 性能(V4-Pro-Max)

知识

推理

Agent

长上下文

V4-Flash

效率对比(1M token 上下文)

指标V4-Pro vs V3.2V4-Flash vs V3.2
单 token FLOPs27%(3.7× 低)10%(9.5× 低)
KV cache 大小10%(9.8× 小)7%(13.7× 小)

分析

优势

风险

与 Jay 的关联

评分

维度评分 (1-10)说明
架构创新9CSA+HCA+mHC+Muon,四重创新
性能9开源 SOTA,多项超过闭源
长上下文101M token 原生,效率突破
效率9FLOPs 27%,KV cache 10%
开放性10完全开源,权重发布
与 Jay 的关联9中文最强 + 百万上下文 + MCP
**总分****9.4**当前最强的开源大模型