description: "DeepSeek V4 Pro & Flash 全面评测:架构创新、基准测试、竞品对比、价格分析与社区反响"
DeepSeek V4 深度评测报告
> 发布日期:2026-04-24 | 报告更新:2026-04-26
> 模型:DeepSeek V4-Pro、DeepSeek V4-Flash
> 许可证:MIT(完全开源)
一、概述
2026 年 4 月 24 日,中国 AI 实验室 DeepSeek 发布了备受期待的 V4 系列预览版,包含两个模型:
| 模型 | 总参数 | 激活参数 | 上下文窗口 | 最大输出 |
|---|---|---|---|---|
| **V4-Pro** | 1.6T | 49B | 1M tokens | 384K tokens |
| **V4-Flash** | 284B | 13B | 1M tokens | 384K tokens |
V4-Pro 是目前最大的开源权重模型,超过了 Kimi K2.6(1.1T)、GLM-5.1(754B),是 DeepSeek V3.2(685B)的两倍以上。(Simon Willison)
两个模型均采用 Mixture-of-Experts (MoE) 架构,支持 1M token 上下文窗口(约等于三部《指环王》+《霍比特人》的文本量),均可在 chat.deepseek.com 和 DeepSeek API 上使用。
来源:DeepSeek API Docs、TechCrunch
二、架构创新
DeepSeek V4 引入了三项关键架构创新,解释了其如何在保持接近前沿性能的同时大幅降低推理成本:
1. CSA + HCA 混合注意力机制
- CSA(Compressed Sparse Attention):每 m 个 token 的 KV cache 压缩为一个条目,然后应用 DeepSeek Sparse Attention (DSA),每个 query token 只关注 top-k 选择的压缩 KV 条目
- HCA(Heavily Compressed Attention):对容许更大近似的层采用更强的压缩
- 效果:在 1M token 上下文下,V4-Pro 仅需 V3.2 的 27% 单 token FLOPs 和 10% KV cache;V4-Flash 更是仅需 10% FLOPs 和 7% KV cache
来源:Codersera、MIT Technology Review
2. 流形约束超连接(mHC)
替代标准残差连接,将残差投影到学习到的流形上,改善深层网络的梯度传播和表示质量,提高训练稳定性。
来源:Codersera
3. Muon 优化器
使用 Newton-Schulz 迭代近似正交化梯度更新矩阵,相比 AdamW 产生更快的收敛速度和更好的训练稳定性,对 1.6T 参数模型的训练至关重要。
来源:Codersera
三、基准测试表现
V4-Pro Max(最大推理力度)
| 基准测试 | DeepSeek V4-Pro Max | 说明 |
|---|---|---|
| **MMLU-Pro** | 87.5 | 研究生级别跨领域知识 |
| **GPQA Diamond** | 90.1 | 博士级科学问题 |
| **LiveCodeBench** | 93.5 | 竞赛编程(未见题) |
| **SWE-bench Verified** | 80.6 | 真实 GitHub issue 解决 |
| **Codeforces Rating** | 3206 | 竞赛编程 ELO(top 0.03%) |
| **HMMT** | 95.2 | 哈佛-麻省理工数学竞赛 |
| **BrowseComp** | 83.4 | 多步网络研究 |
来源:Codersera
V4-Flash
| 基准测试 | DeepSeek V4-Flash |
|---|---|
| MMLU-Pro | 86.2 |
| GPQA Diamond | 88.1 |
| LiveCodeBench | 91.6 |
| SWE-bench Verified | 79.0 |
| Codeforces Rating | 3052 |
来源:Codersera
第三方评测平台
- Artificial Analysis Intelligence Index:V4-Pro 得分 52/100,在开源模型中排名第 2(共 7652 个模型),仅次于闭源前沿模型 (Artificial Analysis)
- BenchLM.ai:V4-Pro 在知识和理解基准测试中排名 #58/115,平均分 52.3 (BenchLM)
- SWE-bench(vals.ai):V4 排名与 Claude Opus 4.5、GPT 5.2、Gemini 3 Pro 等处于同一梯队(88% 级别)(Vals.ai)
DeepSeek 在技术报告中坦诚指出:V4-Pro-Max 在标准推理基准上超过 GPT-5.2 和 Gemini-3.0-Pro,但略逊于 GPT-5.4 和 Gemini-3.1-Pro,"发展轨迹落后最前沿模型约 3-6 个月"。
四、竞品对比
性能对比
| 维度 | DeepSeek V4-Pro | Claude Opus 4.7 | GPT-5.5 | Gemini 3.1 Pro | Claude Sonnet 4.6 |
|---|---|---|---|---|---|
| **SWE-bench** | 80.6 | ~80.8 | ~82 | ~79 | ~76 |
| **编码能力** | 顶尖(开源 SOTA) | 顶尖 | 顶尖 | 优秀 | 优秀 |
| **数学/STEM** | 顶尖(开源最强) | 顶尖 | 顶尖 | 优秀 | 良好 |
| **世界知识** | 开源最强,仅次于 Gemini-3.1-Pro | 优秀 | 优秀 | 最强 | 良好 |
| **多模态** | ❌ 仅文本 | ✅ | ✅ | ✅ | ✅ |
来源:MIT Technology Review、Mashable
价格对比(API 定价)
| 模型 | 输入 ($/M tokens) | 输出 ($/M tokens) |
|---|---|---|
| **DeepSeek V4-Flash** | **$0.14** | **$0.28** |
| GPT-5.4 Nano | $0.20 | $1.25 |
| Gemini 3.1 Flash-Lite | $0.25 | $1.50 |
| Gemini 3 Flash Preview | $0.50 | $3.00 |
| GPT-5.4 Mini | $0.75 | $4.50 |
| Claude Haiku 4.5 | $1.00 | $5.00 |
| **DeepSeek V4-Pro** | **$1.74** | **$3.48** |
| Gemini 3.1 Pro | $2.00 | $12.00 |
| GPT-5.4 | $2.50 | $15.00 |
| Claude Sonnet 4.6 | $3.00 | $15.00 |
| Claude Opus 4.7 | $5.00 | $25.00 |
| GPT-5.5 | $5.00 | $30.00 |
关键结论:
- V4-Flash 是所有模型中最便宜的,甚至低于 GPT-5.4 Nano
- V4-Pro 是大型前沿模型中最便宜的,约为 GPT-5.5 的 1/7,Claude Opus 4.7 的 1/6
- 同等任务成本:DeepSeek V4 $5.22 vs GPT-5.5 $35,节省约 85%
来源:Simon Willison、Mashable、Codersera
与其他开源模型对比
相比其他开源模型(Qwen-3.5、GLM-5.1、Kimi K2.6),DeepSeek V4 在编码、数学、STEM 问题上全面超越,是目前最强的开源模型。
五、开发者体验与 Agent 集成
- API 兼容性:OpenAI ChatCompletions & Anthropic API 双兼容,只需更改 base_url 和 model 名称
- Agent 优化:DeepSeek 明确表示 V4 针对 Claude Code、OpenClaw、OpenCode 等 Agent 框架进行了专门优化
- 推理模式:支持 Thinking(思维链推理)和 Non-Thinking 两种模式
- 内部调查:85 名资深开发者调查中,超过 90% 将 V4-Pro 列为编码任务的首选模型之一
- Day-0 支持:LMSYS/SGLang 在发布当天即提供推理和 RL 训练支持,包括 HiSparse CPU 扩展 KV cache、ShadowRadix 前缀缓存、推测解码等 (LMSYS Blog)
来源:DeepSeek API Docs、MIT Technology Review、LMSYS Blog
六、硬件与地缘政治意义
V4 是 DeepSeek 首个针对国产芯片优化的模型:
- 华为 Ascend 950 系列已支持 V4 推理
- DeepSeek 未向 Nvidia 和 AMD 提供预发布访问权限,仅提供给中国芯片厂商
- 推理已可在华为芯片上运行,但训练可能仍主要依赖 Nvidia
- V4-Pro 价格预计在华为 Ascend 950 超级节点大规模出货后(2026 下半年)进一步下降
来源:MIT Technology Review、Reddit r/DeepSeek
七、社区反响
正面评价
- 编码能力获广泛认可:"Deepseek V4 Pro only needed the correct harness and prompts. Amazing output." (Reddit r/DeepSeek)
- V4-Flash 性价比极高:"Crazy fast, 100 to 150 TPS, super good" (Reddit r/opencodeCLI)
- 可靠性接近 Claude:"Deepseek gives me the reliability of claude while I cannot say the same for kimi and GLM" (Reddit r/DeepSeek)
- 实际使用成本极低:"Deepseek flash cost 99% less than Opus 4.7, for similar results" (Reddit r/singularity)
- 创意写作质量好:"The prose reads nice and it's noticeably different from Claude" (Reddit r/SillyTavernAI)
- 架构创新受技术社区赞赏:r/LocalLLaMA 对 CSA+HCA 混合注意力机制的讨论非常热烈 (Reddit r/LocalLLaMA)
负面/批评
- 指令遵循不稳定:"It is a bit of a russian roulette, it dislikes following instructions, gets into repetition cycles a lot" (Reddit r/SillyTavernAI)
- V3.2 用户反馈退步:有用户反映 V4 在简单聊天机器人场景下不如 V3.2 reasoner 遵循指令 (Reddit r/DeepSeek)
- 细节丢失:"It tends to lose details a bit more easy than Claude" (Reddit r/SillyTavernAI)
- Arena 排行榜尚未领先:在 Arena 和 Artificial Analysis 排行榜上暂时落后于顶级闭源模型 (Mashable)
- 仅支持文本:V4 不支持多模态(音频、视频、图片),而大多数闭源竞品已支持 (TechCrunch)
- 蒸馏争议:Anthropic 和 OpenAI 曾指控 DeepSeek 蒸馏他们的模型 (TechCrunch)
八、总结与建议
优势
1. 极致性价比:V4-Flash 是市场上最便宜的优质模型,V4-Pro 是大型模型中最便宜的选择
2. 开源 MIT 许可:完全免费商用,权重可在 Hugging Face 下载
3. 架构创新:CSA+HCA 混合注意力在长上下文效率上实现质的飞跃
4. 编码能力突出:开源 SOTA,接近 Claude Opus 4.6 水平
5. Agent 友好:专门针对 Claude Code、OpenClaw 等框架优化
6. 1M 上下文窗口:已成为 DeepSeek 所有服务的默认配置
劣势
1. 知识测试略逊:落后 GPT-5.4 和 Gemini-3.1-Pro 约 3-6 个月
2. 仅文本模态:不支持多模态输入输出
3. 指令遵循不稳定:部分用户反映 V4 不如 V3.2 稳定
4. Pro 模型本地部署门槛高:1.6T 参数需要集群级硬件
5. 第三方独立评测仍在进行:LMSYS Arena 排名尚未完全确定
使用建议
- 新项目:从 V4-Flash 开始,仅在特定任务上发现质量差距时升级到 Pro
- 现有 V3.2 用户:建议迁移,API 兼容,长上下文效率提升显著
- 自部署:V4-Flash 是实用目标,V4-Pro 建议使用 DeepSeek API
- 编程助手:V4-Pro 是当前最佳开源选择之一,性价比极高
九、社区用户评价(补充)
> 更新时间:2026-04-27 | 数据来源:V2EX、Hacker News、Reddit
Hacker News 讨论(2050 upvotes, 1574 评论)
HN 上关于 DeepSeek V4 的讨论极其热烈,是最受关注的 AI 帖子之一。核心观点:
数学/研究能力:
- 一位研究者测试了 V4-Pro 在硕士/博士级别的概率统计问题上的表现,配合 2-6 篇论文上下文,认为 V4 在前沿数学研究场景下表现出色
- 另一位用户指出 DeepSeek 在数学领域已领先约一年,拥有专门的 DeepSeek-Math-V2 和 DeepSeek-Prover-V2-671B 模型
- 有用户认为不应盲目信任 LLM 的计算能力,建议配合 Wolfram Alpha MCP 端点使用
- GPT-5.5 在相同测试中"更快地获得了令人印象深刻的洞察",但在输出严谨证明方面仍有困难
编码能力对比:
- "DeepSeek V4-Pro 大致与 Opus 4.6 持平,Kimi K2.6 在 Agent/Coding 基准上略胜一筹,Opus 4.7 在几乎所有方面超越它(除网络搜索外)"
- "Claude 在偏离 HTTP 处理(现代 Web 应用栈)时表现不佳"
- "V4-Pro Max 在竞争性编程基准测试中表现突出,但在软件工程任务上落后于两个 Opus 模型"
本地部署讨论:
- 有用户展示在本地运行量化后的 671B 模型(DeepSeek-Math-V2、GLM5.1、Kimi2.6 等),模型文件 300-550GB
- V4-Pro 全精度运行需要 16-24 块 H100
- V4-Flash 约 160GB,更实用
- Simon Willison 介绍了"流式专家"技巧:利用 MoE 稀疏性从 SSD 加载权重到 RAM
OpenRouter 集成:
- V4-Pro 和 V4-Flash 已上线 OpenRouter
- V4-Flash 在 OpenRouter 上比 Gemma 4 31b 略便宜,支持 prompt caching,某些应用场景下最便宜
- 目前不支持 Anthropic 端点格式(Claude Code 用户暂时无法直接使用)
其他评价:
- "Vibes > Benchmarks。Gemini 3 在基准测试上长期表现很好但 Agent 场景表现差。很多人在编码上偏好 Opus 4.6 而非 4.7"
- "Opus 4.7 似乎出了问题,无法理解代码,一要求修改就破坏代码"
- "DeepSeek 确实能省钱"
来源:HN - DeepSeek v4 (47884971)
V2EX 社区讨论
V2EX 上出现了多个热门帖子,总计数百条回复:
帖子 1:「DeepSeek V4 终于出来了。。不知道强不强」(8077 点击, 57 回复)
- JoeJoeJoe: "如果可以本地部署的话,我觉得还是很香的"
- rammiah: "好像不支持多模态啊"
- Mrun: "我记得他们之前就说过,会专注文本类。不会浪费资源去搞多模态"
- blirun: "没有多模态,怎么写 UI?"
- dingawm: "不支持多模态,写 UI 没办法参考图片。倒是也能通过让其他支持多模态的模型'转译'一下,但是这样又太麻烦了"
- mightybruce: "1.6T 还想什么本地部署,现在应该等待腾讯、阿里、字节云上线有 DeepSeek V4 的代码套餐"
帖子 2:「DeepSeek V4 Pro 天气卡片效果一般」(11373 点击, 123 回复)
- 作者 dingawm 用天气卡片生成测试了 V4-Pro 的前端能力,认为"太简陋了"
- 作者后续承认评价"太武断",单个测试不能说明问题
- 作者认为 Kimi 2.6 目前国产模型中编程写前端第一
- 有用户对比了 Gemini Pro 和 DeepSeek V4 的效果
- 作者在附言中提到:"即使国产模型还没到 Opus 4.6 的级别,但是好歹 OpenAI 的新模型到了,不用再看 A 的脸色了"
帖子 3:「国产模型编程能力排名」(2480 点击, 30 回复)
- 作者 junwind 用"生成天气查询 H5 应用"为测试案例,对比了 GLM5.1、Kimi2.6、MiniMax2.7、MiMo V2.5、DeepSeek V4、Qwen3.5/3.6
- 最终排名:GLM5.7 ≥ Kimi2.6 ≥ DeepSeek V4 > MiMo V2.5 > Qwen > MiniMax
- 作者总结:"国产模型第一梯队 GLM、Kimi,第二梯队 DeepSeek、MiMo,第三梯队 Qwen、MiniMax"
- MiniMax 被多名用户嘲讽:"不配上榜"、"夸张点说 4B 模型水平"、"minimax 已经完全龙虾了,2.7 真的废了"
- onedge: "GLM 5.1 > DS V4 = Kimi 2.6 > mimo v2.5 > minimax 2.7"
帖子 4:「DeepSeek V4 上线了!之前难产真是适配昇腾?」(1179 点击)
- 引用了官方说法:V4-Pro 的 Agent 能力"使用体验优于 Sonnet 4.5,交付质量接近 Opus 4.6 非思考模式,但仍与 Opus 4.6 思考模式存在一定差距"
- 推测延迟发布与适配华为昇腾芯片有关
- "受限于高端算力,Pro 的服务吞吐十分有限,预计下半年昇腾 950 超节点批量上市后,Pro 的价格会大幅下调"
帖子 5:「DeepSeek V4 发布对美股冲击」(640+ 点击)
- 用户担忧持有纳斯达克定投:"模型除非有断崖差距,不然价格是影响选择的很重要的因素,拖到后期拼电力拼 token 价格美国不得完蛋啊"
Reddit 补充评价
- r/DeepSeek: "DeepSeek gives me the reliability of Claude while I cannot say the same for Kimi and GLM"
- r/opencodeCLI: "DeepSeek V4 Flash is a monster. Cheap, good, and so fast — 100 to 150 TPS"
- r/SillyTavernAI: "The prose reads nice and it's noticeably different from Claude" / 但也有批评:"It is a bit of a russian roulette, it dislikes following instructions, gets into repetition cycles a lot"
- r/LocalLLaMA: 对 CSA+HCA 架构创新讨论热烈,V4-Pro 需 16-24 块 H100 全精度运行
- r/singularity: "DeepSeek Flash cost 99% less than Opus 4.7, for similar results"
社区评价综合
| 维度 | 社区共识 |
|---|---|
| **编码能力** | 开源最强之一,但 GLM5.7 和 Kimi2.6 在某些场景(尤其是前端)表现更好 |
| **数学/STEM** | 高度认可,研究场景表现出色 |
| **前端/UI** | 不支持多模态是明显短板,无法参考图片写 UI |
| **性价比** | 一致好评,V4-Flash 被称为"怪物级"性价比 |
| **稳定性** | 部分用户反映指令遵循不如 V3.2,存在重复循环问题 |
| **Agent 能力** | 优于 Sonnet 4.5,接近 Opus 4.6 非思考模式 |
| **vs Claude** | 可靠性接近 Claude,但 Opus 4.7 在复杂任务上仍有优势 |
| **vs GPT-5.5** | 编码能力有竞争力,GPT-5.5 在获得洞察方面更快 |
| **本地部署** | V4-Flash 可行(~160GB),V4-Pro 需集群级硬件 |
| **国产模型排名** | 第一梯队:GLM5.7、Kimi2.6;第二梯队:DeepSeek V4、MiMo V2.5 |
参考来源
- DeepSeek 官方 API 文档
- HuggingFace - DeepSeek V4-Pro
- HuggingFace - DeepSeek V4-Flash
- DeepSeek V4 技术报告 (PDF)
- Simon Willison - DeepSeek V4: almost on the frontier, a fraction of the price
- TechCrunch - DeepSeek previews new AI model that 'closes the gap' with frontier models
- MIT Technology Review - Three reasons why DeepSeek's new model matters
- Mashable - DeepSeek V4 is here: How it compares to ChatGPT, Claude, Gemini
- Codersera - DeepSeek V4: Features, Benchmarks & API Pricing
- LMSYS Blog - DeepSeek-V4 on Day 0
- Artificial Analysis - DeepSeek V4 Pro
- BenchLM.ai - DeepSeek V4 Pro
- Reddit r/DeepSeek - Community Discussion
- Reddit r/LocalLLaMA - Architecture Discussion
- Reddit r/SillyTavernAI - Model Discussion
- Reddit r/opencodeCLI - V4 Flash Experience