description: "DeepSeek V4 Pro & Flash 全面评测:架构创新、基准测试、竞品对比、价格分析与社区反响"

DeepSeek V4 深度评测报告

> 发布日期:2026-04-24 | 报告更新:2026-04-26

> 模型:DeepSeek V4-Pro、DeepSeek V4-Flash

> 许可证:MIT(完全开源)

一、概述

2026 年 4 月 24 日,中国 AI 实验室 DeepSeek 发布了备受期待的 V4 系列预览版,包含两个模型:

模型总参数激活参数上下文窗口最大输出
**V4-Pro**1.6T49B1M tokens384K tokens
**V4-Flash**284B13B1M tokens384K tokens

V4-Pro 是目前最大的开源权重模型,超过了 Kimi K2.6(1.1T)、GLM-5.1(754B),是 DeepSeek V3.2(685B)的两倍以上。(Simon Willison)

两个模型均采用 Mixture-of-Experts (MoE) 架构,支持 1M token 上下文窗口(约等于三部《指环王》+《霍比特人》的文本量),均可在 chat.deepseek.com 和 DeepSeek API 上使用。

来源:DeepSeek API DocsTechCrunch

二、架构创新

DeepSeek V4 引入了三项关键架构创新,解释了其如何在保持接近前沿性能的同时大幅降低推理成本:

1. CSA + HCA 混合注意力机制

来源:CoderseraMIT Technology Review

2. 流形约束超连接(mHC)

替代标准残差连接,将残差投影到学习到的流形上,改善深层网络的梯度传播和表示质量,提高训练稳定性。

来源:Codersera

3. Muon 优化器

使用 Newton-Schulz 迭代近似正交化梯度更新矩阵,相比 AdamW 产生更快的收敛速度和更好的训练稳定性,对 1.6T 参数模型的训练至关重要。

来源:Codersera

三、基准测试表现

V4-Pro Max(最大推理力度)

基准测试DeepSeek V4-Pro Max说明
**MMLU-Pro**87.5研究生级别跨领域知识
**GPQA Diamond**90.1博士级科学问题
**LiveCodeBench**93.5竞赛编程(未见题)
**SWE-bench Verified**80.6真实 GitHub issue 解决
**Codeforces Rating**3206竞赛编程 ELO(top 0.03%)
**HMMT**95.2哈佛-麻省理工数学竞赛
**BrowseComp**83.4多步网络研究

来源:Codersera

V4-Flash

基准测试DeepSeek V4-Flash
MMLU-Pro86.2
GPQA Diamond88.1
LiveCodeBench91.6
SWE-bench Verified79.0
Codeforces Rating3052

来源:Codersera

第三方评测平台

DeepSeek 在技术报告中坦诚指出:V4-Pro-Max 在标准推理基准上超过 GPT-5.2 和 Gemini-3.0-Pro,但略逊于 GPT-5.4 和 Gemini-3.1-Pro,"发展轨迹落后最前沿模型约 3-6 个月"。

来源:Simon Willison

四、竞品对比

性能对比

维度DeepSeek V4-ProClaude Opus 4.7GPT-5.5Gemini 3.1 ProClaude Sonnet 4.6
**SWE-bench**80.6~80.8~82~79~76
**编码能力**顶尖(开源 SOTA)顶尖顶尖优秀优秀
**数学/STEM**顶尖(开源最强)顶尖顶尖优秀良好
**世界知识**开源最强,仅次于 Gemini-3.1-Pro优秀优秀最强良好
**多模态**❌ 仅文本

来源:MIT Technology ReviewMashable

价格对比(API 定价)

模型输入 ($/M tokens)输出 ($/M tokens)
**DeepSeek V4-Flash****$0.14****$0.28**
GPT-5.4 Nano$0.20$1.25
Gemini 3.1 Flash-Lite$0.25$1.50
Gemini 3 Flash Preview$0.50$3.00
GPT-5.4 Mini$0.75$4.50
Claude Haiku 4.5$1.00$5.00
**DeepSeek V4-Pro****$1.74****$3.48**
Gemini 3.1 Pro$2.00$12.00
GPT-5.4$2.50$15.00
Claude Sonnet 4.6$3.00$15.00
Claude Opus 4.7$5.00$25.00
GPT-5.5$5.00$30.00

关键结论

来源:Simon WillisonMashableCodersera

与其他开源模型对比

相比其他开源模型(Qwen-3.5、GLM-5.1、Kimi K2.6),DeepSeek V4 在编码、数学、STEM 问题上全面超越,是目前最强的开源模型。

来源:MIT Technology Review

五、开发者体验与 Agent 集成

来源:DeepSeek API DocsMIT Technology ReviewLMSYS Blog

六、硬件与地缘政治意义

V4 是 DeepSeek 首个针对国产芯片优化的模型

来源:MIT Technology ReviewReddit r/DeepSeek

七、社区反响

正面评价

负面/批评

八、总结与建议

优势

1. 极致性价比:V4-Flash 是市场上最便宜的优质模型,V4-Pro 是大型模型中最便宜的选择

2. 开源 MIT 许可:完全免费商用,权重可在 Hugging Face 下载

3. 架构创新:CSA+HCA 混合注意力在长上下文效率上实现质的飞跃

4. 编码能力突出:开源 SOTA,接近 Claude Opus 4.6 水平

5. Agent 友好:专门针对 Claude Code、OpenClaw 等框架优化

6. 1M 上下文窗口:已成为 DeepSeek 所有服务的默认配置

劣势

1. 知识测试略逊:落后 GPT-5.4 和 Gemini-3.1-Pro 约 3-6 个月

2. 仅文本模态:不支持多模态输入输出

3. 指令遵循不稳定:部分用户反映 V4 不如 V3.2 稳定

4. Pro 模型本地部署门槛高:1.6T 参数需要集群级硬件

5. 第三方独立评测仍在进行:LMSYS Arena 排名尚未完全确定

使用建议

九、社区用户评价(补充)

> 更新时间:2026-04-27 | 数据来源:V2EX、Hacker News、Reddit

Hacker News 讨论(2050 upvotes, 1574 评论)

HN 上关于 DeepSeek V4 的讨论极其热烈,是最受关注的 AI 帖子之一。核心观点:

数学/研究能力:

编码能力对比:

本地部署讨论:

OpenRouter 集成:

其他评价:

来源:HN - DeepSeek v4 (47884971)

V2EX 社区讨论

V2EX 上出现了多个热门帖子,总计数百条回复:

帖子 1:「DeepSeek V4 终于出来了。。不知道强不强」(8077 点击, 57 回复)

来源:V2EX t/1208225

帖子 2:「DeepSeek V4 Pro 天气卡片效果一般」(11373 点击, 123 回复)

来源:V2EX t/1208250

帖子 3:「国产模型编程能力排名」(2480 点击, 30 回复)

来源:V2EX t/1208616

帖子 4:「DeepSeek V4 上线了!之前难产真是适配昇腾?」(1179 点击)

来源:V2EX t/1208247

帖子 5:「DeepSeek V4 发布对美股冲击」(640+ 点击)

来源:V2EX t/1208350

Reddit 补充评价

社区评价综合

维度社区共识
**编码能力**开源最强之一,但 GLM5.7 和 Kimi2.6 在某些场景(尤其是前端)表现更好
**数学/STEM**高度认可,研究场景表现出色
**前端/UI**不支持多模态是明显短板,无法参考图片写 UI
**性价比**一致好评,V4-Flash 被称为"怪物级"性价比
**稳定性**部分用户反映指令遵循不如 V3.2,存在重复循环问题
**Agent 能力**优于 Sonnet 4.5,接近 Opus 4.6 非思考模式
**vs Claude**可靠性接近 Claude,但 Opus 4.7 在复杂任务上仍有优势
**vs GPT-5.5**编码能力有竞争力,GPT-5.5 在获得洞察方面更快
**本地部署**V4-Flash 可行(~160GB),V4-Pro 需集群级硬件
**国产模型排名**第一梯队:GLM5.7、Kimi2.6;第二梯队:DeepSeek V4、MiMo V2.5

参考来源