description: "DeepSeek V4 Pro & Flash 全面评测：架构创新、基准测试、竞品对比、价格分析与社区反响"

DeepSeek V4 深度评测报告

> 发布日期：2026-04-24 | 报告更新：2026-04-26

> 模型：DeepSeek V4-Pro、DeepSeek V4-Flash

> 许可证：MIT（完全开源）

一、概述

2026 年 4 月 24 日，中国 AI 实验室 DeepSeek 发布了备受期待的 V4 系列预览版，包含两个模型：

模型	总参数	激活参数	上下文窗口	最大输出
V4-Pro	1.6T	49B	1M tokens	384K tokens
V4-Flash	284B	13B	1M tokens	384K tokens

V4-Pro 是目前最大的开源权重模型，超过了 Kimi K2.6（1.1T）、GLM-5.1（754B），是 DeepSeek V3.2（685B）的两倍以上。(Simon Willison)

两个模型均采用 Mixture-of-Experts (MoE) 架构，支持 1M token 上下文窗口（约等于三部《指环王》+《霍比特人》的文本量），均可在 chat.deepseek.com 和 DeepSeek API 上使用。

来源：DeepSeek API Docs、TechCrunch

二、架构创新

DeepSeek V4 引入了三项关键架构创新，解释了其如何在保持接近前沿性能的同时大幅降低推理成本：

1. CSA + HCA 混合注意力机制

CSA（Compressed Sparse Attention）：每 m 个 token 的 KV cache 压缩为一个条目，然后应用 DeepSeek Sparse Attention (DSA)，每个 query token 只关注 top-k 选择的压缩 KV 条目
HCA（Heavily Compressed Attention）：对容许更大近似的层采用更强的压缩
效果：在 1M token 上下文下，V4-Pro 仅需 V3.2 的 27% 单 token FLOPs 和 10% KV cache；V4-Flash 更是仅需 10% FLOPs 和 7% KV cache

来源：Codersera、MIT Technology Review

2. 流形约束超连接（mHC）

替代标准残差连接，将残差投影到学习到的流形上，改善深层网络的梯度传播和表示质量，提高训练稳定性。

来源：Codersera

3. Muon 优化器

使用 Newton-Schulz 迭代近似正交化梯度更新矩阵，相比 AdamW 产生更快的收敛速度和更好的训练稳定性，对 1.6T 参数模型的训练至关重要。

来源：Codersera

三、基准测试表现

V4-Pro Max（最大推理力度）

基准测试	DeepSeek V4-Pro Max	说明
MMLU-Pro	87.5	研究生级别跨领域知识
GPQA Diamond	90.1	博士级科学问题
LiveCodeBench	93.5	竞赛编程（未见题）
SWE-bench Verified	80.6	真实 GitHub issue 解决
Codeforces Rating	3206	竞赛编程 ELO（top 0.03%）
HMMT	95.2	哈佛-麻省理工数学竞赛
BrowseComp	83.4	多步网络研究

来源：Codersera

V4-Flash

基准测试	DeepSeek V4-Flash
MMLU-Pro	86.2
GPQA Diamond	88.1
LiveCodeBench	91.6
SWE-bench Verified	79.0
Codeforces Rating	3052

来源：Codersera

第三方评测平台

Artificial Analysis Intelligence Index：V4-Pro 得分 52/100，在开源模型中排名第 2（共 7652 个模型），仅次于闭源前沿模型 (Artificial Analysis)
BenchLM.ai：V4-Pro 在知识和理解基准测试中排名 #58/115，平均分 52.3 (BenchLM)
SWE-bench（vals.ai）：V4 排名与 Claude Opus 4.5、GPT 5.2、Gemini 3 Pro 等处于同一梯队（88% 级别）(Vals.ai)

DeepSeek 在技术报告中坦诚指出：V4-Pro-Max 在标准推理基准上超过 GPT-5.2 和 Gemini-3.0-Pro，但略逊于 GPT-5.4 和 Gemini-3.1-Pro，"发展轨迹落后最前沿模型约 3-6 个月"。

来源：Simon Willison

四、竞品对比

性能对比

维度	DeepSeek V4-Pro	Claude Opus 4.7	GPT-5.5	Gemini 3.1 Pro	Claude Sonnet 4.6
SWE-bench	80.6	~80.8	~82	~79	~76
编码能力	顶尖（开源 SOTA）	顶尖	顶尖	优秀	优秀
数学/STEM	顶尖（开源最强）	顶尖	顶尖	优秀	良好
世界知识	开源最强，仅次于 Gemini-3.1-Pro	优秀	优秀	最强	良好
多模态	❌ 仅文本	✅	✅	✅	✅

来源：MIT Technology Review、Mashable

价格对比（API 定价）

模型	输入 ($/M tokens)	输出 ($/M tokens)
DeepSeek V4-Flash	$0.14	$0.28
GPT-5.4 Nano	$0.20	$1.25
Gemini 3.1 Flash-Lite	$0.25	$1.50
Gemini 3 Flash Preview	$0.50	$3.00
GPT-5.4 Mini	$0.75	$4.50
Claude Haiku 4.5	$1.00	$5.00
DeepSeek V4-Pro	$1.74	$3.48
Gemini 3.1 Pro	$2.00	$12.00
GPT-5.4	$2.50	$15.00
Claude Sonnet 4.6	$3.00	$15.00
Claude Opus 4.7	$5.00	$25.00
GPT-5.5	$5.00	$30.00

关键结论：

V4-Flash 是所有模型中最便宜的，甚至低于 GPT-5.4 Nano
V4-Pro 是大型前沿模型中最便宜的，约为 GPT-5.5 的 1/7，Claude Opus 4.7 的 1/6
同等任务成本：DeepSeek V4 $5.22 vs GPT-5.5 $35，节省约 85%

来源：Simon Willison、Mashable、Codersera

与其他开源模型对比

相比其他开源模型（Qwen-3.5、GLM-5.1、Kimi K2.6），DeepSeek V4 在编码、数学、STEM 问题上全面超越，是目前最强的开源模型。

来源：MIT Technology Review

五、开发者体验与 Agent 集成

API 兼容性：OpenAI ChatCompletions & Anthropic API 双兼容，只需更改 base_url 和 model 名称
Agent 优化：DeepSeek 明确表示 V4 针对 Claude Code、OpenClaw、OpenCode 等 Agent 框架进行了专门优化
推理模式：支持 Thinking（思维链推理）和 Non-Thinking 两种模式
内部调查：85 名资深开发者调查中，超过 90% 将 V4-Pro 列为编码任务的首选模型之一
Day-0 支持：LMSYS/SGLang 在发布当天即提供推理和 RL 训练支持，包括 HiSparse CPU 扩展 KV cache、ShadowRadix 前缀缓存、推测解码等 (LMSYS Blog)

来源：DeepSeek API Docs、MIT Technology Review、LMSYS Blog

六、硬件与地缘政治意义

V4 是 DeepSeek 首个针对国产芯片优化的模型：

华为 Ascend 950 系列已支持 V4 推理
DeepSeek 未向 Nvidia 和 AMD 提供预发布访问权限，仅提供给中国芯片厂商
推理已可在华为芯片上运行，但训练可能仍主要依赖 Nvidia
V4-Pro 价格预计在华为 Ascend 950 超级节点大规模出货后（2026 下半年）进一步下降

来源：MIT Technology Review、Reddit r/DeepSeek

七、社区反响

正面评价

编码能力获广泛认可："Deepseek V4 Pro only needed the correct harness and prompts. Amazing output." (Reddit r/DeepSeek)
V4-Flash 性价比极高："Crazy fast, 100 to 150 TPS, super good" (Reddit r/opencodeCLI)
可靠性接近 Claude："Deepseek gives me the reliability of claude while I cannot say the same for kimi and GLM" (Reddit r/DeepSeek)
实际使用成本极低："Deepseek flash cost 99% less than Opus 4.7, for similar results" (Reddit r/singularity)
创意写作质量好："The prose reads nice and it's noticeably different from Claude" (Reddit r/SillyTavernAI)
架构创新受技术社区赞赏：r/LocalLLaMA 对 CSA+HCA 混合注意力机制的讨论非常热烈 (Reddit r/LocalLLaMA)

负面/批评

指令遵循不稳定："It is a bit of a russian roulette, it dislikes following instructions, gets into repetition cycles a lot" (Reddit r/SillyTavernAI)
V3.2 用户反馈退步：有用户反映 V4 在简单聊天机器人场景下不如 V3.2 reasoner 遵循指令 (Reddit r/DeepSeek)
细节丢失："It tends to lose details a bit more easy than Claude" (Reddit r/SillyTavernAI)
Arena 排行榜尚未领先：在 Arena 和 Artificial Analysis 排行榜上暂时落后于顶级闭源模型 (Mashable)
仅支持文本：V4 不支持多模态（音频、视频、图片），而大多数闭源竞品已支持 (TechCrunch)
蒸馏争议：Anthropic 和 OpenAI 曾指控 DeepSeek 蒸馏他们的模型 (TechCrunch)

八、总结与建议

优势

1. 极致性价比：V4-Flash 是市场上最便宜的优质模型，V4-Pro 是大型模型中最便宜的选择

2. 开源 MIT 许可：完全免费商用，权重可在 Hugging Face 下载

3. 架构创新：CSA+HCA 混合注意力在长上下文效率上实现质的飞跃

4. 编码能力突出：开源 SOTA，接近 Claude Opus 4.6 水平

5. Agent 友好：专门针对 Claude Code、OpenClaw 等框架优化

6. 1M 上下文窗口：已成为 DeepSeek 所有服务的默认配置

劣势

1. 知识测试略逊：落后 GPT-5.4 和 Gemini-3.1-Pro 约 3-6 个月

2. 仅文本模态：不支持多模态输入输出

3. 指令遵循不稳定：部分用户反映 V4 不如 V3.2 稳定

4. Pro 模型本地部署门槛高：1.6T 参数需要集群级硬件

5. 第三方独立评测仍在进行：LMSYS Arena 排名尚未完全确定

使用建议

新项目：从 V4-Flash 开始，仅在特定任务上发现质量差距时升级到 Pro
现有 V3.2 用户：建议迁移，API 兼容，长上下文效率提升显著
自部署：V4-Flash 是实用目标，V4-Pro 建议使用 DeepSeek API
编程助手：V4-Pro 是当前最佳开源选择之一，性价比极高

九、社区用户评价（补充）

> 更新时间：2026-04-27 | 数据来源：V2EX、Hacker News、Reddit

Hacker News 讨论（2050 upvotes, 1574 评论）

HN 上关于 DeepSeek V4 的讨论极其热烈，是最受关注的 AI 帖子之一。核心观点：

数学/研究能力：

一位研究者测试了 V4-Pro 在硕士/博士级别的概率统计问题上的表现，配合 2-6 篇论文上下文，认为 V4 在前沿数学研究场景下表现出色
另一位用户指出 DeepSeek 在数学领域已领先约一年，拥有专门的 DeepSeek-Math-V2 和 DeepSeek-Prover-V2-671B 模型
有用户认为不应盲目信任 LLM 的计算能力，建议配合 Wolfram Alpha MCP 端点使用
GPT-5.5 在相同测试中"更快地获得了令人印象深刻的洞察"，但在输出严谨证明方面仍有困难

编码能力对比：

"DeepSeek V4-Pro 大致与 Opus 4.6 持平，Kimi K2.6 在 Agent/Coding 基准上略胜一筹，Opus 4.7 在几乎所有方面超越它（除网络搜索外）"
"Claude 在偏离 HTTP 处理（现代 Web 应用栈）时表现不佳"
"V4-Pro Max 在竞争性编程基准测试中表现突出，但在软件工程任务上落后于两个 Opus 模型"

本地部署讨论：

有用户展示在本地运行量化后的 671B 模型（DeepSeek-Math-V2、GLM5.1、Kimi2.6 等），模型文件 300-550GB
V4-Pro 全精度运行需要 16-24 块 H100
V4-Flash 约 160GB，更实用
Simon Willison 介绍了"流式专家"技巧：利用 MoE 稀疏性从 SSD 加载权重到 RAM

OpenRouter 集成：

V4-Pro 和 V4-Flash 已上线 OpenRouter
V4-Flash 在 OpenRouter 上比 Gemma 4 31b 略便宜，支持 prompt caching，某些应用场景下最便宜
目前不支持 Anthropic 端点格式（Claude Code 用户暂时无法直接使用）

其他评价：

"Vibes > Benchmarks。Gemini 3 在基准测试上长期表现很好但 Agent 场景表现差。很多人在编码上偏好 Opus 4.6 而非 4.7"
"Opus 4.7 似乎出了问题，无法理解代码，一要求修改就破坏代码"
"DeepSeek 确实能省钱"

来源：HN - DeepSeek v4 (47884971)

V2EX 社区讨论

V2EX 上出现了多个热门帖子，总计数百条回复：

帖子 1：「DeepSeek V4 终于出来了。。不知道强不强」（8077 点击, 57 回复）

JoeJoeJoe: "如果可以本地部署的话，我觉得还是很香的"
rammiah: "好像不支持多模态啊"
Mrun: "我记得他们之前就说过，会专注文本类。不会浪费资源去搞多模态"
blirun: "没有多模态，怎么写 UI？"
dingawm: "不支持多模态，写 UI 没办法参考图片。倒是也能通过让其他支持多模态的模型'转译'一下，但是这样又太麻烦了"
mightybruce: "1.6T 还想什么本地部署，现在应该等待腾讯、阿里、字节云上线有 DeepSeek V4 的代码套餐"

来源：V2EX t/1208225

帖子 2：「DeepSeek V4 Pro 天气卡片效果一般」（11373 点击, 123 回复）

作者 dingawm 用天气卡片生成测试了 V4-Pro 的前端能力，认为"太简陋了"
作者后续承认评价"太武断"，单个测试不能说明问题
作者认为 Kimi 2.6 目前国产模型中编程写前端第一
有用户对比了 Gemini Pro 和 DeepSeek V4 的效果
作者在附言中提到："即使国产模型还没到 Opus 4.6 的级别，但是好歹 OpenAI 的新模型到了，不用再看 A 的脸色了"

来源：V2EX t/1208250

帖子 3：「国产模型编程能力排名」（2480 点击, 30 回复）

作者 junwind 用"生成天气查询 H5 应用"为测试案例，对比了 GLM5.1、Kimi2.6、MiniMax2.7、MiMo V2.5、DeepSeek V4、Qwen3.5/3.6
最终排名：GLM5.7 ≥ Kimi2.6 ≥ DeepSeek V4 > MiMo V2.5 > Qwen > MiniMax
作者总结："国产模型第一梯队 GLM、Kimi，第二梯队 DeepSeek、MiMo，第三梯队 Qwen、MiniMax"
MiniMax 被多名用户嘲讽："不配上榜"、"夸张点说 4B 模型水平"、"minimax 已经完全龙虾了，2.7 真的废了"
onedge: "GLM 5.1 > DS V4 = Kimi 2.6 > mimo v2.5 > minimax 2.7"

来源：V2EX t/1208616

帖子 4：「DeepSeek V4 上线了！之前难产真是适配昇腾?」（1179 点击）

引用了官方说法：V4-Pro 的 Agent 能力"使用体验优于 Sonnet 4.5，交付质量接近 Opus 4.6 非思考模式，但仍与 Opus 4.6 思考模式存在一定差距"
推测延迟发布与适配华为昇腾芯片有关
"受限于高端算力，Pro 的服务吞吐十分有限，预计下半年昇腾 950 超节点批量上市后，Pro 的价格会大幅下调"

来源：V2EX t/1208247

帖子 5：「DeepSeek V4 发布对美股冲击」（640+ 点击）

用户担忧持有纳斯达克定投："模型除非有断崖差距，不然价格是影响选择的很重要的因素，拖到后期拼电力拼 token 价格美国不得完蛋啊"

来源：V2EX t/1208350

Reddit 补充评价

r/DeepSeek: "DeepSeek gives me the reliability of Claude while I cannot say the same for Kimi and GLM"
r/opencodeCLI: "DeepSeek V4 Flash is a monster. Cheap, good, and so fast — 100 to 150 TPS"
r/SillyTavernAI: "The prose reads nice and it's noticeably different from Claude" / 但也有批评："It is a bit of a russian roulette, it dislikes following instructions, gets into repetition cycles a lot"
r/LocalLLaMA: 对 CSA+HCA 架构创新讨论热烈，V4-Pro 需 16-24 块 H100 全精度运行
r/singularity: "DeepSeek Flash cost 99% less than Opus 4.7, for similar results"

社区评价综合

维度	社区共识
编码能力	开源最强之一，但 GLM5.7 和 Kimi2.6 在某些场景（尤其是前端）表现更好
数学/STEM	高度认可，研究场景表现出色
前端/UI	不支持多模态是明显短板，无法参考图片写 UI
性价比	一致好评，V4-Flash 被称为"怪物级"性价比
稳定性	部分用户反映指令遵循不如 V3.2，存在重复循环问题
Agent 能力	优于 Sonnet 4.5，接近 Opus 4.6 非思考模式
vs Claude	可靠性接近 Claude，但 Opus 4.7 在复杂任务上仍有优势
vs GPT-5.5	编码能力有竞争力，GPT-5.5 在获得洞察方面更快
本地部署	V4-Flash 可行（~160GB），V4-Pro 需集群级硬件
国产模型排名	第一梯队：GLM5.7、Kimi2.6；第二梯队：DeepSeek V4、MiMo V2.5

DeepSeek V4 深度评测报告

一、概述

二、架构创新

1. CSA + HCA 混合注意力机制

2. 流形约束超连接（mHC）

3. Muon 优化器

三、基准测试表现

V4-Pro Max（最大推理力度）

V4-Flash

第三方评测平台

四、竞品对比

性能对比

价格对比（API 定价）

与其他开源模型对比

五、开发者体验与 Agent 集成

六、硬件与地缘政治意义

七、社区反响

正面评价

负面/批评

八、总结与建议

优势

劣势

使用建议

九、社区用户评价（补充）

Hacker News 讨论（2050 upvotes, 1574 评论）

V2EX 社区讨论

Reddit 补充评价

社区评价综合

参考来源