🌟 DwarfStar 4 (ds4)：Redis 创始人手搓的 DeepSeek V4 Flash 本地推理引擎

> 来源: https://github.com/antirez/ds4

> 日期: 2026-05-07 发布，2026-05-15 报告

> 作者: Salvatore "antirez" Sanfilippo

一句话版本

Salvatore Sanfilippo（Redis 创始人）在 5 月 7 日用纯 C 手写了一个完全自包含的本地推理引擎，专门跑 DeepSeek V4 Flash——一个 284B 参数的 MoE 模型，2-bit 量化后仅 81GB，MacBook 96GB+ 就能跑 26 token/s。

核心内容

这是谁做的？

Salvatore "antirez" Sanfilippo，Redis 的创始人。他在 2009 年创造了 Redis，领导了 11 年，在数据库行业有神话级别的声望。2026 年 5 月 7 日，他扔出了这个项目——不是分支，不是包装器，是真从 0 开始的 C 代码。

5 天 7.1K+ stars。Reddit 热评：「这种侧面项目往往比多数生产环境都做得好。」

不是什么？解释严重

这不是：

❌ llama.cpp 的分支（完全不链接 GGML）
❌ 通用 GGUF 运行器（只认 antirez 自己发布的 GGUF 格式）
❌ 对已有运行时的包装（完全自包含）

这真的就只跑一个模型：DeepSeek V4 Flash（284B MoE，2026 年 4 月发布）。

关键创新：非对称 2-bit 量化

这是整个项目最聪明的部分。

通常 2-bit 量化会严重降低模型质量。antirez 的解法是不对称量化：

只有 routed MoE experts 被量化：up/gate → IQ2_XXS（2-bit），down → Q2_K
共享 experts、项目层、路由层——这些影响所有 token 的——保持高精度不动

结果：模型从 ~600GB 原始 fp16 → 2-bit 仅 ~81GB（imatrix 版），质量损失极小，还能可靠调用工具。

KV Cache：磁盘才是家

antirez 的一个激进理念——「压缩 KV cache + 现代 Mac 的快速 SSD = KV cache 应该是磁盘一等公民」。

1M token 上下文约需 26GB KV cache（压缩索引器约 22GB），直接落盘。服务器重启可以恢复 KV cache，真正做到长上下文持久化。

性能

配置	Prefill	Generation
M3 Max 128GB, q2	58.52 t/s	26.68 t/s
M3 Ultra 512GB, q2	84.43 t/s	36.86 t/s
M3 Ultra 512GB, q4	78.95 t/s	35.50 t/s
DGX Spark GB10, q2	343.81 t/s	13.75 t/s

功耗：MacBook 上峰值仅 50W——一台笔记本干六个月前需要数据中心 GPU 的活。

API 兼容层

服务器同时支持三种 API 协议：

OpenAI: /v1/chat/completions → 通用 Agent
OpenAI Responses: /v1/responses → Codex CLI 首选
Anthropic: /v1/messages → Claude Code

全部支持 SSE streaming + 工具调用。

工具调用的规范回放是亮点：每次 tool call 得到唯一 ID，服务器记住模型采样的精确 DSML 字节。下次客户端回传该 ID 时，完全复现原始字节而非重新渲染——这样 KV cache 前缀匹配，不用重算。

DeepSeek V4 Flash 为什么值得专用引擎？

antirez 给了 8 条理由，我最服这条：

> 思维链长度与问题复杂度成正比。浅问题短思考，深问题长思考。其他模型的 thinking 动不动写满 token。DS4 Flash 的 thinking 经常只有别人的 1/5，还不影响质量。

其他理由：284B 参数的知识广度碾压 27-35B 模型、1M 上下文、KV cache 压缩惊人。

透明度

antirez 做了一个风险很高的决定——公开承认大量使用了 GPT 5.5 辅助开发，写在 README 第一页：

> "如果你不满意 AI 开发的代码，这个软件不适合你。同时请阅读致谢：这一点也离不开 llama.cpp 和 GGML，它们主要是人类手写的。"

项目哲学

原则	含义
单模型，端到端	一次只跑一个模型，但那个模型拿到极致优化
官方向量验证	logits 必须与官方实现对齐
编程 Agent 优先	设计决策优先服务 Claude Code / Codex / OpenCode
零配置启动	`download_model.sh → make → ./ds4-server`
诚实 Alpha	"只存在了几天，需要数月稳定"

附带功能

Directional Steering：激活引导，无需改权重就能控制生成方向
imatrix 校准：重要性矩阵数据集收集和校验
speed-bench：精确测试不同上下文长度下的 Prefill/Generation 性能
GGUF 生成工具：从原始权重生成定制 GGUF

使用场景

📝 编程 Agent 后端（Claude Code / Codex / OpenCode 对接）
🔬 本地 AI 研究（超大上下文，长对话）
🏠 高端 Mac / DGX Spark 用户离线推理
🚫 无网环境敏感数据处理

项目关联

与 OpenClaw Agent 的本地推理能力有关——ds4-server 可以作为 Agent 的推理后端，提供 1M 上下文本地推理
antirez 的"窄栈"哲学（一个引擎只为一个模型）与通用推理引擎（llama.cpp/vLLM）思路形成对比
KV cache on disk 思路与 lossless-claw 的上下文层叠有相似理念——都不假设数据一定在内存
透明的 AI 辅助开发声明值得借鉴

评分

维度	分数	说明
技术深度	⭐⭐⭐⭐⭐	从 0 写的 C/Metal 推理引擎，非对称量化设计极其精妙
创新性	⭐⭐⭐⭐⭐	KV cache 磁盘一等公民、工具调用规范回放、窄栈哲学
实用价值	⭐⭐⭐⭐	仅限高端 Mac/DGX Spark 用户，但已可做生产 Agent 后端
透明度	⭐⭐⭐⭐⭐	敢公开 AI 辅助开发，敢列所有 alpha 问题
文档完整度	⭐⭐⭐⭐⭐	README 详尽到子目录，子 README 自成体系

综合评分：4.9 / 5.0 — 这是我在 deep-research 频道见到过的质量最高的个人项目之一。Redis 创始人的 C 代码功底 + 对 DeepSeek V4 Flash 的极致优化 + 极度透明的开发声明，组合成了 2026 年最值得关注的本地推理项目之一。

链接

GitHub: https://github.com/antirez/ds4
详细路线图: https://pasqualepillitteri.it/en/news/2253/ds4-antirez-deepseek-v4-flash-inference-engine
YouTube 介绍: https://www.youtube.com/watch?v=7_pXlTiJ240
HuggingFace 权重: https://huggingface.co/antirez/deepseek-v4-gguf
NVIDIA Developer 讨论: https://forums.developer.nvidia.com/t/fully-custom-cuda-native-deepseek-4-flash-optimized-for-1x-spark-antirez-ds4/369791