🌟 DwarfStar 4 (ds4):Redis 创始人手搓的 DeepSeek V4 Flash 本地推理引擎
> 来源: https://github.com/antirez/ds4
> 日期: 2026-05-07 发布,2026-05-15 报告
> 作者: Salvatore "antirez" Sanfilippo
一句话版本
Salvatore Sanfilippo(Redis 创始人)在 5 月 7 日用纯 C 手写了一个完全自包含的本地推理引擎,专门跑 DeepSeek V4 Flash——一个 284B 参数的 MoE 模型,2-bit 量化后仅 81GB,MacBook 96GB+ 就能跑 26 token/s。
核心内容
这是谁做的?
Salvatore "antirez" Sanfilippo,Redis 的创始人。他在 2009 年创造了 Redis,领导了 11 年,在数据库行业有神话级别的声望。2026 年 5 月 7 日,他扔出了这个项目——不是分支,不是包装器,是真从 0 开始的 C 代码。
5 天 7.1K+ stars。Reddit 热评:「这种侧面项目往往比多数生产环境都做得好。」
不是什么?解释严重
这不是:
- ❌ llama.cpp 的分支(完全不链接 GGML)
- ❌ 通用 GGUF 运行器(只认 antirez 自己发布的 GGUF 格式)
- ❌ 对已有运行时的包装(完全自包含)
这真的就只跑一个模型:DeepSeek V4 Flash(284B MoE,2026 年 4 月发布)。
关键创新:非对称 2-bit 量化
这是整个项目最聪明的部分。
通常 2-bit 量化会严重降低模型质量。antirez 的解法是不对称量化:
- 只有 routed MoE experts 被量化:up/gate → IQ2_XXS(2-bit),down → Q2_K
- 共享 experts、项目层、路由层——这些影响所有 token 的——保持高精度不动
结果:模型从 ~600GB 原始 fp16 → 2-bit 仅 ~81GB(imatrix 版),质量损失极小,还能可靠调用工具。
KV Cache:磁盘才是家
antirez 的一个激进理念——「压缩 KV cache + 现代 Mac 的快速 SSD = KV cache 应该是磁盘一等公民」。
1M token 上下文约需 26GB KV cache(压缩索引器约 22GB),直接落盘。服务器重启可以恢复 KV cache,真正做到长上下文持久化。
性能
| 配置 | Prefill | Generation |
|---|---|---|
| M3 Max 128GB, q2 | 58.52 t/s | 26.68 t/s |
| M3 Ultra 512GB, q2 | 84.43 t/s | 36.86 t/s |
| M3 Ultra 512GB, q4 | 78.95 t/s | 35.50 t/s |
| DGX Spark GB10, q2 | 343.81 t/s | 13.75 t/s |
功耗:MacBook 上峰值仅 50W——一台笔记本干六个月前需要数据中心 GPU 的活。
API 兼容层
服务器同时支持三种 API 协议:
- OpenAI:
/v1/chat/completions→ 通用 Agent - OpenAI Responses:
/v1/responses→ Codex CLI 首选 - Anthropic:
/v1/messages→ Claude Code
全部支持 SSE streaming + 工具调用。
工具调用的规范回放是亮点:每次 tool call 得到唯一 ID,服务器记住模型采样的精确 DSML 字节。下次客户端回传该 ID 时,完全复现原始字节而非重新渲染——这样 KV cache 前缀匹配,不用重算。
DeepSeek V4 Flash 为什么值得专用引擎?
antirez 给了 8 条理由,我最服这条:
> 思维链长度与问题复杂度成正比。浅问题短思考,深问题长思考。其他模型的 thinking 动不动写满 token。DS4 Flash 的 thinking 经常只有别人的 1/5,还不影响质量。
其他理由:284B 参数的知识广度碾压 27-35B 模型、1M 上下文、KV cache 压缩惊人。
透明度
antirez 做了一个风险很高的决定——公开承认大量使用了 GPT 5.5 辅助开发,写在 README 第一页:
> "如果你不满意 AI 开发的代码,这个软件不适合你。同时请阅读致谢:这一点也离不开 llama.cpp 和 GGML,它们主要是人类手写的。"
他同时给 llama.cpp 和 GGML 写了单独的致谢章节,保留了 GGML 作者的版权声明。
项目哲学
| 原则 | 含义 |
|---|---|
| **单模型,端到端** | 一次只跑一个模型,但那个模型拿到极致优化 |
| **官方向量验证** | logits 必须与官方实现对齐 |
| **编程 Agent 优先** | 设计决策优先服务 Claude Code / Codex / OpenCode |
| **零配置启动** | `download_model.sh → make → ./ds4-server` |
| **诚实 Alpha** | "只存在了几天,需要数月稳定" |
附带功能
- Directional Steering:激活引导,无需改权重就能控制生成方向
- imatrix 校准:重要性矩阵数据集收集和校验
- speed-bench:精确测试不同上下文长度下的 Prefill/Generation 性能
- GGUF 生成工具:从原始权重生成定制 GGUF
使用场景
- 📝 编程 Agent 后端(Claude Code / Codex / OpenCode 对接)
- 🔬 本地 AI 研究(超大上下文,长对话)
- 🏠 高端 Mac / DGX Spark 用户离线推理
- 🚫 无网环境敏感数据处理
项目关联
- 与 OpenClaw Agent 的本地推理能力有关——ds4-server 可以作为 Agent 的推理后端,提供 1M 上下文本地推理
- antirez 的"窄栈"哲学(一个引擎只为一个模型)与通用推理引擎(llama.cpp/vLLM)思路形成对比
- KV cache on disk 思路与 lossless-claw 的上下文层叠有相似理念——都不假设数据一定在内存
- 透明的 AI 辅助开发声明值得借鉴
评分
| 维度 | 分数 | 说明 |
|---|---|---|
| 技术深度 | ⭐⭐⭐⭐⭐ | 从 0 写的 C/Metal 推理引擎,非对称量化设计极其精妙 |
| 创新性 | ⭐⭐⭐⭐⭐ | KV cache 磁盘一等公民、工具调用规范回放、窄栈哲学 |
| 实用价值 | ⭐⭐⭐⭐ | 仅限高端 Mac/DGX Spark 用户,但已可做生产 Agent 后端 |
| 透明度 | ⭐⭐⭐⭐⭐ | 敢公开 AI 辅助开发,敢列所有 alpha 问题 |
| 文档完整度 | ⭐⭐⭐⭐⭐ | README 详尽到子目录,子 README 自成体系 |
综合评分:4.9 / 5.0 — 这是我在 deep-research 频道见到过的质量最高的个人项目之一。Redis 创始人的 C 代码功底 + 对 DeepSeek V4 Flash 的极致优化 + 极度透明的开发声明,组合成了 2026 年最值得关注的本地推理项目之一。
链接
- GitHub: https://github.com/antirez/ds4
- 详细路线图: https://pasqualepillitteri.it/en/news/2253/ds4-antirez-deepseek-v4-flash-inference-engine
- YouTube 介绍: https://www.youtube.com/watch?v=7_pXlTiJ240
- HuggingFace 权重: https://huggingface.co/antirez/deepseek-v4-gguf
- NVIDIA Developer 讨论: https://forums.developer.nvidia.com/t/fully-custom-cuda-native-deepseek-4-flash-optimized-for-1x-spark-antirez-ds4/369791