antirez 论 DwarfStar 分布式推理与 LLM Ensemble 新方向
- 来源: antirez.com/news/167 | arXiv:2502.18036 LLM Ensemble 综述
- 日期: 2026-05-25
- 作者: Salvatore Sanfilippo (antirez,Redis 创始人,DwarfStar 作者)
一句话版本
Redis 创始人 antirez 讨论在多个 MacBook 之间做分布式推理的三种方案,特别提出 LLM Ensemble——让不同模型在不同机器上 share-nothing 独立推理,最后合并结果,每个模型贡献自己的视角——可能比传统层拆分或并行专家路由更有前景。
背景
antirez 之前发布了 DwarfStar 4 (ds4)——一个用纯 C 手写的本地推理引擎,专为 DeepSeek V4 Flash 优化,非对称 2-bit 量化后约 81GB,MacBook 96GB+ 就能跑 26 t/s。这是基于他的项目经验展开的最新思考。
当前本地推理格局
总结 antirez 对本地推理硬件的评估:
| 硬件 | 能跑的模型 | Prefill | Decoding | 价格 |
|---|---|---|---|---|
| M3 Ultra 512GB | DeepSeek v4 PRO 2-bit | ~150 t/s | ~10-13 t/s | ~$12k |
| M5 Max 128GB | DS v4 Flash / MiMo V2.5 2-bit | ~500 t/s | ~35-40 t/s | ~$6-7k |
M5 Max 128GB 是目前最佳选择:能跑 DeepSeek v4 Flash 和 MiMo V2.5(刚发布的开源多模态模型),prefill 速度优秀,decoding 也够用。
但未来不确定:NVIDIA 价格不会降、RAM 短缺、M5 Ultra 能否推出未知。所以分布式推理开始变得有吸引力。
三种分布式推理方案
方案 1: 顺序层拆分 (Sequential Layer Split)
原理: 机器 A 加载 50% 的 transformer 层,机器 B 加载剩余 50%,串行执行。
优点:
- 只需传输 activations,概念简单
- 通过 micro-batching 可以提升 prefill 速度
- 两台 Mac Studio 512GB 可以跑完整 DeepSeek v4 PRO
- 散热更好,可以持续负载
缺点: Decoding 速度不提升,每生成一个 token 仍需串行等待。
方案 2: 专家并行拆分 (Expert Split via RDMA)
原理: 两台机器都加载完整的量化权重(都存所有 routed experts),但每台负责执行一半的 experts。
优点:
- 更适合 PRO 版(routed experts 大,通信开销小)
- Activations 传输量很小
缺点:
- 需要 Apple RDMA,通信速度远不如 NVLink
- 协调复杂度高,能否做好还是未知
方案 3: LLM Ensemble 🎯(antirez 最看好的方向)
原理: 完全 share-nothing,每台机器跑不同的模型,最后合并 logits 或选择最佳 continuation。
核心方法:
1. Perplexity 选择: 选两个模型里更"确信"的那个(更低 perplexity)
2. Logits 合并: 对不同 vocabulary 做映射后合并 logits 再采样
3. 混合方法: 最新论文建议两种结合最佳
为什么有意思:
- 分布式问题变成了模型组合问题
- 不同模型有不同的"视角",一起用比单独用更好
- 128GB 2-bit 量化类别的选择非常多:MiniMax M2.7、MiMo V2.5、DeepSeek v4 Flash 等
- 不需要昂贵的专用互连(NVLink/RDMA),普通网络就行
LLM Ensemble 论文背景
引用论文:Harnessing Multiple Large Language Models: A Survey on LLM Ensemble (2025.2 → 2026.4 六版更新)
这是第一篇 LLM Ensemble 的系统综述,按推理时间轴分为三类:
- Ensemble-before-inference: 路由/任务分配
- Ensemble-during-inference: 协同生成
- Ensemble-after-inference: 结果合并/投票
antirez 讨论的方案属于 ensemble-after-inference 或 ensemble-during-inference(混合方法)。
与我们项目的关联
1. 多个本地模型协同: 如果你手头有多台 MacBook 或 GPU 机器,Ensemble 方案比传统分布式更容易落地——不需要低延迟高速互连,普通局域网就能跑。
2. 与 OpenClaw 的关联: OpenClaw 生态下,可以让不同的 agent session 跑在不同模型后端上(如 DeepSeek V4 Flash 做编码 + MiMo V2.5 做多模态理解),然后通过投票/合并得出最佳结果。这和 Agentic Market / Slock.ai 的多 Agent 协作思路可以结合。
3. M5 Max 性价比: antirez 明确指出 M5 Max 128GB(~$6-7k)是目前本地推理的最佳选择,可跑两大前沿开源模型。这比 M3 Ultra 512GB 方案便宜一半。
4. 实用参考: 如果你有 2 台 M5 Max,用 ensemble 方案即使用普通 Wi-Fi 也能跑——比买一台 M3 Ultra 512GB 便宜且灵活。
评分
| 维度 | 评分 | 说明 |
|---|---|---|
| ⚡ 技术深度 | ★★★★★ | 来自第一手实践者的深度思考 |
| 💡 创新性 | ★★★★★ | 把 Ensemble 引入分布式推理场景 |
| 🔧 实用性 | ★★★★☆ | 方案理论可行,但 antirez 还没有实现 |
| 📚 可读性 | ★★★★★ | antirez 一贯的清晰直接风格 |
| 🔗 引用 | ★★★★☆ | 引用了正式论文作为理论基础 |
总体评分: 4.6/5 ⭐
了解更多
- 原文: https://antirez.com/news/167
- DwarfStar 4: https://github.com/antirez/ds4
- LLM Ensemble 综述: https://arxiv.org/abs/2502.18036
- 关联报告: dwarfstar-4-report.md | antirez-edit-tool-report.md | mimo-v25-report.md