antirez 论 DwarfStar 分布式推理与 LLM Ensemble 新方向

一句话版本

Redis 创始人 antirez 讨论在多个 MacBook 之间做分布式推理的三种方案,特别提出 LLM Ensemble——让不同模型在不同机器上 share-nothing 独立推理,最后合并结果,每个模型贡献自己的视角——可能比传统层拆分或并行专家路由更有前景。

背景

antirez 之前发布了 DwarfStar 4 (ds4)——一个用纯 C 手写的本地推理引擎,专为 DeepSeek V4 Flash 优化,非对称 2-bit 量化后约 81GB,MacBook 96GB+ 就能跑 26 t/s。这是基于他的项目经验展开的最新思考。

当前本地推理格局

总结 antirez 对本地推理硬件的评估:

硬件能跑的模型PrefillDecoding价格
M3 Ultra 512GBDeepSeek v4 PRO 2-bit~150 t/s~10-13 t/s~$12k
M5 Max 128GBDS v4 Flash / MiMo V2.5 2-bit~500 t/s~35-40 t/s~$6-7k

M5 Max 128GB 是目前最佳选择:能跑 DeepSeek v4 Flash 和 MiMo V2.5(刚发布的开源多模态模型),prefill 速度优秀,decoding 也够用。

但未来不确定:NVIDIA 价格不会降、RAM 短缺、M5 Ultra 能否推出未知。所以分布式推理开始变得有吸引力。

三种分布式推理方案

方案 1: 顺序层拆分 (Sequential Layer Split)

原理: 机器 A 加载 50% 的 transformer 层,机器 B 加载剩余 50%,串行执行。

优点:

缺点: Decoding 速度不提升,每生成一个 token 仍需串行等待。

方案 2: 专家并行拆分 (Expert Split via RDMA)

原理: 两台机器都加载完整的量化权重(都存所有 routed experts),但每台负责执行一半的 experts。

优点:

缺点:

方案 3: LLM Ensemble 🎯(antirez 最看好的方向)

原理: 完全 share-nothing,每台机器跑不同的模型,最后合并 logits 或选择最佳 continuation。

核心方法:

1. Perplexity 选择: 选两个模型里更"确信"的那个(更低 perplexity)

2. Logits 合并: 对不同 vocabulary 做映射后合并 logits 再采样

3. 混合方法: 最新论文建议两种结合最佳

为什么有意思:

LLM Ensemble 论文背景

引用论文:Harnessing Multiple Large Language Models: A Survey on LLM Ensemble (2025.2 → 2026.4 六版更新)

这是第一篇 LLM Ensemble 的系统综述,按推理时间轴分为三类:

antirez 讨论的方案属于 ensemble-after-inferenceensemble-during-inference(混合方法)

与我们项目的关联

1. 多个本地模型协同: 如果你手头有多台 MacBook 或 GPU 机器,Ensemble 方案比传统分布式更容易落地——不需要低延迟高速互连,普通局域网就能跑。

2. 与 OpenClaw 的关联: OpenClaw 生态下,可以让不同的 agent session 跑在不同模型后端上(如 DeepSeek V4 Flash 做编码 + MiMo V2.5 做多模态理解),然后通过投票/合并得出最佳结果。这和 Agentic Market / Slock.ai 的多 Agent 协作思路可以结合。

3. M5 Max 性价比: antirez 明确指出 M5 Max 128GB(~$6-7k)是目前本地推理的最佳选择,可跑两大前沿开源模型。这比 M3 Ultra 512GB 方案便宜一半。

4. 实用参考: 如果你有 2 台 M5 Max,用 ensemble 方案即使用普通 Wi-Fi 也能跑——比买一台 M3 Ultra 512GB 便宜且灵活。

评分

维度评分说明
⚡ 技术深度★★★★★来自第一手实践者的深度思考
💡 创新性★★★★★把 Ensemble 引入分布式推理场景
🔧 实用性★★★★☆方案理论可行,但 antirez 还没有实现
📚 可读性★★★★★antirez 一贯的清晰直接风格
🔗 引用★★★★☆引用了正式论文作为理论基础

总体评分: 4.6/5

了解更多