antirez 论 DwarfStar 分布式推理与 LLM Ensemble 新方向

来源: antirez.com/news/167 | arXiv:2502.18036 LLM Ensemble 综述
日期: 2026-05-25
作者: Salvatore Sanfilippo (antirez，Redis 创始人，DwarfStar 作者)

一句话版本

Redis 创始人 antirez 讨论在多个 MacBook 之间做分布式推理的三种方案，特别提出 LLM Ensemble——让不同模型在不同机器上 share-nothing 独立推理，最后合并结果，每个模型贡献自己的视角——可能比传统层拆分或并行专家路由更有前景。

背景

antirez 之前发布了 DwarfStar 4 (ds4)——一个用纯 C 手写的本地推理引擎，专为 DeepSeek V4 Flash 优化，非对称 2-bit 量化后约 81GB，MacBook 96GB+ 就能跑 26 t/s。这是基于他的项目经验展开的最新思考。

当前本地推理格局

总结 antirez 对本地推理硬件的评估：

硬件	能跑的模型	Prefill	Decoding	价格
M3 Ultra 512GB	DeepSeek v4 PRO 2-bit	~150 t/s	~10-13 t/s	~$12k
M5 Max 128GB	DS v4 Flash / MiMo V2.5 2-bit	~500 t/s	~35-40 t/s	~$6-7k

M5 Max 128GB 是目前最佳选择：能跑 DeepSeek v4 Flash 和 MiMo V2.5（刚发布的开源多模态模型），prefill 速度优秀，decoding 也够用。

但未来不确定：NVIDIA 价格不会降、RAM 短缺、M5 Ultra 能否推出未知。所以分布式推理开始变得有吸引力。

三种分布式推理方案

方案 1: 顺序层拆分 (Sequential Layer Split)

原理: 机器 A 加载 50% 的 transformer 层，机器 B 加载剩余 50%，串行执行。

优点:

只需传输 activations，概念简单
通过 micro-batching 可以提升 prefill 速度
两台 Mac Studio 512GB 可以跑完整 DeepSeek v4 PRO
散热更好，可以持续负载

缺点: Decoding 速度不提升，每生成一个 token 仍需串行等待。

方案 2: 专家并行拆分 (Expert Split via RDMA)

原理: 两台机器都加载完整的量化权重（都存所有 routed experts），但每台负责执行一半的 experts。

优点:

更适合 PRO 版（routed experts 大，通信开销小）
Activations 传输量很小

缺点:

需要 Apple RDMA，通信速度远不如 NVLink
协调复杂度高，能否做好还是未知

方案 3: LLM Ensemble 🎯（antirez 最看好的方向）

原理: 完全 share-nothing，每台机器跑不同的模型，最后合并 logits 或选择最佳 continuation。

核心方法:

1. Perplexity 选择: 选两个模型里更"确信"的那个（更低 perplexity）

2. Logits 合并: 对不同 vocabulary 做映射后合并 logits 再采样

3. 混合方法: 最新论文建议两种结合最佳

为什么有意思:

分布式问题变成了模型组合问题
不同模型有不同的"视角"，一起用比单独用更好
128GB 2-bit 量化类别的选择非常多：MiniMax M2.7、MiMo V2.5、DeepSeek v4 Flash 等
不需要昂贵的专用互连（NVLink/RDMA），普通网络就行

LLM Ensemble 论文背景

引用论文：Harnessing Multiple Large Language Models: A Survey on LLM Ensemble (2025.2 → 2026.4 六版更新)

这是第一篇 LLM Ensemble 的系统综述，按推理时间轴分为三类：

Ensemble-before-inference: 路由/任务分配
Ensemble-during-inference: 协同生成
Ensemble-after-inference: 结果合并/投票

antirez 讨论的方案属于 ensemble-after-inference 或 ensemble-during-inference（混合方法）。

与我们项目的关联

1. 多个本地模型协同: 如果你手头有多台 MacBook 或 GPU 机器，Ensemble 方案比传统分布式更容易落地——不需要低延迟高速互连，普通局域网就能跑。

2. 与 OpenClaw 的关联: OpenClaw 生态下，可以让不同的 agent session 跑在不同模型后端上（如 DeepSeek V4 Flash 做编码 + MiMo V2.5 做多模态理解），然后通过投票/合并得出最佳结果。这和 Agentic Market / Slock.ai 的多 Agent 协作思路可以结合。

3. M5 Max 性价比: antirez 明确指出 M5 Max 128GB（~$6-7k）是目前本地推理的最佳选择，可跑两大前沿开源模型。这比 M3 Ultra 512GB 方案便宜一半。

4. 实用参考: 如果你有 2 台 M5 Max，用 ensemble 方案即使用普通 Wi-Fi 也能跑——比买一台 M3 Ultra 512GB 便宜且灵活。

评分

维度	评分	说明
⚡ 技术深度	★★★★★	来自第一手实践者的深度思考
💡 创新性	★★★★★	把 Ensemble 引入分布式推理场景
🔧 实用性	★★★★☆	方案理论可行，但 antirez 还没有实现
📚 可读性	★★★★★	antirez 一贯的清晰直接风格
🔗 引用	★★★★☆	引用了正式论文作为理论基础

总体评分: 4.6/5 ⭐

了解更多

原文: https://antirez.com/news/167
DwarfStar 4: https://github.com/antirez/ds4
LLM Ensemble 综述: https://arxiv.org/abs/2502.18036
关联报告: dwarfstar-4-report.md | antirez-edit-tool-report.md | mimo-v25-report.md