llmfit:一条命令找到你的硬件能跑哪些 LLM——16K Star 的本地模型"适配器"
> 来源: https://x.com/datachaz/status/2032376859854590314
> 仓库: https://github.com/AlexsJones/llmfit
> 作者: Alex Jones(@AlexsJones)
> 语言: Rust
> 协议: MIT
> Stars: 16,189 | Forks: 909
> 创建: 2026-02-15(不到 1 个月前)
> 日期: 2026-03-13
📌 一句话总结
一条命令扫描你的硬件(RAM/CPU/GPU/VRAM),对比 157+ 个 LLM 模型,告诉你哪些模型能跑、跑多快、用哪个量化最合适。Rust 写的,TUI + CLI + REST API,不到一个月 16K Star。
🧠 解决什么问题
本地跑 LLM 最头疼的事:
1. ❌ 下载了一个 70B 模型 → OOM(内存不够)
2. ❌ 不知道该选 Q4_K_M 还是 Q8_0 量化
3. ❌ 不确定模型能不能全部放进 GPU → 还是要 CPU offload
4. ❌ MoE 模型不知道实际激活参数多少
llmfit 一条命令解决所有这些问题。
🎯 四级适配评分
| 等级 | 含义 | 颜色 |
|---|---|---|
| 🟩 **Perfect Fit** | 完全放入 GPU,全速运行 | 绿 |
| 🟨 **Good Fit** | MoE offload 或少量 CPU 溢出 | 黄 |
| 🟧 **Marginal Fit** | 勉强能跑 / 纯 CPU 运行 | 橙 |
| 🟥 **Too Tight** | 跑不了,直接过滤掉 | 红 |
每个模型还会显示:
- 综合评分(quality × speed × fit × context)
- 预估 tok/s
- 最佳量化版本(自动选择)
- 运行模式(GPU / CPU+GPU / CPU / MoE)
- 内存占用百分比
💻 使用方式
1. 交互式 TUI(默认)
llmfit
启动终端 UI,顶部显示硬件信息,下方是模型列表。支持:
- Vim 快捷键(j/k 导航,/ 搜索)
- 筛选器(适配度、运行时、用途)
- 模型对比(选两个模型并排对比)
- Plan Mode:反向计算"跑这个模型需要什么硬件"
- 6 个主题(Dracula / Solarized / Nord / Monokai / Gruvbox)
2. CLI 模式
# 只看完美适配的模型,前 5 个
llmfit fit --perfect -n 5
# 搜索特定模型
llmfit search "llama 8b"
# 推荐用于编码的模型(JSON 输出)
llmfit recommend --json --use-case coding --limit 3
# 查看硬件信息
llmfit system
# 反向规划:跑 Qwen3-4B 需要什么硬件
llmfit plan "Qwen/Qwen3-4B" --context 8192 --json
3. REST API
# 启动 API 服务
llmfit serve --host 0.0.0.0 --port 8787
# 查询适合当前节点的模型
curl "http://localhost:8787/api/v1/models/top?limit=5&min_fit=good&use_case=coding"
# 硬件信息
curl http://localhost:8787/api/v1/system
🔧 安装
| 平台 | 命令 | |
|---|---|---|
| macOS/Linux | `brew install llmfit` | |
| Windows | `scoop install llmfit` | |
| 快速安装 | `curl -fsSL https://llmfit.axjns.dev/install.sh \ | sh` |
| Docker | `docker run ghcr.io/alexsjones/llmfit` | |
| 源码 | `cargo build --release` |
🏗️ 技术细节
- 硬件检测:
- NVIDIA GPU → nvidia-smi / NVML
- AMD GPU → rocm-smi
- Apple Silicon → Metal / sysctl
- 支持多 GPU
- 模型数据库:157+ 模型,30+ provider
- 量化评估:自动评估每种量化对内存和质量的影响
- MoE 支持:正确计算 MoE 模型的实际激活参数和内存需求
- 运行时集成:Ollama / llama.cpp / MLX
- Plan Mode:给定模型 + context 长度 + 目标 tok/s → 计算需要的最低/推荐硬件
📊 增长速度
| 指标 | 数值 |
|---|---|
| 创建时间 | 2026-02-15 |
| 当前 Stars | 16,189 |
| 日均增长 | ~600 Stars/天 |
| Forks | 909 |
不到一个月 16K Star——增速惊人,说明本地 LLM 社区对"硬件适配"痛点的共鸣极强。
💡 与我们的关联
1. 直接可用:我们有 Ollama 实例(http://100.94.140.76:11434),可以用 llmfit 评估我们的服务器能跑哪些模型
2. REST API 有意思:llmfit serve 可以给集群里每个节点提供"我能跑什么模型"的接口,适合多机调度
3. Plan Mode 实用:评估 DGX Spark / M4 Max 等硬件时,可以用 Plan Mode 反向计算
4. Step 3.5 Flash 适配:可以用 llmfit 验证我们之前评估的 "M4 Max 128GB 跑 Step 3.5 Flash Q4_K_S" 是否合理
5. OpenClaw Skill 潜力:llmfit recommend --json 可以封装成 OpenClaw Skill,让 Agent 自动评估硬件能力
🖥️ 实测:RTX 4090 + 64GB RAM 服务器
我们在 ub2 服务器上实际运行了 llmfit,以下是真实结果。
硬件配置
| 参数 | 数值 |
|---|---|
| CPU | Intel i9-13900K(32 核) |
| GPU | NVIDIA GeForce RTX 4090(24 GB VRAM) |
| RAM | 63 GB(可用 58 GB) |
| Backend | CUDA |
llmfit Top 10 推荐
| # | 模型 | 参数 | 评分 | 预估 tok/s | 适配 | 量化 | VRAM 占用 |
|---|---|---|---|---|---|---|---|
| 1 | **Qwen3-Coder-30B-A3B** (AWQ) | 30.5B | 97 | 332 | Good | AWQ-4bit | 65% |
| 2 | **Codestral-22B** (AWQ) | 22.2B | 96 | 50 | Perfect | AWQ-4bit | 73% |
| 3 | **Qwen3-Coder-30B-A3B** (FP8) | 30.5B | 96 | 332 | Good | Q4_K_M | 65% |
| 4 | **Qwen3-VL-30B-A3B** (AWQ) | 31.1B | 95 | 448 | Good | AWQ-4bit | 66% |
| 5 | **Qwen3-Coder-Next** (MoE) | 79.7B | 95 | 162 | Good | Q4_K_M | 19% |
| 6 | **Mistral-Small-24B** (AWQ) | 23.6B | 95 | 47 | Perfect | AWQ-4bit | 77% |
| 7 | **Qwen3-30B-A3B** (GPTQ) | 30.5B | 95 | 332 | Good | GPTQ-4bit | 65% |
| 8 | **Qwen3.5-35B-A3B** | 36.0B | 94 | 370 | Good | Q4_K_M | 77% |
| 9 | **MiniMax-M2.5** (AWQ) | 36.8B | 94 | 378 | Good | AWQ-4bit | 79% |
| 10 | **Qwen2.5-Coder-14B** (AWQ) | 14.8B | 93 | 75 | Perfect | AWQ-4bit | 49% |
关键发现
- RTX 4090 的甜蜜区是 30B 级别的 MoE 模型:Qwen3-30B-A3B 系列全部 128 个 experts 放入 VRAM,预估 330+ tok/s
- 非 MoE 上限约 22-24B:Codestral-22B / Mistral-Small-24B,50 tok/s 左右
- 79.7B 也能跑:靠 MoE offload——活跃 experts 在 GPU(4.5 GB),其余 offload 到 58GB 系统内存,162 tok/s
- VRAM 利用率最高 79%(MiniMax-M2.5),留有余量处理 KV cache
⚠️ 注意
1. 模型数据库有限:157 个模型,可能不覆盖最新的模型
2. 预估 tok/s 是估算值:实际速度取决于很多因素(batch size、context length、量化实现)
3. 统一内存估算可能不准:Apple Silicon 的统一内存 vs 独显 VRAM 的估算逻辑可能有差异
📊 评分
| 维度 | 评分(/10) |
|---|---|
| 实用性 | 9.5 — 解决了本地 LLM 最大的痛点之一 |
| 技术质量 | 8.5 — Rust、TUI/CLI/API 三模式、多 GPU 支持 |
| 增长势头 | 9.0 — 不到一个月 16K Star |
| 完整度 | 8.0 — Plan Mode + REST API + 主题,功能丰富 |
| 与我们的关联 | 7.5 — 直接可用,REST API 有扩展价值 |
| **综合** | **8.5** |
报告由深度研究助手自动生成 | 2026-03-13
来源: https://github.com/AlexsJones/llmfit | https://x.com/datachaz/status/2032376859854590314