llmfit：一条命令找到你的硬件能跑哪些 LLM——16K Star 的本地模型"适配器"

🎯 一句话版本

关于llmfit：一条命令找到你的硬件能跑哪些 LLM——16K Star 的本地模型"适配器"的深度研究报告

> 来源: https://x.com/datachaz/status/2032376859854590314

> 仓库: https://github.com/AlexsJones/llmfit

> 作者: Alex Jones（@AlexsJones）

> 语言: Rust

> 协议: MIT

> Stars: 16,189 | Forks: 909

> 创建: 2026-02-15（不到 1 个月前）

> 日期: 2026-03-13

📌 一句话总结

一条命令扫描你的硬件（RAM/CPU/GPU/VRAM），对比 157+ 个 LLM 模型，告诉你哪些模型能跑、跑多快、用哪个量化最合适。Rust 写的，TUI + CLI + REST API，不到一个月 16K Star。

🧠 解决什么问题

本地跑 LLM 最头疼的事：

1. ❌ 下载了一个 70B 模型 → OOM（内存不够）

2. ❌ 不知道该选 Q4_K_M 还是 Q8_0 量化

3. ❌ 不确定模型能不能全部放进 GPU → 还是要 CPU offload

4. ❌ MoE 模型不知道实际激活参数多少

llmfit 一条命令解决所有这些问题。

🎯 四级适配评分

等级	含义	颜色
🟩 Perfect Fit	完全放入 GPU，全速运行	绿
🟨 Good Fit	MoE offload 或少量 CPU 溢出	黄
🟧 Marginal Fit	勉强能跑 / 纯 CPU 运行	橙
🟥 Too Tight	跑不了，直接过滤掉	红

每个模型还会显示：

综合评分（quality × speed × fit × context）
预估 tok/s
最佳量化版本（自动选择）
运行模式（GPU / CPU+GPU / CPU / MoE）
内存占用百分比

💻 使用方式

1. 交互式 TUI（默认）


llmfit

启动终端 UI，顶部显示硬件信息，下方是模型列表。支持：

Vim 快捷键（j/k 导航，/ 搜索）
筛选器（适配度、运行时、用途）
模型对比（选两个模型并排对比）
Plan Mode：反向计算"跑这个模型需要什么硬件"
6 个主题（Dracula / Solarized / Nord / Monokai / Gruvbox）

2. CLI 模式


# 只看完美适配的模型，前 5 个
llmfit fit --perfect -n 5

# 搜索特定模型
llmfit search "llama 8b"

# 推荐用于编码的模型（JSON 输出）
llmfit recommend --json --use-case coding --limit 3

# 查看硬件信息
llmfit system

# 反向规划：跑 Qwen3-4B 需要什么硬件
llmfit plan "Qwen/Qwen3-4B" --context 8192 --json

3. REST API


# 启动 API 服务
llmfit serve --host 0.0.0.0 --port 8787

# 查询适合当前节点的模型
curl "http://localhost:8787/api/v1/models/top?limit=5&min_fit=good&use_case=coding"

# 硬件信息
curl http://localhost:8787/api/v1/system

🔧 安装

平台	命令
macOS/Linux	`brew install llmfit`
Windows	`scoop install llmfit`
快速安装	`curl -fsSL https://llmfit.axjns.dev/install.sh \	sh`
Docker	`docker run ghcr.io/alexsjones/llmfit`
源码	`cargo build --release`

🏗️ 技术细节

硬件检测：

- NVIDIA GPU → nvidia-smi / NVML

- AMD GPU → rocm-smi

- Apple Silicon → Metal / sysctl

- 支持多 GPU

模型数据库：157+ 模型，30+ provider
量化评估：自动评估每种量化对内存和质量的影响
MoE 支持：正确计算 MoE 模型的实际激活参数和内存需求
运行时集成：Ollama / llama.cpp / MLX
Plan Mode：给定模型 + context 长度 + 目标 tok/s → 计算需要的最低/推荐硬件

📊 增长速度

指标	数值
创建时间	2026-02-15
当前 Stars	16,189
日均增长	~600 Stars/天
Forks	909

不到一个月 16K Star——增速惊人，说明本地 LLM 社区对"硬件适配"痛点的共鸣极强。

💡 与我们的关联

1. 直接可用：我们有 Ollama 实例（http://100.94.140.76:11434），可以用 llmfit 评估我们的服务器能跑哪些模型

2. REST API 有意思：llmfit serve 可以给集群里每个节点提供"我能跑什么模型"的接口，适合多机调度

3. Plan Mode 实用：评估 DGX Spark / M4 Max 等硬件时，可以用 Plan Mode 反向计算

4. Step 3.5 Flash 适配：可以用 llmfit 验证我们之前评估的 "M4 Max 128GB 跑 Step 3.5 Flash Q4_K_S" 是否合理

5. OpenClaw Skill 潜力：llmfit recommend --json 可以封装成 OpenClaw Skill，让 Agent 自动评估硬件能力

🖥️ 实测：RTX 4090 + 64GB RAM 服务器

我们在 ub2 服务器上实际运行了 llmfit，以下是真实结果。

硬件配置

参数	数值
CPU	Intel i9-13900K（32 核）
GPU	NVIDIA GeForce RTX 4090（24 GB VRAM）
RAM	63 GB（可用 58 GB）
Backend	CUDA

llmfit Top 10 推荐

#	模型	参数	评分	预估 tok/s	适配	量化	VRAM 占用
1	Qwen3-Coder-30B-A3B (AWQ)	30.5B	97	332	Good	AWQ-4bit	65%
2	Codestral-22B (AWQ)	22.2B	96	50	Perfect	AWQ-4bit	73%
3	Qwen3-Coder-30B-A3B (FP8)	30.5B	96	332	Good	Q4_K_M	65%
4	Qwen3-VL-30B-A3B (AWQ)	31.1B	95	448	Good	AWQ-4bit	66%
5	Qwen3-Coder-Next (MoE)	79.7B	95	162	Good	Q4_K_M	19%
6	Mistral-Small-24B (AWQ)	23.6B	95	47	Perfect	AWQ-4bit	77%
7	Qwen3-30B-A3B (GPTQ)	30.5B	95	332	Good	GPTQ-4bit	65%
8	Qwen3.5-35B-A3B	36.0B	94	370	Good	Q4_K_M	77%
9	MiniMax-M2.5 (AWQ)	36.8B	94	378	Good	AWQ-4bit	79%
10	Qwen2.5-Coder-14B (AWQ)	14.8B	93	75	Perfect	AWQ-4bit	49%

关键发现

RTX 4090 的甜蜜区是 30B 级别的 MoE 模型：Qwen3-30B-A3B 系列全部 128 个 experts 放入 VRAM，预估 330+ tok/s
非 MoE 上限约 22-24B：Codestral-22B / Mistral-Small-24B，50 tok/s 左右
79.7B 也能跑：靠 MoE offload——活跃 experts 在 GPU（4.5 GB），其余 offload 到 58GB 系统内存，162 tok/s
VRAM 利用率最高 79%（MiniMax-M2.5），留有余量处理 KV cache

⚠️ 注意

1. 模型数据库有限：157 个模型，可能不覆盖最新的模型

2. 预估 tok/s 是估算值：实际速度取决于很多因素（batch size、context length、量化实现）

3. 统一内存估算可能不准：Apple Silicon 的统一内存 vs 独显 VRAM 的估算逻辑可能有差异

📊 评分

维度	评分（/10）
实用性	9.5 — 解决了本地 LLM 最大的痛点之一
技术质量	8.5 — Rust、TUI/CLI/API 三模式、多 GPU 支持
增长势头	9.0 — 不到一个月 16K Star
完整度	8.0 — Plan Mode + REST API + 主题，功能丰富
与我们的关联	7.5 — 直接可用，REST API 有扩展价值
综合	8.5

报告由深度研究助手自动生成 | 2026-03-13

来源: https://github.com/AlexsJones/llmfit | https://x.com/datachaz/status/2032376859854590314

评分

维度	分数	说明
创意	?/10
技术深度	?/10
实用性	?/10
影响力	?/10
数据支撑	?/10
与我们的相关性	?/10
综合	?/10	需要后续评估

> 一句话总结：（报告的核心价值与我们的关联）