用 llm-mlx 在 Mac 上跑本地大模型:最简单的入门方式

> 来源: https://simonw.substack.com/p/run-llms-on-macos-using-llm-mlx-and

> 作者: Simon Willison

> 日期: 2025-02(文章发布时间)

> 工具: https://github.com/simonw/llm-mlx

📌 核心内容

Simon Willison(Datasette 作者、Django 联合创始人、AI 工具领域最活跃的独立开发者之一)发布了 llm-mlx——一个基于 Apple MLX 框架的 LLM 插件,可能是目前 Mac 用户在终端跑本地大模型最简单的方式

三条命令即可开始:


llm install llm-mlx
llm mlx download-model mlx-community/Llama-3.2-3B-Instruct-4bit
llm -m mlx-community/Llama-3.2-3B-Instruct-4bit '你的问题'

🔧 技术栈

LLM CLI

LLM 是 Simon Willison 开发的 Python CLI 工具和库,统一了各种大模型的调用接口。通过插件系统支持 OpenAI、Anthropic、本地模型等,所有对话自动记录到 SQLite 数据库。

Apple MLX

MLX 是 Apple 在 2023 年 11 月开源的数组计算框架,专为 Apple Silicon 优化。核心用 C++ 编写,配合 Python 接口,在 M 系列芯片上跑推理性能极强。

Simon 引用了 MLX 核心开发者 Awni Hannun 的数据:

> M4 Max 上 4-bit Qwen 0.5B 生成 1K token 的速度达到 510 tokens/sec,iPhone 16 Pro 上也能跑到 150 tok/sec

Simon 评价:"这个 Apple 小团队几乎凭一己之力在和 NVIDIA 的 CUDA 竞争。"

📊 推荐模型和性能

模型大小内存需求适合场景
Qwen2.5-0.5B-Instruct-4bit278 MB极小测试、轻量任务
**Llama-3.2-3B-Instruct-4bit**1.8 GB~4 GB⭐ 入门首选,152 tok/s
Mistral-7B-Instruct-v0.3-4bit4.08 GB~8 GB日常使用
**Mistral-Small-24B-Instruct-4bit**13.26 GB~16 GB⭐ GPT-4 级别体验
DeepSeek-R1-Distill-Qwen-32B-4bit18.5 GB~24 GB推理/思维链
Llama-3.3-70B-Instruct-4bit40 GB64 GB最强本地模型

Simon 的推荐

🎯 关键特性

别名系统


llm aliases set l32 mlx-community/Llama-3.2-3B-Instruct-4bit
llm -m l32 '你的问题'  # 短多了

管道支持


cat code.py | llm -m l32 'explain this code'

对话模式(大模型常驻内存)


llm chat -m mlx-community/Llama-3.3-70B-Instruct-4bit

参数控制


llm -m l32 'a greeting' -o temperature 1.0 -o seed 2

固定 seed 可以产生可重复的结果,方便写测试。

Python API


import llm
model = llm.get_model("mlx-community/Llama-3.2-3B-Instruct-4bit")
print(model.prompt("hi").text())

自动日志

所有 prompt 和 response 自动记录到 SQLite 数据库,用 llm logs 查看。

💡 分析与评价

为什么这个工具重要

1. 极低门槛:三条命令从零开始跑本地大模型,没有 Docker、没有复杂配置

2. Apple Silicon 原生优化:MLX 直接利用 M 系列芯片的统一内存架构,无需 GPU 显存

3. 生态统一:LLM CLI 的插件系统让你用同一个命令调用 OpenAI API、本地 MLX 模型、GGUF 模型等

4. mlx-community 生态:HuggingFace 上 mlx-community 组织已发布 1000+ 个 MLX 格式模型

5. Simon Willison 品质:作为 Django 联合创始人和顶级独立开发者,代码质量、文档和测试都是一流的

与 Ollama 的对比

特性llm-mlxOllama
平台macOS only全平台
底层Apple MLXllama.cpp
性能(Mac)⭐ 更快良好
模型格式MLX (HuggingFace)GGUF
API 风格CLI + Python 库REST API
日志记录✅ SQLite 自动记录
插件生态✅ LLM 插件系统

如果你只用 Mac,llm-mlx 可能是更好的选择(性能更好、CLI 更优雅)。如果需要跨平台或 REST API,Ollama 仍然是首选。

评分

维度评分(/10)
实用价值9.5
易用性10
技术实现8.5
文档质量9.5
**综合****9.4**

🔗 与我们的关联

1. 本地 AI 开发:如果有 Mac,可以零成本跑本地大模型做开发测试,不消耗 API 额度

2. 离线使用:飞机上、没网时也能用 AI 辅助编程

3. 隐私保护:所有数据都在本地,不经过任何第三方服务器

4. 快速原型:Python API 可以直接集成到项目中做本地推理

5. MLX 生态:Apple 的 MLX 框架发展很快,值得持续关注

快速开始


# 安装 LLM
brew install llm  # 或 pip install llm

# 安装 MLX 插件
llm install llm-mlx

# 下载入门模型(1.8GB)
llm mlx download-model mlx-community/Llama-3.2-3B-Instruct-4bit

# 设置别名
llm aliases set l32 mlx-community/Llama-3.2-3B-Instruct-4bit

# 开聊!
llm -m l32 'Python 实现快速排序'

报告由深度研究助手自动生成 | 2026-03-07