Mac mini M4 (16GB) 开源小模型完全指南

> 最后更新:2026-03-07

>

> 硬件:Mac mini M4 (10核 GPU, 16GB 统一内存)

>

> 原则:模型内存占用 ≤ 12GB(留 4GB 给系统),实际推荐保持在 ~9.6GB 以内(60% 规则)以确保长对话稳定性

目录

1. 通用对话/编程

2. 代码生成

3. 视觉理解 (VLM)

4. 语音识别 (ASR)

5. 翻译

6. 嵌入/RAG

7. TTS (文字转语音)

8. 其他有趣的

9. 工具推荐

10. 总结与推荐组合

1. 通用对话/编程

⭐ Qwen3-8B(推荐首选)

项目详情
参数量8B
量化后内存~5GB (Q4_K_M)
Ollama 命令`ollama run qwen3:8b`
速度~30-35 t/s (Q4, M4)
适用场景通用对话、中文理解、编程、推理
社区评价r/LocalLLaMA 热度最高的 8B 模型之一,中文能力出色,支持思考模式(thinking mode),性价比极高

Qwen3 系列是 2025 年社区公认的最强开源模型家族之一。8B 版本在 16GB Mac 上运行流畅,中文能力远超同级别竞品。

> 来源:Reddit r/LocalLLaMA - Good models for 16GB M4

⭐ Gemma 3 12B(12B 能跑的天花板)

项目详情
参数量12B
量化后内存~8GB (Q4_K_M)
Ollama 命令`ollama run gemma3:12b`
速度~20-25 t/s (Q4, M4)
适用场景通用对话、推理、指令遵循
社区评价Google 出品,质量高,支持多模态(图片输入),在 16GB 上是能稳定运行的最大密集模型

> 来源:Reddit r/ollama - Mac Mini M4 Pro

Qwen3-30B-A3B(MoE 黑马)

项目详情
参数量30B (激活 3B)
量化后内存~9-10GB (Q4_K_M)
Ollama 命令`ollama run qwen3:30b-a3b`
速度~15-23 t/s
适用场景需要更强推理但内存有限的场景
社区评价MoE 架构,30B 参数只激活 3B,性能接近 14B 密集模型但更快

> 来源:Reddit r/LocalLLaMA - Qwen 3 Performance

Llama 3.2 3B

项目详情
参数量3B
量化后内存~2GB (Q4)
Ollama 命令`ollama run llama3.2:3b`
速度~60+ t/s
适用场景轻量任务、快速响应、资源受限场景
社区评价Meta 出品,英文能力好,适合需要极快响应的场景

Phi-4 Mini 3.8B

项目详情
参数量3.8B
量化后内存~2.5GB (Q4)
Ollama 命令`ollama run phi4-mini`
速度~50+ t/s
适用场景推理、数学、编程
社区评价微软出品,推理能力超越同尺寸模型,但中文相对较弱

DeepSeek-R1-Distill-Qwen-8B

项目详情
参数量8B
量化后内存~5GB (Q4)
Ollama 命令`ollama run deepseek-r1:8b`
速度~28-32 t/s
适用场景深度推理、数学、逻辑分析
社区评价DeepSeek R1 蒸馏版,推理能力强,有"思考链"输出

> 来源:Reddit r/LocalLLaMA - Good models for 16GB M4

2. 代码生成专用

⭐ Qwen2.5-Coder-7B

项目详情
参数量7B
量化后内存~5GB (Q4)
Ollama 命令`ollama run qwen2.5-coder:7b`
速度~30 t/s
适用场景代码生成、补全、重构、debug
社区评价编程能力在 7B 级别中顶尖,支持 90+ 编程语言,中文注释理解好

DeepSeek-Coder-V2-Lite

项目详情
参数量16B (MoE, 激活 2.4B)
量化后内存~9GB
Ollama 命令`ollama run deepseek-coder-v2:16b`
速度~20 t/s
适用场景代码生成、代码理解
社区评价MoE 架构,代码能力出色

Codestral 22B (Mistral)

项目详情
参数量22B
量化后内存~12GB (Q3/Q4 激进量化)
Ollama 命令`ollama run codestral:latest`
速度~10-12 t/s(卡内存上限)
适用场景代码生成(需要最强代码能力时)
社区评价勉强能跑但会吃满内存,建议仅在不需要长对话时使用

> ⚠️ 22B 在 16GB 上属于极限操作,长对话会卡顿

3. 视觉理解 (VLM)

⭐ Gemma 3 4B (多模态)

项目详情
参数量4B
量化后内存~3GB
Ollama 命令`ollama run gemma3:4b`
速度~40 t/s
适用场景图片描述、OCR、视觉问答
社区评价原生支持图片输入,轻量且效果不错

⭐ Qwen2.5-VL-7B

项目详情
参数量7B
量化后内存~5-6GB (Q4)
Ollama 命令`ollama run qwen2.5vl:7b`
速度~15-20 t/s(图片推理较慢)
适用场景图片理解、文档 OCR、视频帧分析
社区评价VLM 领域标杆,支持动态分辨率,OCR 能力出色

Llama 3.2 Vision 11B

项目详情
参数量11B
量化后内存~7-8GB (Q4)
Ollama 命令`ollama run llama3.2-vision:11b`
速度~8-12 t/s(图片处理较慢)
适用场景图片理解、视觉推理
社区评价能跑但图片评估速度明显慢于 GPU 方案

> 来源:Reddit r/LocalLLaMA - Mac Mini M4 16GB Test Results

mlx-vlm(MLX 框架 VLM 工具)

专为 Apple Silicon 优化的 VLM 推理库,支持 Qwen2.5-VL、Qwen3-VL 等模型,性能比 Ollama 更好。


pip install mlx-vlm
python -m mlx_vlm.generate --model Qwen/Qwen2.5-VL-7B-Instruct-4bit --image path/to/image.jpg --prompt "描述这张图片"

> 来源:GitHub - awesome-mlxReddit - Local Video-to-Text on Apple Silicon

4. 语音识别 (ASR)

⭐ Whisper Large-v3-Turbo (whisper.cpp)

项目详情
参数量~800M
内存占用~2-3GB
安装方式`brew install whisper-cpp` 或编译 whisper.cpp (Metal 加速)
速度比实时快 10-15x(M4 Metal)
适用场景语音转文字、会议记录、字幕生成
社区评价社区公认最佳本地 ASR 方案,Metal 加速后速度飞快

# whisper.cpp 使用
./main -m models/ggml-large-v3-turbo.bin -f audio.wav -l zh

> 来源:Turbocharging transcription: whisper.cpp on Mac mini M4Reddit r/homeassistant

lightning-whisper-mlx

基于 MLX 框架的 Whisper 实现,专为 Apple Silicon 优化,比 whisper.cpp 更快。


pip install lightning-whisper-mlx

> 来源:GitHub - awesome-mlx

Whisper Base/Small/Medium

如果需要更轻量的方案:

模型参数量内存速度精度
whisper-tiny39M~150MB极快一般
whisper-base74M~300MB很快可用
whisper-small244M~1GB不错
whisper-medium769M~2GB较快很好
whisper-large-v3-turbo~800M~2-3GB最佳

推荐:直接用 large-v3-turbo,在 M4 上足够快且精度最高。

5. 翻译

⭐ Qwen3-8B(通用翻译首选)

Qwen3-8B 的英译中能力在同级别模型中名列前茅,可以通过 system prompt 设定为翻译专用:


ollama run qwen3:8b "Translate the following to Chinese: ..."

NLLB-200 (No Language Left Behind)

项目详情
参数量600M / 1.3B / 3.3B
内存占用1-4GB
安装方式Hugging Face transformers
适用场景纯翻译任务,支持 200+ 语言
社区评价Meta 出品,专业翻译模型,质量稳定

from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
model = AutoModelForSeq2SeqLM.from_pretrained("facebook/nllb-200-3.3B")

Madlad-400

项目详情
参数量3B / 7B / 10B
内存占用2-6GB
安装方式Hugging Face
适用场景多语言翻译
社区评价Google 出品,400+ 语言支持

实用建议: 对于英译中,直接用 Qwen3-8B 效果就很好,无需专门翻译模型。需要高吞吐批量翻译时考虑 NLLB。

6. 嵌入/RAG

⭐ nomic-embed-text

项目详情
参数量137M
内存占用~300MB
Ollama 命令`ollama pull nomic-embed-text`
向量维度768
适用场景文档检索、RAG、语义搜索
社区评价Ollama 生态中最流行的 embedding 模型,质量/性能平衡好

> 来源:Reddit r/LocalLLaMA - What LLM is everyone using

mxbai-embed-large

项目详情
参数量335M
内存占用~700MB
Ollama 命令`ollama pull mxbai-embed-large`
向量维度1024
适用场景需要更高质量 embedding 的 RAG
社区评价质量比 nomic 略高,但也略慢

bge-m3

项目详情
参数量568M
内存占用~1.2GB
安装方式Hugging Face / FlagEmbedding
向量维度1024
适用场景多语言 embedding,中文检索效果优秀
社区评价中文 RAG 首选,支持稀疏+密集混合检索

推荐组合: nomic-embed-text (Ollama) + Qwen3-8B 构建 RAG 管线,简单高效。

7. TTS (文字转语音)

⭐ F5-TTS-MLX

项目详情
内存占用~2-3GB
安装方式`pip install f5-tts-mlx`
适用场景高质量语音合成、声音克隆
社区评价Apple Silicon 原生优化 (MLX),支持声音克隆,中文效果好

f5-tts-mlx --text "你好世界" --ref-audio reference.wav --output output.wav

> 来源:Reddit r/LocalLLaMA - Best TTS on Apple GPU

mlx-audio

项目详情
内存占用~1-3GB(取决于模型)
安装方式`pip install mlx-audio`
适用场景TTS + STT + STS 一站式方案
社区评价集成多个模型(Kokoro、Dia、CSM 等),Apple Silicon 专属

支持的 TTS 引擎:


import mlx_audio
# 详见 https://github.com/Blaizzy/mlx-audio

> 来源:GitHub - mlx-audio

MeloTTS

项目详情
内存占用~500MB
安装方式pip install
适用场景轻量 TTS,多语言
社区评价非常轻量,质量尚可,适合不需要极高音质的场景

Kokoro-82M

项目详情
参数量82M
内存占用~200MB
Ollama 命令❌ 不在 Ollama
适用场景超轻量 TTS
社区评价极小但效果惊人,英文为主

8. 其他有趣的

OCR: Surya

项目详情
内存占用~2GB
安装方式`pip install surya-ocr`
适用场景文档 OCR、多语言文字识别
社区评价90+ 语言支持,比 Tesseract 精度高很多

OCR: GOT-OCR2

项目详情
参数量~580M
内存占用~2GB
适用场景通用 OCR,支持表格、公式
社区评价端到端 OCR 模型,不需要复杂 pipeline

音乐生成: MusicGen-Small

项目详情
参数量300M
内存占用~1.5GB
安装方式Hugging Face transformers
适用场景文本描述生成音乐
社区评价Meta 出品,小模型效果已经不错

图像生成: Stable Diffusion (CoreML)

项目详情
内存占用~6-8GB
工具[Draw Things](https://drawthings.ai/) (macOS app) 或 [ml-stable-diffusion](https://github.com/apple/ml-stable-diffusion)
适用场景图片生成
社区评价通过 CoreML 优化在 M4 上可用,SDXL 勉强能跑

函数调用 / Agent: Hermes 3 8B

项目详情
参数量8B
Ollama 命令`ollama run hermes3:8b`
适用场景函数调用、Agent 工作流
社区评价NousResearch 出品,function calling 能力好

9. 工具推荐

推理框架对比

工具优势Apple Silicon 优化推荐度
**Ollama**最简单,一键安装✅ Metal⭐⭐⭐⭐⭐
**LM Studio**GUI 好看,模型管理方便✅ Metal⭐⭐⭐⭐⭐
**MLX / llm-mlx**Apple 原生框架,最快✅✅ 原生⭐⭐⭐⭐
**llama.cpp**最底层,最灵活✅ Metal⭐⭐⭐

关键发现:MLX 比 Ollama/llama.cpp 快 20-30%,因为它是 Apple 专门为自家芯片设计的框架。如果追求极致性能,用 MLX。


# MLX CLI 方式
pip install mlx-lm
mlx_lm.generate --model mlx-community/Qwen2.5-7B-Instruct-4bit --prompt "你好"

# 或通过 Simon Willison 的 llm 工具
pip install llm llm-mlx
llm install llm-mlx
llm mlx download-model mlx-community/Qwen2.5-7B-Instruct-4bit
llm -m qwen2.5-7b "你好"

> 来源:Simon Willison - Run LLMs on macOS using llm-mlxReddit r/LocalLLM

内存管理技巧


# 增加 Ollama 可用的内存(默认约 60-70%)
# macOS 上可以通过 sysctl 调整
sudo sysctl iogpu.wired_limit_mb=12288

10. 总结与推荐组合

🏆 推荐的"全家桶"组合(总内存 < 12GB)

用途模型内存命令
通用对话Qwen3-8B Q4~5GB`ollama run qwen3:8b`
编程Qwen2.5-Coder-7B Q4~5GB`ollama run qwen2.5-coder:7b`
视觉理解Qwen2.5-VL-7B Q4~5GB`ollama run qwen2.5vl:7b`
语音识别Whisper large-v3-turbo~2GBwhisper.cpp + Metal
嵌入/RAGnomic-embed-text~300MB`ollama pull nomic-embed-text`
TTSF5-TTS-MLX~2GB`pip install f5-tts-mlx`

> ⚠️ 注意:这些模型不能同时加载!Ollama 会自动卸载不活跃的模型。同时运行建议只保持 1 个大模型 + 1 个 embedding 模型。

性能速查表 (Mac mini M4, 16GB, Q4_K_M 量化)

模型参数内存预计速度
Qwen3-0.6B0.6B~500MB~200 t/s
Llama 3.2 3B3B~2GB~60 t/s
Phi-4 Mini 3.8B3.8B~2.5GB~50 t/s
Gemma 3 4B4B~3GB~40 t/s
Qwen3-8B8B~5GB~30-35 t/s
Qwen2.5-Coder-7B7B~5GB~30 t/s
DeepSeek-R1 8B8B~5GB~28-32 t/s
Qwen3-30B-A3B (MoE)30B/3B~9GB~15-23 t/s
Gemma 3 12B12B~8GB~20-25 t/s
Qwen3-14B14B~9GB~15 t/s

关键原则

1. 60% 规则:模型不超过 9.6GB,长对话才稳定

2. MLX > Ollama:追求速度用 MLX,追求方便用 Ollama

3. Q4_K_M 是甜点:质量和大小的最佳平衡

4. MoE 是秘密武器:Qwen3-30B-A3B 用小内存获得大模型效果

5. 按需加载:不要同时跑多个大模型

信息来源