Xinference v2.3.0:企业级大模型推理服务平台——开源界的"统一模型网关"
> 来源: https://xinference.cn/release_notes/v2.3.0.html
> 仓库: https://github.com/xorbitsai/inference
> 公司: Xprobe Inc.(xorbits.io / xinference.cn)
> 论文: EMNLP 2024 System Demos
> 许可: Apache-2.0
> 日期: 2026-03-15
📌 一句话总结
Xinference 是一个开源的统一模型推理服务平台,一条命令部署 LLM / 语音 / 多模态 / Embedding / 图像生成模型,支持 5 种推理引擎(vLLM / Transformers / llama.cpp / SGLang / MLX),兼容 OpenAI API。v2.3.0 新增 Qwen3.5 支持并正式发布企业版 1.0。
🆕 v2.3.0 更新内容
社区版
| 类别 | 内容 |
|---|---|
| **新特性** | vLLM 引擎支持 Qwen3.5;新增 `seed` + `repetition_penalty` 参数 |
| **增强** | Transformers 引擎支持 Qwen3.5;持续更新模型 JSON 配置 |
| **Bug 修复** | WorkerWrapperBase 参数冲突、qwen3-vl-embedding vLLM 检查、多 GPU 聊天推理、Qwen3.5 缺 generation_config.json、UI 表单默认值 |
企业版 1.0 正式发布 🎉
标志着 Xinference 从开源社区项目进入商业化阶段。企业版提供:
- PPU(专用加速单元)支持
- XAgent(AI Agent 能力,含 PPT 生成等)
- 企业级调度和稳定性保障
🏗️ Xinference 全貌
核心定位
任意开源模型 → Xinference → OpenAI 兼容 API
你有一堆 GPU,想同时跑 LLM + Embedding + TTS + 图像生成?Xinference 就是那个统一的管理和推理层。
支持的模型类型
| 类型 | 示例 |
|---|---|
| **LLM** | Qwen3.5, GLM-5, Kimi-K2.5, MiniMax-M2.5, Llama 4 |
| **Embedding** | BGE, GTE, E5 |
| **语音 ASR** | Qwen3-ASR, Whisper |
| **图像生成** | FLUX.2-Klein, Stable Diffusion |
| **多模态** | GLM-4.7, Qwen-VL |
| **文档解析** | MinerU2.5 |
推理引擎
| 引擎 | 特点 | 适用场景 |
|---|---|---|
| **vLLM** | PagedAttention, 高吞吐 | 生产级 GPU 部署 |
| **Transformers** | HuggingFace 原生, continuous batching | 通用 |
| **Xllamacpp** | Xinference 自维护的 llama.cpp binding | CPU/混合推理 |
| **SGLang** | RadixAttention, 结构化生成 | 高级推理场景 |
| **MLX** | Apple Silicon 专用 | Mac 本地 |
生产级特性
- Auto Batch:并发请求自动批处理,提升吞吐
- 分布式推理:跨多节点运行大模型
- 共享 KV Cache:多 vLLM 副本间共享 KV 缓存,节省显存
- Continuous Batching:所有引擎均支持
- 指定 Worker/GPU:精确控制模型放在哪张卡
- OpenAI 兼容 API:包括 Function Calling
部署方式
# pip
pip install "xinference[all]"
xinference-local
# Docker (GPU)
docker run -p 9997:9997 --gpus all xprobe/xinference:latest xinference-local -H 0.0.0.0
# Kubernetes (Helm)
helm install xinference xinference/xinference -n xinference
生态集成
| 平台 | 用途 |
|---|---|
| **Dify** | LLMOps 平台 |
| **FastGPT** | 知识库 + RAG |
| **RAGFlow** | 文档理解 + RAG |
| **MaxKB** | 知识大脑 + MCP |
| **Chatbox** | 桌面客户端 |
| **LangChain / LlamaIndex** | 开发框架 |
📊 Xinference vs Ollama vs vLLM
| 维度 | Xinference | Ollama | vLLM |
|---|---|---|---|
| **定位** | 统一推理平台 | 本地便捷运行 | 高性能推理引擎 |
| **模型类型** | LLM+Embedding+语音+图像+多模态 | 仅 LLM | 仅 LLM |
| **推理引擎** | 5 种可选 | llama.cpp only | vLLM only |
| **分布式** | ✅ 多节点集群 | ❌ 单机 | ✅ 张量并行 |
| **Auto Batch** | ✅ | ❌ | ✅ |
| **API 兼容** | OpenAI + Function Calling | OpenAI | OpenAI |
| **易用性** | 中等(需配置) | 极简(`ollama run`) | 需 GPU 配置 |
| **Apple Silicon** | ✅ MLX | ✅ | ❌ |
| **企业版** | ✅ | ❌ | ❌ |
| **适合场景** | 多模型混合部署 | 个人/开发测试 | 高并发生产 |
总结:
- Ollama = 个人开发者的"docker for LLM",极简但能力有限
- vLLM = 纯 LLM 推理的性能之王
- Xinference = 企业级的"模型管理+推理统一平台",覆盖全模态
🏢 Xprobe 公司背景
- 公司名: Xprobe Inc.
- 产品矩阵: Xorbits(分布式数据处理)+ Xinference(模型推理)+ XAgent(AI Agent)
- 商业模式: 开源社区版 + 企业版
- 企业版网站: https://xinference.cn
- 发表: EMNLP 2024(顶级 NLP 会议)System Demonstrations
💡 与我们的关联
1. 替代 Ollama 的可能性
我们目前在 ub2 (RTX 4090) 上用 Ollama 跑本地模型。Xinference 的优势:
- 多引擎切换:同一个模型可以用 vLLM(高吞吐)或 llama.cpp(省显存)
- Auto Batch:多人同时请求时自动批处理,Ollama 没有这个
- Embedding + ASR 一起管:不需要单独跑 Whisper 或 Embedding 服务
2. OpenClaw 集成
Xinference 提供 OpenAI 兼容 API,直接作为 OpenClaw 的 provider 配置即可:
{
"models": {
"providers": {
"xinference": {
"baseUrl": "http://localhost:9997/v1",
"apiKey": "not-needed"
}
}
}
}
3. 企业级部署参考
如果我们需要给多人提供 AI 服务(不只是个人用),Xinference 的分布式+多模型管理是更合适的选择。
4. 但对我们当前场景来说…
当前我们主要用云端 API(Claude/GPT/Gemini),本地只偶尔跑开源模型。Ollama 的简单性对我们足够了。除非我们开始大量使用本地模型,否则没必要迁移到 Xinference。
📊 评分
| 维度 | 评分(/10) |
|---|---|
| 技术完整度 | 9.0 — 5 种引擎 + 全模态 + 分布式 + K8s |
| 社区活跃度 | 8.5 — GitHub 高活跃,Dify/FastGPT 等集成 |
| 文档质量 | 7.5 — 英文好,中文企业版较新 |
| 实用价值 | 7.0 — 对多模型企业部署很有价值,个人用 overkill |
| 与我们的关联 | 6.5 — 当前 Ollama 够用,未来规模化时再考虑 |
| **综合** | **7.8** |
报告由深度研究助手自动生成 | 2026-03-15
来源: https://xinference.cn/release_notes/v2.3.0.html | https://github.com/xorbitsai/inference