Xinference v2.3.0：企业级大模型推理服务平台——开源界的"统一模型网关"

🎯 一句话版本

关于Xinference v2.3.0：企业级大模型推理服务平台——开源界的"统一模型网关"的深度研究报告

> 来源: https://xinference.cn/release_notes/v2.3.0.html

> 仓库: https://github.com/xorbitsai/inference

> 公司: Xprobe Inc.（xorbits.io / xinference.cn）

> 论文: EMNLP 2024 System Demos

> 许可: Apache-2.0

> 日期: 2026-03-15

📌 一句话总结

Xinference 是一个开源的统一模型推理服务平台，一条命令部署 LLM / 语音 / 多模态 / Embedding / 图像生成模型，支持 5 种推理引擎（vLLM / Transformers / llama.cpp / SGLang / MLX），兼容 OpenAI API。v2.3.0 新增 Qwen3.5 支持并正式发布企业版 1.0。

🆕 v2.3.0 更新内容

社区版

类别	内容
新特性	vLLM 引擎支持 Qwen3.5；新增 `seed` + `repetition_penalty` 参数
增强	Transformers 引擎支持 Qwen3.5；持续更新模型 JSON 配置
Bug 修复	WorkerWrapperBase 参数冲突、qwen3-vl-embedding vLLM 检查、多 GPU 聊天推理、Qwen3.5 缺 generation_config.json、UI 表单默认值

企业版 1.0 正式发布 🎉

标志着 Xinference 从开源社区项目进入商业化阶段。企业版提供：

PPU（专用加速单元）支持
XAgent（AI Agent 能力，含 PPT 生成等）
企业级调度和稳定性保障

🏗️ Xinference 全貌

核心定位


任意开源模型 → Xinference → OpenAI 兼容 API

你有一堆 GPU，想同时跑 LLM + Embedding + TTS + 图像生成？Xinference 就是那个统一的管理和推理层。

支持的模型类型

类型	示例
LLM	Qwen3.5, GLM-5, Kimi-K2.5, MiniMax-M2.5, Llama 4
Embedding	BGE, GTE, E5
语音 ASR	Qwen3-ASR, Whisper
图像生成	FLUX.2-Klein, Stable Diffusion
多模态	GLM-4.7, Qwen-VL
文档解析	MinerU2.5

推理引擎

引擎	特点	适用场景
vLLM	PagedAttention, 高吞吐	生产级 GPU 部署
Transformers	HuggingFace 原生, continuous batching	通用
Xllamacpp	Xinference 自维护的 llama.cpp binding	CPU/混合推理
SGLang	RadixAttention, 结构化生成	高级推理场景
MLX	Apple Silicon 专用	Mac 本地

生产级特性

Auto Batch：并发请求自动批处理，提升吞吐
分布式推理：跨多节点运行大模型
共享 KV Cache：多 vLLM 副本间共享 KV 缓存，节省显存
Continuous Batching：所有引擎均支持
指定 Worker/GPU：精确控制模型放在哪张卡
OpenAI 兼容 API：包括 Function Calling

部署方式


# pip
pip install "xinference[all]"
xinference-local

# Docker (GPU)
docker run -p 9997:9997 --gpus all xprobe/xinference:latest xinference-local -H 0.0.0.0

# Kubernetes (Helm)
helm install xinference xinference/xinference -n xinference

生态集成

平台	用途
Dify	LLMOps 平台
FastGPT	知识库 + RAG
RAGFlow	文档理解 + RAG
MaxKB	知识大脑 + MCP
Chatbox	桌面客户端
LangChain / LlamaIndex	开发框架

📊 Xinference vs Ollama vs vLLM

维度	Xinference	Ollama	vLLM
定位	统一推理平台	本地便捷运行	高性能推理引擎
模型类型	LLM+Embedding+语音+图像+多模态	仅 LLM	仅 LLM
推理引擎	5 种可选	llama.cpp only	vLLM only
分布式	✅ 多节点集群	❌ 单机	✅ 张量并行
Auto Batch	✅	❌	✅
API 兼容	OpenAI + Function Calling	OpenAI	OpenAI
易用性	中等（需配置）	极简（`ollama run`）	需 GPU 配置
Apple Silicon	✅ MLX	✅	❌
企业版	✅	❌	❌
适合场景	多模型混合部署	个人/开发测试	高并发生产

总结：

Ollama = 个人开发者的"docker for LLM"，极简但能力有限
vLLM = 纯 LLM 推理的性能之王
Xinference = 企业级的"模型管理+推理统一平台"，覆盖全模态

🏢 Xprobe 公司背景

公司名: Xprobe Inc.
产品矩阵: Xorbits（分布式数据处理）+ Xinference（模型推理）+ XAgent（AI Agent）
商业模式: 开源社区版 + 企业版
企业版网站: https://xinference.cn
发表: EMNLP 2024（顶级 NLP 会议）System Demonstrations

💡 与我们的关联

1. 替代 Ollama 的可能性

我们目前在 ub2 (RTX 4090) 上用 Ollama 跑本地模型。Xinference 的优势：

多引擎切换：同一个模型可以用 vLLM（高吞吐）或 llama.cpp（省显存）
Auto Batch：多人同时请求时自动批处理，Ollama 没有这个
Embedding + ASR 一起管：不需要单独跑 Whisper 或 Embedding 服务

2. OpenClaw 集成

Xinference 提供 OpenAI 兼容 API，直接作为 OpenClaw 的 provider 配置即可：


{
  "models": {
    "providers": {
      "xinference": {
        "baseUrl": "http://localhost:9997/v1",
        "apiKey": "not-needed"
      }
    }
  }
}

3. 企业级部署参考

如果我们需要给多人提供 AI 服务（不只是个人用），Xinference 的分布式+多模型管理是更合适的选择。

4. 但对我们当前场景来说…

当前我们主要用云端 API（Claude/GPT/Gemini），本地只偶尔跑开源模型。Ollama 的简单性对我们足够了。除非我们开始大量使用本地模型，否则没必要迁移到 Xinference。

📊 评分

维度	评分（/10）
技术完整度	9.0 — 5 种引擎 + 全模态 + 分布式 + K8s
社区活跃度	8.5 — GitHub 高活跃，Dify/FastGPT 等集成
文档质量	7.5 — 英文好，中文企业版较新
实用价值	7.0 — 对多模型企业部署很有价值，个人用 overkill
与我们的关联	6.5 — 当前 Ollama 够用，未来规模化时再考虑
综合	7.8

报告由深度研究助手自动生成 | 2026-03-15

来源: https://xinference.cn/release_notes/v2.3.0.html | https://github.com/xorbitsai/inference

评分

维度	分数	说明
创意	?/10
技术深度	?/10
实用性	?/10
影响力	?/10
数据支撑	?/10
与我们的相关性	?/10
综合	?/10	需要后续评估

> 一句话总结：（报告的核心价值与我们的关联）

评分

维度	分数	说明
创意	?/10
技术深度	?/10
实用性	?/10
影响力	?/10
数据支撑	?/10
与我们的相关性	?/10
综合	?/10	需要后续评估

> 一句话总结：（报告的核心价值与我们的关联）