Xinference v2.3.0:企业级大模型推理服务平台——开源界的"统一模型网关"

> 来源: https://xinference.cn/release_notes/v2.3.0.html

> 仓库: https://github.com/xorbitsai/inference

> 公司: Xprobe Inc.(xorbits.io / xinference.cn)

> 论文: EMNLP 2024 System Demos

> 许可: Apache-2.0

> 日期: 2026-03-15

📌 一句话总结

Xinference 是一个开源的统一模型推理服务平台,一条命令部署 LLM / 语音 / 多模态 / Embedding / 图像生成模型,支持 5 种推理引擎(vLLM / Transformers / llama.cpp / SGLang / MLX),兼容 OpenAI API。v2.3.0 新增 Qwen3.5 支持并正式发布企业版 1.0

🆕 v2.3.0 更新内容

社区版

类别内容
**新特性**vLLM 引擎支持 Qwen3.5;新增 `seed` + `repetition_penalty` 参数
**增强**Transformers 引擎支持 Qwen3.5;持续更新模型 JSON 配置
**Bug 修复**WorkerWrapperBase 参数冲突、qwen3-vl-embedding vLLM 检查、多 GPU 聊天推理、Qwen3.5 缺 generation_config.json、UI 表单默认值

企业版 1.0 正式发布 🎉

标志着 Xinference 从开源社区项目进入商业化阶段。企业版提供:

🏗️ Xinference 全貌

核心定位


任意开源模型 → Xinference → OpenAI 兼容 API

你有一堆 GPU,想同时跑 LLM + Embedding + TTS + 图像生成?Xinference 就是那个统一的管理和推理层

支持的模型类型

类型示例
**LLM**Qwen3.5, GLM-5, Kimi-K2.5, MiniMax-M2.5, Llama 4
**Embedding**BGE, GTE, E5
**语音 ASR**Qwen3-ASR, Whisper
**图像生成**FLUX.2-Klein, Stable Diffusion
**多模态**GLM-4.7, Qwen-VL
**文档解析**MinerU2.5

推理引擎

引擎特点适用场景
**vLLM**PagedAttention, 高吞吐生产级 GPU 部署
**Transformers**HuggingFace 原生, continuous batching通用
**Xllamacpp**Xinference 自维护的 llama.cpp bindingCPU/混合推理
**SGLang**RadixAttention, 结构化生成高级推理场景
**MLX**Apple Silicon 专用Mac 本地

生产级特性

部署方式


# pip
pip install "xinference[all]"
xinference-local

# Docker (GPU)
docker run -p 9997:9997 --gpus all xprobe/xinference:latest xinference-local -H 0.0.0.0

# Kubernetes (Helm)
helm install xinference xinference/xinference -n xinference

生态集成

平台用途
**Dify**LLMOps 平台
**FastGPT**知识库 + RAG
**RAGFlow**文档理解 + RAG
**MaxKB**知识大脑 + MCP
**Chatbox**桌面客户端
**LangChain / LlamaIndex**开发框架

📊 Xinference vs Ollama vs vLLM

维度XinferenceOllamavLLM
**定位**统一推理平台本地便捷运行高性能推理引擎
**模型类型**LLM+Embedding+语音+图像+多模态仅 LLM仅 LLM
**推理引擎**5 种可选llama.cpp onlyvLLM only
**分布式**✅ 多节点集群❌ 单机✅ 张量并行
**Auto Batch**
**API 兼容**OpenAI + Function CallingOpenAIOpenAI
**易用性**中等(需配置)极简(`ollama run`)需 GPU 配置
**Apple Silicon**✅ MLX
**企业版**
**适合场景**多模型混合部署个人/开发测试高并发生产

总结

🏢 Xprobe 公司背景

💡 与我们的关联

1. 替代 Ollama 的可能性

我们目前在 ub2 (RTX 4090) 上用 Ollama 跑本地模型。Xinference 的优势:

2. OpenClaw 集成

Xinference 提供 OpenAI 兼容 API,直接作为 OpenClaw 的 provider 配置即可:


{
  "models": {
    "providers": {
      "xinference": {
        "baseUrl": "http://localhost:9997/v1",
        "apiKey": "not-needed"
      }
    }
  }
}

3. 企业级部署参考

如果我们需要给多人提供 AI 服务(不只是个人用),Xinference 的分布式+多模型管理是更合适的选择。

4. 但对我们当前场景来说…

当前我们主要用云端 API(Claude/GPT/Gemini),本地只偶尔跑开源模型。Ollama 的简单性对我们足够了。除非我们开始大量使用本地模型,否则没必要迁移到 Xinference。

📊 评分

维度评分(/10)
技术完整度9.0 — 5 种引擎 + 全模态 + 分布式 + K8s
社区活跃度8.5 — GitHub 高活跃,Dify/FastGPT 等集成
文档质量7.5 — 英文好,中文企业版较新
实用价值7.0 — 对多模型企业部署很有价值,个人用 overkill
与我们的关联6.5 — 当前 Ollama 够用,未来规模化时再考虑
**综合****7.8**

报告由深度研究助手自动生成 | 2026-03-15

来源: https://xinference.cn/release_notes/v2.3.0.html | https://github.com/xorbitsai/inference