Qwen3.5-Omni 深度研究报告:下一代原生全模态 AI

> 发布日期:2026-03-31 | 作者:Tony @ Jay's Lab

>

> Qwen3.5-Omni 于 2026 年 3 月 30 日发布,是阿里巴巴通义千问团队迄今最具野心的 AI 模型升级——原生全模态(Omnimodal),同时处理文本、图像、音频和视频,并以 36 种语言实时对话。

1. 模型概述

1.1 架构:Thinker-Talker

Qwen3.5-Omni 采用 Thinker-Talker 双组件架构

两个组件均采用 Hybrid-Attention MoE(混合注意力专家混合) 架构,专门的 "expert" 分别处理音频、视频和文本,在保持单模态性能的同时实现跨模态协同。

1.2 三个版本

版本定位适用场景
**Plus**旗舰版,最强性能高精度推理、复杂音视频理解、研究
**Flash**平衡版,速度与质量兼顾生产环境、实时交互、日常应用
**Light**轻量版,成本最低简单任务、边缘部署、高吞吐场景

三个版本均支持 256K token 上下文窗口

1.3 参数量

Qwen3.5-Omni 的具体参数量尚未官方披露。参考 Qwen3.5 文本系列的 MoE 架构(旗舰 397B 总参/17B 激活参数),Omni 版本预计采用类似的稀疏架构设计。上一代 Qwen3-Omni 开源版为 30B-A3B(总参 30B,激活参数 3B),Qwen3.5-Omni 各版本规模应显著大于此。

2. 技术细节

2.1 训练数据:1 亿+小时音视频

Qwen3.5-Omni 在 超过 1 亿小时的原生多模态音视频数据 上训练,这一规模远超大多数竞品。这不是简单的文本数据叠加音频/视频,而是真正的原生多模态训练——模型从一开始就学会同时理解声音和画面的关联。

2.2 上下文窗口:256K tokens

256K token 的上下文窗口意味着:

对于播客转录、长视频分析、大文档理解等场景,这个窗口足够覆盖绝大多数实际需求。

2.3 ARIA(Adaptive Rate Interleave Alignment)

ARIA 是 Qwen3.5-Omni 引入的新技术,解决了一个长期困扰 AI 语音系统的问题:朗读数字、专有名词或非常规词汇时出现含糊不清或吞字

ARIA 动态同步文本和语音的生成速率,确保:

2.4 语义打断(Semantic Interruption)

传统语音 AI 使用简单的 VAD(Voice Activity Detection),任何声音都可能触发中断。Qwen3.5-Omni 的语义打断能力可以:

2.5 声音克隆

用户可以上传语音样本,模型会在后续回复中采用该声音。特点:

2.6 多语言能力

能力Qwen3-Omni(上代)Qwen3.5-Omni
语音识别(ASR)19 种语言**113 种语言和方言**
语音输出(TTS)10 种语言**36 种语言和方言**

这是一个数量级的跃升,尤其是 ASR 从 19 种到 113 种。

2.7 Audio-Visual Vibe Coding

这是最令人意外的 emergent 能力:用户可以一边口述需求,一边展示屏幕录像、设计稿或现有 UI,模型就能 直接生成可运行的 Python 代码或前端原型——不需要文本 prompt。

阿里官方表示这个能力 "emerged without specific training"(未经专门训练自然涌现),暗示原生全模态训练可以解锁人类未曾设计的交互模式。

2.8 其他关键能力

3. Benchmark 对比

3.1 核心成绩

Qwen3.5-Omni-Plus 在音频和音视频理解、推理、交互任务中取得了 215 项 SOTA(State-of-the-Art)成绩。

BenchmarkQwen3.5-Omni-Plus
VoiceBench93.1
RealWorldQA(视觉)84.1
MVBench(视频理解)79.0
OCRBench91.3
IFEval(指令跟随)89.7
MMLU-Redux(知识推理)94.2

3.2 与 Gemini 3.1 Pro 对比

3.3 与 GPT-5.4 Audio 对比

Decrypt 的实测对比非常直观:给同一个 YouTube Short 视频:

这不是简单的速度差异,而是架构差异——原生全模态 vs. 拼接式管线。

3.4 多语言语音稳定性

在 20 种语言的多语言语音稳定性 benchmark 上,Qwen3.5-Omni-Plus 超越 ElevenLabs、GPT-Audio 和 Minimax,在公开和内部 benchmark 上均取得最低不稳定性分数。

4. 开源状态

4.1 当前状态一览

模型开源状态许可证获取方式
Qwen3.5(文本系列)✅ 已开源Apache 2.0[Ollama](https://ollama.com/library/qwen3.5)、[HuggingFace](https://huggingface.co/Qwen)
Qwen3-Omni(上一代)✅ 已开源Apache 2.0[GitHub](https://github.com/QwenLM/Qwen3-Omni)、[HuggingFace](https://huggingface.co/Qwen/Qwen3-Omni-30B-A3B-Instruct)
**Qwen3.5-Omni**❌ 未开源仅 API + [HuggingFace Demo](https://huggingface.co/Qwen) + [Qwen Chat](https://chat.qwen.ai/)

4.2 开源预期

根据 Qwen 团队的历史模式:

可能的时间线:发布后 1-3 个月,但考虑到声音克隆等敏感功能,开源版本可能会有功能裁剪。

4.3 本地运行

目前无法本地运行 Qwen3.5-Omni。上一代 Qwen3-Omni(30B-A3B)在本地可运行,但开源社区反馈语音选择有限(仅 Chelsie、Ethan、Aiden 三种声音),远少于 API 版本。

5. Babel 播客替代分析 ⭐

5.1 当前 Babel 流程


YouTube 视频
  → yt-dlp 下载音频 (MP3)
  → Whisper large-v3 转录 (英文 ASR)
  → DeepSeek 翻译 (英→中)
  → IndexTTS2 声音克隆合成 (中文 TTS)
  → 中文播客音频

每个步骤用专门的工具,总耗时约 40 分钟(55 分钟视频)。

5.2 Qwen3.5-Omni 的理论能力覆盖

Qwen3.5-Omni 理论上可以覆盖 Babel 的整个流程:

Babel 步骤Qwen3.5-Omni 能力理论可替代?
Whisper 转录113 种语言 ASR,SOTA 级别✅ 完全可替代
DeepSeek 翻译原生多语言理解 + 翻译能力超 Gemini 3.1 Pro✅ 可替代
IndexTTS2 声音克隆内置声音克隆,36 种语言输出⚠️ 理论可行,但...

5.3 实际限制(重要!)

① 长音频端到端输出不支持

② 播客级声音克隆质量未验证

③ 多角色切换不确定

④ 输出格式限制

5.4 推荐方案

短期(立即可做):混合方案


YouTube 视频
  → yt-dlp 下载音频
  → Qwen3.5-Omni 理解 + 转录 + 翻译(替代 Whisper + DeepSeek)
  → IndexTTS2 声音克隆合成(保持不变)
  → 中文播客音频

优势:

中期(API 开放后测试):A/B 对比

等 Qwen3.5-Omni 的声音克隆 API 完全开放后:

1. 用 Omni 端到端(ASR + 翻译 + TTS)处理一段 5-10 分钟的测试片段

2. 与当前 Babel 流程的同段输出做 A/B 对比

3. 评估声音质量、一致性、自然度

长期(如果 Omni 开源):本地部署

如果 Qwen3.5-Omni 开源且声音克隆质量达标,可以考虑在 ub2 上本地部署,完全替代外部 API 依赖。

5.5 成本对比估算

方案工具估算成本(50分钟播客)
当前 BabelWhisper(本地) + DeepSeek API + IndexTTS2(本地)~¥2-5(主要是 DeepSeek 翻译费用)
混合方案Qwen3.5-Omni API + IndexTTS2(本地)待定(取决于 Omni 音频处理定价)
全 OmniQwen3.5-Omni API待定

6. API 调用方式

6.1 阿里百炼平台接入

Qwen3.5-Omni API 通过 阿里云百炼(Model Studio) 提供,支持 Offline API 和 Realtime API 两种模式。

接入步骤

1. 注册阿里云账号并开通百炼服务

2. 获取 API Key

3. 调用对应端点

API 端点


# 多模态模型调用(包括 Qwen3.5-Omni)
POST https://dashscope.aliyuncs.com/api/v1/services/aigc/multimodal-generation/generation

# 国际版
POST https://dashscope-intl.aliyuncs.com/api/v1/services/aigc/multimodal-generation/generation

模型名称

6.2 定价

截至 2026-03-31,Qwen3.5-Omni 的具体定价尚未在百炼定价页面单独列出。参考同系列模型:

模型输入单价(¥/百万Token)输出单价(¥/百万Token)
qwen3.5-plus(文本)0.84.8
qwen3.5-flash(文本)阶梯定价,极低阶梯定价,极低

音频 Token 计算规则:每秒音频 = 25 个 Token。50 分钟音频 = 75,000 Token(约 ¥0.06 输入成本,非常便宜)。

新用户有 100 万 Token 免费额度(90 天有效期)。

6.3 体验方式

方式链接说明
Qwen Chat[chat.qwen.ai](https://chat.qwen.ai/)免费体验 Plus 版本
HuggingFace Demo[huggingface.co/Qwen](https://huggingface.co/Qwen)在线 Demo
百炼 API[百炼控制台](https://www.aliyun.com/product/bailian)完整 API 接入

7. 竞品对比

7.1 全景对比

维度Qwen3.5-Omni PlusGPT-5.4 AudioGemini 3.1 Pro微软 VibeVoice
**架构**原生全模态拼接式多模态原生多模态专注语音
**音频理解**⭐⭐⭐⭐⭐ SOTA⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
**视频理解**⭐⭐⭐⭐⭐⭐⭐(需抽帧)⭐⭐⭐⭐⭐
**语音生成**36 种语言多语言但数量不详有限专业级
**声音克隆**✅ API
**实时对话**✅ 语义打断
**ASR 语言数**113~60+~100+~30
**上下文窗口**256K128K2M
**开源**待定部分
**定价**极低较高中等中等

7.2 GPT-5.4 Audio

OpenAI 的 GPT-5.4 在文本和代码生成上依然领先,但在音视频处理上采用"拼接式"方案——分别用 Whisper 转录、视觉模型看图、OCR 读字幕,再整合。Decrypt 实测同一视频处理时间是 Qwen3.5-Omni 的 9 倍

GPT-5.4 的优势在于生态系统成熟度和全球开发者基础,但在原生多模态这一赛道上,已经落后于 Qwen 和 Gemini。

7.3 Gemini 3.1 Pro

Google 的 Gemini 3.1 Pro 是最接近的竞争对手:

但 Qwen3.5-Omni 在通用音频理解、推理、翻译上全面超越 Gemini 3.1 Pro,且声音克隆、语义打断等实时交互特性领先。

7.4 ElevenLabs

在纯语音合成和声音克隆领域,ElevenLabs 是行业标杆。但 Qwen3.5-Omni 在 20 种语言的多语言语音稳定性上 击败了 ElevenLabs——这对一个通用 AI 模型而言相当惊人。

不过,ElevenLabs 在长文本合成、专业级音频制作、API 成熟度方面仍有优势。

7.5 微软 VibeVoice

微软的 VibeVoice 专注于语音交互场景,但不具备 Qwen3.5-Omni 的视觉理解和全模态推理能力。更像是一个专精工具 vs. 通用平台的竞争。

8. OpenClaw 集成启发:Omni 作为语音交互层

8.1 当前 OpenClaw 架构

OpenClaw 作为 AI 代理托管平台,目前主要通过文本交互(Telegram、Discord、飞书等)。语音交互依赖各平台原生能力或 TTS 工具(如 ElevenLabs)。

8.2 Omni 集成机会

Qwen3.5-Omni 的能力组合使它成为 OpenClaw 语音交互层的理想候选:

① 语音输入理解

② 语音输出响应

③ 多模态任务执行

8.3 实现路径


Phase 1: 接入 Qwen3.5-Omni API 作为可选语音引擎
  → 替代 Whisper + TTS 拼接方案
  → 先在 Telegram 语音消息场景试点

Phase 2: 实时语音对话
  → 使用 Realtime API 实现持续语音交互
  → 语义打断 + 声音克隆

Phase 3: 全模态代理
  → 代理可以看、听、说、写
  → 结合 WebSearch + Function Calling

8.4 注意事项

9. 与美团 LongCat 系列对比

9.1 LongCat 全模态家族

美团 LongCat 团队在同一时间段(2026 年 3 月)密集发布了两个全模态模型,形成了完整的"大+小"布局:

模型总参数激活参数架构开源发布日期
**LongCat-Flash-Omni****5600 亿 (562B)**270 亿 (27B)MoE,128 专家/层激活 4✅ 已开源2026-03-28
**LongCat-Next**685 亿 (68.5B)30 亿 (3B)MoE,基于 LongCat-Flash-Lite✅ 已开源2026-03-27
**Qwen3.5-Omni Plus**未公开(推测 ~400B)未公开Hybrid-Attention MoE❌ 仅 API2026-03-30

9.2 LongCat-Flash-Omni:5600 亿参数全模态怪兽

这是目前参数量最大的开源全模态模型之一,核心特点:

架构设计

训练策略:三阶段渐进式

1. 单模态基础(40%):1.2 万亿 token 中文文本 + 5000 小时语音 + COCO/ImageNet/Kinetics-400

2. 双模态融合(35%):文本+音频 / 文本+视觉 互信息最大化

3. 全模态融合(25%):100 万条 "文本+音频+视觉" triples,大量来自美团本地生活场景

关键技术

Benchmark

测试LongCat-Flash-OmniQwen-2.5-72B说明
OmniBench(全模态)61.3858.21跨模态整合
DailyOmni(日常交互)82.3879.15接近人类交互
MMBench-ZH(中文视觉)88.786.1中文场景优势明显
LongVideoBench(长视频)69.365.710 分钟+视频分析
OpenAudioBench92.1%90.5%噪声环境识别

部署要求

9.3 LongCat-Next:原生多模态新范式

LongCat-Next 的创新更偏基础研究:

9.4 三者对比:Qwen3.5-Omni vs LongCat-Flash-Omni vs LongCat-Next

维度Qwen3.5-Omni PlusLongCat-Flash-OmniLongCat-Next
**参数量**~400B(推测)**562B(最大)**68.5B
**激活参数**未知27B**3B(最轻)**
**上下文****256K(最长)**128K支持超长(LoZA)
**ASR 语言****113 种(最多)**中英为主中英为主
**TTS 语言****36 种(最多)**中英为主中英为主
**声音克隆**✅(TTS WER 1.90 中/1.89 英)
**开源**❌ 仅 API**✅ 已开源****✅ 已开源**
**中文优化****最好(美团本地生活数据)**
**部署门槛**无需部署(API)8×A100 40GB**最低(3B 激活)**
**训练数据**1 亿+小时美团自建数据集
**适合场景**全球化多语言中文全模态交互本地化轻量部署

9.5 对 Babel 播客的影响

LongCat-Flash-Omni 的优势

但 Qwen3.5-Omni 仍是首选

9.6 本地部署可行性(ub2: 1×4090 24GB + 62GB RAM)

模型总参数BF16 大小INT4 大小ub2 能跑?
**LongCat-Next**68.5B~137 GB~34 GB❌ 不行
**LongCat-Flash-Omni**562B~1.1 TB~281 GB❌ 完全不行
**Qwen3.5-Omni**未开源❌ 未开源
Qwen3-Omni(上代)30B-A3B~60 GB~15 GB✅ INT4 可跑

LongCat-Next 为什么跑不了?

虽然只激活 3B 参数,但 MoE 模型需要将全部 68.5B 参数加载到显存/内存(所有专家权重必须在内存中待命,每次推理只路由到其中几个)。官方要求最低 3×A100/H100 80GB(240GB VRAM)

精度模型大小能塞进 4090 24GB?
BF16~137 GB
INT8~69 GB
INT4~34 GB
INT3~26 GB❌ 勉强超出

CPU offload 理论可行(INT4 34GB 放进 62GB RAM),但推理速度极慢(CPU↔GPU 来回搬数据),多模态推理更重(视觉/音频编码器也要跑),实用价值基本为零。且目前无 GGUF/Ollama 量化版。

如需测试 LongCat-Next

最佳策略:短期用 Qwen3.5-Omni API,长期等 Omni 开源后与 LongCat-Flash-Omni 做本地 A/B 对比,选中文 TTS 质量更好的那个。

10. 总结与展望

10.1 关键结论

1. Qwen3.5-Omni 是目前最全面的原生全模态 AI 模型之一,在音频理解上超越 Gemini 3.1 Pro,在处理效率上远超 GPT-5.4

2. 声音克隆 + 语义打断 + Vibe Coding 三大特性标志着 AI 从 "工具" 向 "交互伙伴" 的转变

3. 对 Babel 播客项目:短期可用 Omni 替代 Whisper + DeepSeek 步骤,但 TTS 环节暂时保留 IndexTTS2

4. 开源预期乐观,但时间和功能范围不确定

5. 定价极具竞争力,尤其音频处理(每秒 25 token ≈ 几乎免费)

10.2 下一步行动

6. LongCat-Flash-Omni 是目前最大的开源全模态模型(562B),中文场景训练数据丰富,TTS WER 极低,适合本地部署的中文播客场景

参考链接