Qwen3.5-Omni 深度研究报告:下一代原生全模态 AI
> 发布日期:2026-03-31 | 作者:Tony @ Jay's Lab
>
> Qwen3.5-Omni 于 2026 年 3 月 30 日发布,是阿里巴巴通义千问团队迄今最具野心的 AI 模型升级——原生全模态(Omnimodal),同时处理文本、图像、音频和视频,并以 36 种语言实时对话。
1. 模型概述
1.1 架构:Thinker-Talker
Qwen3.5-Omni 采用 Thinker-Talker 双组件架构:
- Thinker(思考者):负责理解与推理。通过 Vision Encoder 和 AuT(Audio Transformer)接收视觉和音频信号,使用 TMRoPE 编码位置信息,处理全模态输入并输出文本。
- Talker(表达者):负责语音生成。接收 Thinker 的多模态输出,使用 RVQ(Residual Vector Quantization)编码和 ARIA 技术动态对齐文本与语音单元,生成自然语音。
两个组件均采用 Hybrid-Attention MoE(混合注意力专家混合) 架构,专门的 "expert" 分别处理音频、视频和文本,在保持单模态性能的同时实现跨模态协同。
1.2 三个版本
| 版本 | 定位 | 适用场景 |
|---|---|---|
| **Plus** | 旗舰版,最强性能 | 高精度推理、复杂音视频理解、研究 |
| **Flash** | 平衡版,速度与质量兼顾 | 生产环境、实时交互、日常应用 |
| **Light** | 轻量版,成本最低 | 简单任务、边缘部署、高吞吐场景 |
三个版本均支持 256K token 上下文窗口。
1.3 参数量
Qwen3.5-Omni 的具体参数量尚未官方披露。参考 Qwen3.5 文本系列的 MoE 架构(旗舰 397B 总参/17B 激活参数),Omni 版本预计采用类似的稀疏架构设计。上一代 Qwen3-Omni 开源版为 30B-A3B(总参 30B,激活参数 3B),Qwen3.5-Omni 各版本规模应显著大于此。
2. 技术细节
2.1 训练数据:1 亿+小时音视频
Qwen3.5-Omni 在 超过 1 亿小时的原生多模态音视频数据 上训练,这一规模远超大多数竞品。这不是简单的文本数据叠加音频/视频,而是真正的原生多模态训练——模型从一开始就学会同时理解声音和画面的关联。
2.2 上下文窗口:256K tokens
256K token 的上下文窗口意味着:
- 可一次性处理 超过 10 小时的音频
- 或约 400 秒的 720p 带音频视频
- 或约 20 万字的文本
对于播客转录、长视频分析、大文档理解等场景,这个窗口足够覆盖绝大多数实际需求。
2.3 ARIA(Adaptive Rate Interleave Alignment)
ARIA 是 Qwen3.5-Omni 引入的新技术,解决了一个长期困扰 AI 语音系统的问题:朗读数字、专有名词或非常规词汇时出现含糊不清或吞字。
ARIA 动态同步文本和语音的生成速率,确保:
- 数字精确朗读(不会把 "2026" 读成 "二零二六" 的同时文本已经跑到下一句)
- 专有名词清晰发音
- 语速自然流畅,不会出现突然加速或卡顿
2.4 语义打断(Semantic Interruption)
传统语音 AI 使用简单的 VAD(Voice Activity Detection),任何声音都可能触发中断。Qwen3.5-Omni 的语义打断能力可以:
- 区分 "嗯哼" 这种附和与真正想打断的意图
- 过滤背景噪音(咳嗽、环境声)不被误判为打断
- 让实时对话更自然流畅,不会因为一声咳嗽就中断回答
2.5 声音克隆
用户可以上传语音样本,模型会在后续回复中采用该声音。特点:
- 克隆后的声音在多语言场景下保持自然和稳定
- 目前仅通过 API 提供(Web 界面暂不支持)
- 直接与 ElevenLabs 等专业语音工具竞争
2.6 多语言能力
| 能力 | Qwen3-Omni(上代) | Qwen3.5-Omni |
|---|---|---|
| 语音识别(ASR) | 19 种语言 | **113 种语言和方言** |
| 语音输出(TTS) | 10 种语言 | **36 种语言和方言** |
这是一个数量级的跃升,尤其是 ASR 从 19 种到 113 种。
2.7 Audio-Visual Vibe Coding
这是最令人意外的 emergent 能力:用户可以一边口述需求,一边展示屏幕录像、设计稿或现有 UI,模型就能 直接生成可运行的 Python 代码或前端原型——不需要文本 prompt。
阿里官方表示这个能力 "emerged without specific training"(未经专门训练自然涌现),暗示原生全模态训练可以解锁人类未曾设计的交互模式。
2.8 其他关键能力
- 原生 WebSearch:实时搜索网络信息,回答突发新闻或实时数据问题
- Function Calling:原生支持复杂工具调用
- 音视频字幕生成:精细化、带时间戳的字幕,可识别说话人、背景音乐变化、画面切换
- 10 小时音频 / 1 小时视频单次处理
3. Benchmark 对比
3.1 核心成绩
Qwen3.5-Omni-Plus 在音频和音视频理解、推理、交互任务中取得了 215 项 SOTA(State-of-the-Art)成绩。
| Benchmark | Qwen3.5-Omni-Plus |
|---|---|
| VoiceBench | 93.1 |
| RealWorldQA(视觉) | 84.1 |
| MVBench(视频理解) | 79.0 |
| OCRBench | 91.3 |
| IFEval(指令跟随) | 89.7 |
| MMLU-Redux(知识推理) | 94.2 |
3.2 与 Gemini 3.1 Pro 对比
- 通用音频理解、推理、翻译:Qwen3.5-Omni-Plus 超越 Gemini 3.1 Pro
- 音视频综合理解:与 Gemini 3.1 Pro 持平
- 语音识别:在 LibriSpeech、WenetSpeech、FLEURS、CommonVoice 等 benchmark 上达到 SOTA
3.3 与 GPT-5.4 Audio 对比
Decrypt 的实测对比非常直观:给同一个 YouTube Short 视频:
- Qwen3.5-Omni:原生处理,~1 分钟出完整分析(谁在说话、讨论内容、主题评论)
- GPT-5.4(非原生全模态):需要分别抽帧→视觉模型、Whisper 转录、OCR 读字幕,三个流程拼接,~9 分钟
这不是简单的速度差异,而是架构差异——原生全模态 vs. 拼接式管线。
3.4 多语言语音稳定性
在 20 种语言的多语言语音稳定性 benchmark 上,Qwen3.5-Omni-Plus 超越 ElevenLabs、GPT-Audio 和 Minimax,在公开和内部 benchmark 上均取得最低不稳定性分数。
4. 开源状态
4.1 当前状态一览
| 模型 | 开源状态 | 许可证 | 获取方式 |
|---|---|---|---|
| Qwen3.5(文本系列) | ✅ 已开源 | Apache 2.0 | [Ollama](https://ollama.com/library/qwen3.5)、[HuggingFace](https://huggingface.co/Qwen) |
| Qwen3-Omni(上一代) | ✅ 已开源 | Apache 2.0 | [GitHub](https://github.com/QwenLM/Qwen3-Omni)、[HuggingFace](https://huggingface.co/Qwen/Qwen3-Omni-30B-A3B-Instruct) |
| **Qwen3.5-Omni** | ❌ 未开源 | — | 仅 API + [HuggingFace Demo](https://huggingface.co/Qwen) + [Qwen Chat](https://chat.qwen.ai/) |
4.2 开源预期
根据 Qwen 团队的历史模式:
- Qwen3-Omni 在发布约 3 个月后开源了权重
- Qwen3.5 文本系列从发布起就开源
- Qwen3.5-Omni 大概率会跟进开源,但时间不确定
可能的时间线:发布后 1-3 个月,但考虑到声音克隆等敏感功能,开源版本可能会有功能裁剪。
4.3 本地运行
目前无法本地运行 Qwen3.5-Omni。上一代 Qwen3-Omni(30B-A3B)在本地可运行,但开源社区反馈语音选择有限(仅 Chelsie、Ethan、Aiden 三种声音),远少于 API 版本。
5. Babel 播客替代分析 ⭐
5.1 当前 Babel 流程
YouTube 视频
→ yt-dlp 下载音频 (MP3)
→ Whisper large-v3 转录 (英文 ASR)
→ DeepSeek 翻译 (英→中)
→ IndexTTS2 声音克隆合成 (中文 TTS)
→ 中文播客音频
每个步骤用专门的工具,总耗时约 40 分钟(55 分钟视频)。
5.2 Qwen3.5-Omni 的理论能力覆盖
Qwen3.5-Omni 理论上可以覆盖 Babel 的整个流程:
| Babel 步骤 | Qwen3.5-Omni 能力 | 理论可替代? |
|---|---|---|
| Whisper 转录 | 113 种语言 ASR,SOTA 级别 | ✅ 完全可替代 |
| DeepSeek 翻译 | 原生多语言理解 + 翻译能力超 Gemini 3.1 Pro | ✅ 可替代 |
| IndexTTS2 声音克隆 | 内置声音克隆,36 种语言输出 | ⚠️ 理论可行,但... |
5.3 实际限制(重要!)
① 长音频端到端输出不支持
- Qwen3.5-Omni 设计为实时对话场景,不是批量音频处理
- 一个 50 分钟的播客不能直接 "翻译并输出完整音频文件"
- 输出是流式语音响应,不是可保存的音频文件
② 播客级声音克隆质量未验证
- 声音克隆目前仅通过 API 提供,无法在 Web Demo 上测试
- 50 分钟连续输出的声音一致性完全未知
- ElevenLabs 级别的长文本声音克隆需要专门优化,通用模型可能不够
③ 多角色切换不确定
- Babel 播客经常有多人对话(主持人 + 嘉宾)
- Qwen3.5-Omni 的声音克隆是否支持在同一会话中切换多个声音?没有文档说明
④ 输出格式限制
- 实时流式输出 vs. 离线文件生成是两个不同的使用场景
- 需要额外的流式音频收集和拼接逻辑
5.4 推荐方案
短期(立即可做):混合方案
YouTube 视频
→ yt-dlp 下载音频
→ Qwen3.5-Omni 理解 + 转录 + 翻译(替代 Whisper + DeepSeek)
→ IndexTTS2 声音克隆合成(保持不变)
→ 中文播客音频
优势:
- 跳过 Whisper + DeepSeek 两步,用一个模型完成 ASR + 翻译
- Qwen3.5-Omni 的音频理解能力超过 Whisper + DeepSeek 分步处理
- 可能更好地保留语气、情感等元信息
- 预计节省 ~15 分钟处理时间
中期(API 开放后测试):A/B 对比
等 Qwen3.5-Omni 的声音克隆 API 完全开放后:
1. 用 Omni 端到端(ASR + 翻译 + TTS)处理一段 5-10 分钟的测试片段
2. 与当前 Babel 流程的同段输出做 A/B 对比
3. 评估声音质量、一致性、自然度
长期(如果 Omni 开源):本地部署
如果 Qwen3.5-Omni 开源且声音克隆质量达标,可以考虑在 ub2 上本地部署,完全替代外部 API 依赖。
5.5 成本对比估算
| 方案 | 工具 | 估算成本(50分钟播客) |
|---|---|---|
| 当前 Babel | Whisper(本地) + DeepSeek API + IndexTTS2(本地) | ~¥2-5(主要是 DeepSeek 翻译费用) |
| 混合方案 | Qwen3.5-Omni API + IndexTTS2(本地) | 待定(取决于 Omni 音频处理定价) |
| 全 Omni | Qwen3.5-Omni API | 待定 |
6. API 调用方式
6.1 阿里百炼平台接入
Qwen3.5-Omni API 通过 阿里云百炼(Model Studio) 提供,支持 Offline API 和 Realtime API 两种模式。
接入步骤:
1. 注册阿里云账号并开通百炼服务
2. 获取 API Key
3. 调用对应端点
API 端点:
# 多模态模型调用(包括 Qwen3.5-Omni)
POST https://dashscope.aliyuncs.com/api/v1/services/aigc/multimodal-generation/generation
# 国际版
POST https://dashscope-intl.aliyuncs.com/api/v1/services/aigc/multimodal-generation/generation
模型名称:
qwen3.5-omni-plusqwen3.5-omni-flashqwen3.5-omni-light
6.2 定价
截至 2026-03-31,Qwen3.5-Omni 的具体定价尚未在百炼定价页面单独列出。参考同系列模型:
| 模型 | 输入单价(¥/百万Token) | 输出单价(¥/百万Token) |
|---|---|---|
| qwen3.5-plus(文本) | 0.8 | 4.8 |
| qwen3.5-flash(文本) | 阶梯定价,极低 | 阶梯定价,极低 |
音频 Token 计算规则:每秒音频 = 25 个 Token。50 分钟音频 = 75,000 Token(约 ¥0.06 输入成本,非常便宜)。
新用户有 100 万 Token 免费额度(90 天有效期)。
6.3 体验方式
| 方式 | 链接 | 说明 |
|---|---|---|
| Qwen Chat | [chat.qwen.ai](https://chat.qwen.ai/) | 免费体验 Plus 版本 |
| HuggingFace Demo | [huggingface.co/Qwen](https://huggingface.co/Qwen) | 在线 Demo |
| 百炼 API | [百炼控制台](https://www.aliyun.com/product/bailian) | 完整 API 接入 |
7. 竞品对比
7.1 全景对比
| 维度 | Qwen3.5-Omni Plus | GPT-5.4 Audio | Gemini 3.1 Pro | 微软 VibeVoice |
|---|---|---|---|---|
| **架构** | 原生全模态 | 拼接式多模态 | 原生多模态 | 专注语音 |
| **音频理解** | ⭐⭐⭐⭐⭐ SOTA | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ |
| **视频理解** | ⭐⭐⭐⭐ | ⭐⭐⭐(需抽帧) | ⭐⭐⭐⭐⭐ | ❌ |
| **语音生成** | 36 种语言 | 多语言但数量不详 | 有限 | 专业级 |
| **声音克隆** | ✅ API | ❌ | ❌ | ✅ |
| **实时对话** | ✅ 语义打断 | ✅ | ✅ | ✅ |
| **ASR 语言数** | 113 | ~60+ | ~100+ | ~30 |
| **上下文窗口** | 256K | 128K | 2M | — |
| **开源** | 待定 | ❌ | ❌ | 部分 |
| **定价** | 极低 | 较高 | 中等 | 中等 |
7.2 GPT-5.4 Audio
OpenAI 的 GPT-5.4 在文本和代码生成上依然领先,但在音视频处理上采用"拼接式"方案——分别用 Whisper 转录、视觉模型看图、OCR 读字幕,再整合。Decrypt 实测同一视频处理时间是 Qwen3.5-Omni 的 9 倍。
GPT-5.4 的优势在于生态系统成熟度和全球开发者基础,但在原生多模态这一赛道上,已经落后于 Qwen 和 Gemini。
7.3 Gemini 3.1 Pro
Google 的 Gemini 3.1 Pro 是最接近的竞争对手:
- 同样原生多模态
- 超大上下文窗口(2M tokens)
- 视频理解可能略强
但 Qwen3.5-Omni 在通用音频理解、推理、翻译上全面超越 Gemini 3.1 Pro,且声音克隆、语义打断等实时交互特性领先。
7.4 ElevenLabs
在纯语音合成和声音克隆领域,ElevenLabs 是行业标杆。但 Qwen3.5-Omni 在 20 种语言的多语言语音稳定性上 击败了 ElevenLabs——这对一个通用 AI 模型而言相当惊人。
不过,ElevenLabs 在长文本合成、专业级音频制作、API 成熟度方面仍有优势。
7.5 微软 VibeVoice
微软的 VibeVoice 专注于语音交互场景,但不具备 Qwen3.5-Omni 的视觉理解和全模态推理能力。更像是一个专精工具 vs. 通用平台的竞争。
8. OpenClaw 集成启发:Omni 作为语音交互层
8.1 当前 OpenClaw 架构
OpenClaw 作为 AI 代理托管平台,目前主要通过文本交互(Telegram、Discord、飞书等)。语音交互依赖各平台原生能力或 TTS 工具(如 ElevenLabs)。
8.2 Omni 集成机会
Qwen3.5-Omni 的能力组合使它成为 OpenClaw 语音交互层的理想候选:
① 语音输入理解
- 用户对着手机说话 → Omni 直接理解语音指令
- 不需要先 ASR 转文本再处理,减少延迟和信息损失
- 113 种语言覆盖全球用户
② 语音输出响应
- 代理可以直接用语音回复,而不只是文本
- 声音克隆让每个代理可以有独特的 "声音身份"
- 语义打断让对话更自然
③ 多模态任务执行
- "帮我看看这张照片里是什么" + 语音指令 → 一次性处理
- 视频会议记录 + 实时总结
- Audio-Visual Vibe Coding → 用户口述 + 屏幕共享 → 代理写代码
8.3 实现路径
Phase 1: 接入 Qwen3.5-Omni API 作为可选语音引擎
→ 替代 Whisper + TTS 拼接方案
→ 先在 Telegram 语音消息场景试点
Phase 2: 实时语音对话
→ 使用 Realtime API 实现持续语音交互
→ 语义打断 + 声音克隆
Phase 3: 全模态代理
→ 代理可以看、听、说、写
→ 结合 WebSearch + Function Calling
8.4 注意事项
- 依赖阿里云 API,需考虑国内/国际网络延迟
- 声音克隆的隐私和安全合规
- 等开源后可本地部署,降低延迟和成本
9. 与美团 LongCat 系列对比
9.1 LongCat 全模态家族
美团 LongCat 团队在同一时间段(2026 年 3 月)密集发布了两个全模态模型,形成了完整的"大+小"布局:
| 模型 | 总参数 | 激活参数 | 架构 | 开源 | 发布日期 |
|---|---|---|---|---|---|
| **LongCat-Flash-Omni** | **5600 亿 (562B)** | 270 亿 (27B) | MoE,128 专家/层激活 4 | ✅ 已开源 | 2026-03-28 |
| **LongCat-Next** | 685 亿 (68.5B) | 30 亿 (3B) | MoE,基于 LongCat-Flash-Lite | ✅ 已开源 | 2026-03-27 |
| **Qwen3.5-Omni Plus** | 未公开(推测 ~400B) | 未公开 | Hybrid-Attention MoE | ❌ 仅 API | 2026-03-30 |
9.2 LongCat-Flash-Omni:5600 亿参数全模态怪兽
这是目前参数量最大的开源全模态模型之一,核心特点:
架构设计:
- MoE 主干:总专家数 128,每层激活 4 个专家,shortcut-connected 跨层连接
- 音频编码器/解码器:Mel 频谱 + Transformer,支持 8K/16K 采样率,TTS MOS 达 4.3
- 视觉编码器:图像用 ViT-L,视频用 TimeSformer(时空注意力)
- 128K token 上下文窗口(vs Qwen3.5-Omni 256K)
训练策略:三阶段渐进式
1. 单模态基础(40%):1.2 万亿 token 中文文本 + 5000 小时语音 + COCO/ImageNet/Kinetics-400
2. 双模态融合(35%):文本+音频 / 文本+视觉 互信息最大化
3. 全模态融合(25%):100 万条 "文本+音频+视觉" triples,大量来自美团本地生活场景
关键技术:
- 零计算专家机制:自动检测输入模态,关闭无关专家层,单模态输入计算量减少 30%
- 分块式音视频特征交织:视频每 2 秒一帧、音频每 0.5 秒一段,逐块处理实现 1-3 秒延迟
- 模态解耦并行训练:三种模态独立集群训练 + 定期跨模态对齐,训练效率提升 35%
Benchmark:
| 测试 | LongCat-Flash-Omni | Qwen-2.5-72B | 说明 |
|---|---|---|---|
| OmniBench(全模态) | 61.38 | 58.21 | 跨模态整合 |
| DailyOmni(日常交互) | 82.38 | 79.15 | 接近人类交互 |
| MMBench-ZH(中文视觉) | 88.7 | 86.1 | 中文场景优势明显 |
| LongVideoBench(长视频) | 69.3 | 65.7 | 10 分钟+视频分析 |
| OpenAudioBench | 92.1% | 90.5% | 噪声环境识别 |
部署要求:
- 单节点 8×A100 40GB 即可全参数推理(使用 SGLang 框架)
- 支持张量并行(TP)+ 专家并行(EP)
- 提供完整工具链:权重 + 训练代码 + 推理 Demo + 技术报告
9.3 LongCat-Next:原生多模态新范式
LongCat-Next 的创新更偏基础研究:
- 核心思想:摒弃"以语言为中心"的多模态架构,让视觉和语音与文本一样是"原生母语"
- dNaViT(离散原生分辨率视觉分词器):将不同分辨率图像直接转为与文本同源的离散 Token,消除模态转换壁垒
- 纯 NTP(Next Token Prediction)机制:统一的 Token 预测,不需要针对不同模态的特殊头
- LoZA 稀疏注意力:2 倍长文本处理能力,无需升级硬件
- 68.5B 总参/3B 激活 → 本地友好,适合边缘部署
9.4 三者对比:Qwen3.5-Omni vs LongCat-Flash-Omni vs LongCat-Next
| 维度 | Qwen3.5-Omni Plus | LongCat-Flash-Omni | LongCat-Next |
|---|---|---|---|
| **参数量** | ~400B(推测) | **562B(最大)** | 68.5B |
| **激活参数** | 未知 | 27B | **3B(最轻)** |
| **上下文** | **256K(最长)** | 128K | 支持超长(LoZA) |
| **ASR 语言** | **113 种(最多)** | 中英为主 | 中英为主 |
| **TTS 语言** | **36 种(最多)** | 中英为主 | 中英为主 |
| **声音克隆** | ✅ | ✅(TTS WER 1.90 中/1.89 英) | ❌ |
| **开源** | ❌ 仅 API | **✅ 已开源** | **✅ 已开源** |
| **中文优化** | 好 | **最好(美团本地生活数据)** | 好 |
| **部署门槛** | 无需部署(API) | 8×A100 40GB | **最低(3B 激活)** |
| **训练数据** | 1 亿+小时 | 美团自建数据集 | — |
| **适合场景** | 全球化多语言 | 中文全模态交互 | 本地化轻量部署 |
9.5 对 Babel 播客的影响
LongCat-Flash-Omni 的优势:
- TTS 中文 WER 低至 1.90(优秀),声音克隆质量有保障
- 完全开源,可以在 ub2 (4090 24GB) 上尝试——但 27B 激活参数需要多卡或量化
- 中文场景训练数据更多,翻译质量可能更贴近中文表达习惯
但 Qwen3.5-Omni 仍是首选:
- 113 种语言 ASR 对英文输入处理更成熟
- 256K 上下文可一次处理更长音频
- API 直接调用最简单,无需管理部署
- 声音克隆 + 语义打断生态更完整
9.6 本地部署可行性(ub2: 1×4090 24GB + 62GB RAM)
| 模型 | 总参数 | BF16 大小 | INT4 大小 | ub2 能跑? |
|---|---|---|---|---|
| **LongCat-Next** | 68.5B | ~137 GB | ~34 GB | ❌ 不行 |
| **LongCat-Flash-Omni** | 562B | ~1.1 TB | ~281 GB | ❌ 完全不行 |
| **Qwen3.5-Omni** | 未开源 | — | — | ❌ 未开源 |
| Qwen3-Omni(上代) | 30B-A3B | ~60 GB | ~15 GB | ✅ INT4 可跑 |
LongCat-Next 为什么跑不了?
虽然只激活 3B 参数,但 MoE 模型需要将全部 68.5B 参数加载到显存/内存(所有专家权重必须在内存中待命,每次推理只路由到其中几个)。官方要求最低 3×A100/H100 80GB(240GB VRAM)。
| 精度 | 模型大小 | 能塞进 4090 24GB? |
|---|---|---|
| BF16 | ~137 GB | ❌ |
| INT8 | ~69 GB | ❌ |
| INT4 | ~34 GB | ❌ |
| INT3 | ~26 GB | ❌ 勉强超出 |
CPU offload 理论可行(INT4 34GB 放进 62GB RAM),但推理速度极慢(CPU↔GPU 来回搬数据),多模态推理更重(视觉/音频编码器也要跑),实用价值基本为零。且目前无 GGUF/Ollama 量化版。
如需测试 LongCat-Next:
- 在线体验:longcat.ai(Web/iOS/Android)
- 云 GPU 租用:3×A100 40GB(~$6-9/小时)或 2×A100 80GB
- 等社区出 GGUF 量化版 + Ollama 支持(可能数周)
最佳策略:短期用 Qwen3.5-Omni API,长期等 Omni 开源后与 LongCat-Flash-Omni 做本地 A/B 对比,选中文 TTS 质量更好的那个。
10. 总结与展望
10.1 关键结论
1. Qwen3.5-Omni 是目前最全面的原生全模态 AI 模型之一,在音频理解上超越 Gemini 3.1 Pro,在处理效率上远超 GPT-5.4
2. 声音克隆 + 语义打断 + Vibe Coding 三大特性标志着 AI 从 "工具" 向 "交互伙伴" 的转变
3. 对 Babel 播客项目:短期可用 Omni 替代 Whisper + DeepSeek 步骤,但 TTS 环节暂时保留 IndexTTS2
4. 开源预期乐观,但时间和功能范围不确定
5. 定价极具竞争力,尤其音频处理(每秒 25 token ≈ 几乎免费)
10.2 下一步行动
- [ ] 等 Qwen3.5-Omni API 完全开放后,测试 ASR + 翻译一体化效果
- [ ] 做 Babel 的 A/B 对比测试(当前流程 vs. Omni 混合方案)
- [ ] 评估声音克隆 API 的质量和多角色切换能力
- [ ] 关注开源动态,开源后在 ub2 上尝试本地部署
- [ ] 设计 OpenClaw 语音交互层的 PoC
6. LongCat-Flash-Omni 是目前最大的开源全模态模型(562B),中文场景训练数据丰富,TTS WER 极低,适合本地部署的中文播客场景
参考链接
- Qwen3.5-Omni 官方博客 — 官方技术详解
- Decrypt 评测:Qwen 3.5 Omni Can Now Hear, Watch, and Clone Your Voice — 独立评测,含 GPT-5.4 对比
- ToolMesh 技术分析:215 SOTA Benchmarks & Vibe Coding — 技术细节梳理
- NYU RITS 深度解读 — 学术视角分析
- Qwen Twitter/X 发布公告
- Qwen3-Omni GitHub(上一代开源)
- Qwen HuggingFace 主页
- Qwen3.5 Ollama 页面
- 阿里百炼定价页面
- 阿里百炼 DashScope API 文档
- LongCat-Flash-Omni 详细技术分析(新浪) — 5600 亿参数全模态模型技术细节
- LongCat-Next 发布报道 — 原生多模态新范式
- LongCat-Next HuggingFace
- LongCat-Next GitHub
- Reddit: 中国 LLM 生态现状 — 含 LongCat 社区评价