Qwen3.5-Omni 深度研究报告：下一代原生全模态 AI

🎯 一句话版本

关于Qwen3.5-Omni 深度研究报告：下一代原生全模态 AI的深度研究报告

> 发布日期：2026-03-31 | 作者：Tony @ Jay's Lab

> Qwen3.5-Omni 于 2026 年 3 月 30 日发布，是阿里巴巴通义千问团队迄今最具野心的 AI 模型升级——原生全模态（Omnimodal），同时处理文本、图像、音频和视频，并以 36 种语言实时对话。

1. 模型概述

1.1 架构：Thinker-Talker

Qwen3.5-Omni 采用 Thinker-Talker 双组件架构：

Thinker（思考者）：负责理解与推理。通过 Vision Encoder 和 AuT（Audio Transformer）接收视觉和音频信号，使用 TMRoPE 编码位置信息，处理全模态输入并输出文本。
Talker（表达者）：负责语音生成。接收 Thinker 的多模态输出，使用 RVQ（Residual Vector Quantization）编码和 ARIA 技术动态对齐文本与语音单元，生成自然语音。

两个组件均采用 Hybrid-Attention MoE（混合注意力专家混合） 架构，专门的 "expert" 分别处理音频、视频和文本，在保持单模态性能的同时实现跨模态协同。

1.2 三个版本

版本	定位	适用场景
Plus	旗舰版，最强性能	高精度推理、复杂音视频理解、研究
Flash	平衡版，速度与质量兼顾	生产环境、实时交互、日常应用
Light	轻量版，成本最低	简单任务、边缘部署、高吞吐场景

三个版本均支持 256K token 上下文窗口。

1.3 参数量

Qwen3.5-Omni 的具体参数量尚未官方披露。参考 Qwen3.5 文本系列的 MoE 架构（旗舰 397B 总参/17B 激活参数），Omni 版本预计采用类似的稀疏架构设计。上一代 Qwen3-Omni 开源版为 30B-A3B（总参 30B，激活参数 3B），Qwen3.5-Omni 各版本规模应显著大于此。

2. 技术细节

2.1 训练数据：1 亿+小时音视频

Qwen3.5-Omni 在 超过 1 亿小时的原生多模态音视频数据 上训练，这一规模远超大多数竞品。这不是简单的文本数据叠加音频/视频，而是真正的原生多模态训练——模型从一开始就学会同时理解声音和画面的关联。

2.2 上下文窗口：256K tokens

256K token 的上下文窗口意味着：

可一次性处理 超过 10 小时的音频
或约 400 秒的 720p 带音频视频
或约 20 万字的文本

对于播客转录、长视频分析、大文档理解等场景，这个窗口足够覆盖绝大多数实际需求。

2.3 ARIA（Adaptive Rate Interleave Alignment）

ARIA 是 Qwen3.5-Omni 引入的新技术，解决了一个长期困扰 AI 语音系统的问题：朗读数字、专有名词或非常规词汇时出现含糊不清或吞字。

ARIA 动态同步文本和语音的生成速率，确保：

数字精确朗读（不会把 "2026" 读成 "二零二六" 的同时文本已经跑到下一句）
专有名词清晰发音
语速自然流畅，不会出现突然加速或卡顿

2.4 语义打断（Semantic Interruption）

传统语音 AI 使用简单的 VAD（Voice Activity Detection），任何声音都可能触发中断。Qwen3.5-Omni 的语义打断能力可以：

区分 "嗯哼" 这种附和与真正想打断的意图
过滤背景噪音（咳嗽、环境声）不被误判为打断
让实时对话更自然流畅，不会因为一声咳嗽就中断回答

2.5 声音克隆

用户可以上传语音样本，模型会在后续回复中采用该声音。特点：

克隆后的声音在多语言场景下保持自然和稳定
目前仅通过 API 提供（Web 界面暂不支持）
直接与 ElevenLabs 等专业语音工具竞争

2.6 多语言能力

能力	Qwen3-Omni（上代）	Qwen3.5-Omni
语音识别（ASR）	19 种语言	113 种语言和方言
语音输出（TTS）	10 种语言	36 种语言和方言

这是一个数量级的跃升，尤其是 ASR 从 19 种到 113 种。

2.7 Audio-Visual Vibe Coding

这是最令人意外的 emergent 能力：用户可以一边口述需求，一边展示屏幕录像、设计稿或现有 UI，模型就能 直接生成可运行的 Python 代码或前端原型——不需要文本 prompt。

阿里官方表示这个能力 "emerged without specific training"（未经专门训练自然涌现），暗示原生全模态训练可以解锁人类未曾设计的交互模式。

2.8 其他关键能力

原生 WebSearch：实时搜索网络信息，回答突发新闻或实时数据问题
Function Calling：原生支持复杂工具调用
音视频字幕生成：精细化、带时间戳的字幕，可识别说话人、背景音乐变化、画面切换
10 小时音频 / 1 小时视频单次处理

3. Benchmark 对比

3.1 核心成绩

Qwen3.5-Omni-Plus 在音频和音视频理解、推理、交互任务中取得了 215 项 SOTA（State-of-the-Art）成绩。

Benchmark	Qwen3.5-Omni-Plus
VoiceBench	93.1
RealWorldQA（视觉）	84.1
MVBench（视频理解）	79.0
OCRBench	91.3
IFEval（指令跟随）	89.7
MMLU-Redux（知识推理）	94.2

3.2 与 Gemini 3.1 Pro 对比

通用音频理解、推理、翻译：Qwen3.5-Omni-Plus 超越 Gemini 3.1 Pro
音视频综合理解：与 Gemini 3.1 Pro 持平
语音识别：在 LibriSpeech、WenetSpeech、FLEURS、CommonVoice 等 benchmark 上达到 SOTA

3.3 与 GPT-5.4 Audio 对比

Decrypt 的实测对比非常直观：给同一个 YouTube Short 视频：

Qwen3.5-Omni：原生处理，~1 分钟出完整分析（谁在说话、讨论内容、主题评论）
GPT-5.4（非原生全模态）：需要分别抽帧→视觉模型、Whisper 转录、OCR 读字幕，三个流程拼接，~9 分钟

这不是简单的速度差异，而是架构差异——原生全模态 vs. 拼接式管线。

3.4 多语言语音稳定性

在 20 种语言的多语言语音稳定性 benchmark 上，Qwen3.5-Omni-Plus 超越 ElevenLabs、GPT-Audio 和 Minimax，在公开和内部 benchmark 上均取得最低不稳定性分数。

4. 开源状态

4.1 当前状态一览

模型	开源状态	许可证	获取方式
Qwen3.5（文本系列）	✅ 已开源	Apache 2.0	[Ollama](https://ollama.com/library/qwen3.5)、[HuggingFace](https://huggingface.co/Qwen)
Qwen3-Omni（上一代）	✅ 已开源	Apache 2.0	[GitHub](https://github.com/QwenLM/Qwen3-Omni)、[HuggingFace](https://huggingface.co/Qwen/Qwen3-Omni-30B-A3B-Instruct)
Qwen3.5-Omni	❌ 未开源	—	仅 API + [HuggingFace Demo](https://huggingface.co/Qwen) + [Qwen Chat](https://chat.qwen.ai/)

4.2 开源预期

根据 Qwen 团队的历史模式：

Qwen3-Omni 在发布约 3 个月后开源了权重
Qwen3.5 文本系列从发布起就开源
Qwen3.5-Omni 大概率会跟进开源，但时间不确定

可能的时间线：发布后 1-3 个月，但考虑到声音克隆等敏感功能，开源版本可能会有功能裁剪。

4.3 本地运行

目前无法本地运行 Qwen3.5-Omni。上一代 Qwen3-Omni（30B-A3B）在本地可运行，但开源社区反馈语音选择有限（仅 Chelsie、Ethan、Aiden 三种声音），远少于 API 版本。

5. Babel 播客替代分析 ⭐

5.1 当前 Babel 流程


YouTube 视频
  → yt-dlp 下载音频 (MP3)
  → Whisper large-v3 转录 (英文 ASR)
  → DeepSeek 翻译 (英→中)
  → IndexTTS2 声音克隆合成 (中文 TTS)
  → 中文播客音频

每个步骤用专门的工具，总耗时约 40 分钟（55 分钟视频）。

5.2 Qwen3.5-Omni 的理论能力覆盖

Qwen3.5-Omni 理论上可以覆盖 Babel 的整个流程：

Babel 步骤	Qwen3.5-Omni 能力	理论可替代？
Whisper 转录	113 种语言 ASR，SOTA 级别	✅ 完全可替代
DeepSeek 翻译	原生多语言理解 + 翻译能力超 Gemini 3.1 Pro	✅ 可替代
IndexTTS2 声音克隆	内置声音克隆，36 种语言输出	⚠️ 理论可行，但...

5.3 实际限制（重要！）

① 长音频端到端输出不支持

Qwen3.5-Omni 设计为实时对话场景，不是批量音频处理
一个 50 分钟的播客不能直接 "翻译并输出完整音频文件"
输出是流式语音响应，不是可保存的音频文件

② 播客级声音克隆质量未验证

声音克隆目前仅通过 API 提供，无法在 Web Demo 上测试
50 分钟连续输出的声音一致性完全未知
ElevenLabs 级别的长文本声音克隆需要专门优化，通用模型可能不够

③ 多角色切换不确定

Babel 播客经常有多人对话（主持人 + 嘉宾）
Qwen3.5-Omni 的声音克隆是否支持在同一会话中切换多个声音？没有文档说明

④ 输出格式限制

实时流式输出 vs. 离线文件生成是两个不同的使用场景
需要额外的流式音频收集和拼接逻辑

5.4 推荐方案

短期（立即可做）：混合方案


YouTube 视频
  → yt-dlp 下载音频
  → Qwen3.5-Omni 理解 + 转录 + 翻译（替代 Whisper + DeepSeek）
  → IndexTTS2 声音克隆合成（保持不变）
  → 中文播客音频

优势：

跳过 Whisper + DeepSeek 两步，用一个模型完成 ASR + 翻译
Qwen3.5-Omni 的音频理解能力超过 Whisper + DeepSeek 分步处理
可能更好地保留语气、情感等元信息
预计节省 ~15 分钟处理时间

中期（API 开放后测试）：A/B 对比

等 Qwen3.5-Omni 的声音克隆 API 完全开放后：

1. 用 Omni 端到端（ASR + 翻译 + TTS）处理一段 5-10 分钟的测试片段

2. 与当前 Babel 流程的同段输出做 A/B 对比

3. 评估声音质量、一致性、自然度

长期（如果 Omni 开源）：本地部署

如果 Qwen3.5-Omni 开源且声音克隆质量达标，可以考虑在 ub2 上本地部署，完全替代外部 API 依赖。

5.5 成本对比估算

方案	工具	估算成本（50分钟播客）
当前 Babel	Whisper(本地) + DeepSeek API + IndexTTS2(本地)	~¥2-5（主要是 DeepSeek 翻译费用）
混合方案	Qwen3.5-Omni API + IndexTTS2(本地)	待定（取决于 Omni 音频处理定价）
全 Omni	Qwen3.5-Omni API	待定

6. API 调用方式

6.1 阿里百炼平台接入

Qwen3.5-Omni API 通过阿里云百炼（Model Studio）提供，支持 Offline API 和 Realtime API 两种模式。

接入步骤：

1. 注册阿里云账号并开通百炼服务

2. 获取 API Key

3. 调用对应端点

API 端点：


# 多模态模型调用（包括 Qwen3.5-Omni）
POST https://dashscope.aliyuncs.com/api/v1/services/aigc/multimodal-generation/generation

# 国际版
POST https://dashscope-intl.aliyuncs.com/api/v1/services/aigc/multimodal-generation/generation

模型名称：

qwen3.5-omni-plus
qwen3.5-omni-flash
qwen3.5-omni-light

6.2 定价

截至 2026-03-31，Qwen3.5-Omni 的具体定价尚未在百炼定价页面单独列出。参考同系列模型：

模型	输入单价（¥/百万Token）	输出单价（¥/百万Token）
qwen3.5-plus（文本）	0.8	4.8
qwen3.5-flash（文本）	阶梯定价，极低	阶梯定价，极低

音频 Token 计算规则：每秒音频 = 25 个 Token。50 分钟音频 = 75,000 Token（约 ¥0.06 输入成本，非常便宜）。

新用户有 100 万 Token 免费额度（90 天有效期）。

6.3 体验方式

方式	链接	说明
Qwen Chat	[chat.qwen.ai](https://chat.qwen.ai/)	免费体验 Plus 版本
HuggingFace Demo	[huggingface.co/Qwen](https://huggingface.co/Qwen)	在线 Demo
百炼 API	[百炼控制台](https://www.aliyun.com/product/bailian)	完整 API 接入

7. 竞品对比

7.1 全景对比

维度	Qwen3.5-Omni Plus	GPT-5.4 Audio	Gemini 3.1 Pro	微软 VibeVoice
架构	原生全模态	拼接式多模态	原生多模态	专注语音
音频理解	⭐⭐⭐⭐⭐ SOTA	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐
视频理解	⭐⭐⭐⭐	⭐⭐⭐（需抽帧）	⭐⭐⭐⭐⭐	❌
语音生成	36 种语言	多语言但数量不详	有限	专业级
声音克隆	✅ API	❌	❌	✅
实时对话	✅ 语义打断	✅	✅	✅
ASR 语言数	113	~60+	~100+	~30
上下文窗口	256K	128K	2M	—
开源	待定	❌	❌	部分
定价	极低	较高	中等	中等

7.2 GPT-5.4 Audio

OpenAI 的 GPT-5.4 在文本和代码生成上依然领先，但在音视频处理上采用"拼接式"方案——分别用 Whisper 转录、视觉模型看图、OCR 读字幕，再整合。Decrypt 实测同一视频处理时间是 Qwen3.5-Omni 的 9 倍。

GPT-5.4 的优势在于生态系统成熟度和全球开发者基础，但在原生多模态这一赛道上，已经落后于 Qwen 和 Gemini。

7.3 Gemini 3.1 Pro

Google 的 Gemini 3.1 Pro 是最接近的竞争对手：

同样原生多模态
超大上下文窗口（2M tokens）
视频理解可能略强

但 Qwen3.5-Omni 在通用音频理解、推理、翻译上全面超越 Gemini 3.1 Pro，且声音克隆、语义打断等实时交互特性领先。

7.4 ElevenLabs

在纯语音合成和声音克隆领域，ElevenLabs 是行业标杆。但 Qwen3.5-Omni 在 20 种语言的多语言语音稳定性上 击败了 ElevenLabs——这对一个通用 AI 模型而言相当惊人。

不过，ElevenLabs 在长文本合成、专业级音频制作、API 成熟度方面仍有优势。

7.5 微软 VibeVoice

微软的 VibeVoice 专注于语音交互场景，但不具备 Qwen3.5-Omni 的视觉理解和全模态推理能力。更像是一个专精工具 vs. 通用平台的竞争。

8. OpenClaw 集成启发：Omni 作为语音交互层

8.1 当前 OpenClaw 架构

OpenClaw 作为 AI 代理托管平台，目前主要通过文本交互（Telegram、Discord、飞书等）。语音交互依赖各平台原生能力或 TTS 工具（如 ElevenLabs）。

8.2 Omni 集成机会

Qwen3.5-Omni 的能力组合使它成为 OpenClaw 语音交互层的理想候选：

① 语音输入理解

用户对着手机说话 → Omni 直接理解语音指令
不需要先 ASR 转文本再处理，减少延迟和信息损失
113 种语言覆盖全球用户

② 语音输出响应

代理可以直接用语音回复，而不只是文本
声音克隆让每个代理可以有独特的 "声音身份"
语义打断让对话更自然

③ 多模态任务执行

"帮我看看这张照片里是什么" + 语音指令 → 一次性处理
视频会议记录 + 实时总结
Audio-Visual Vibe Coding → 用户口述 + 屏幕共享 → 代理写代码

8.3 实现路径


Phase 1: 接入 Qwen3.5-Omni API 作为可选语音引擎
  → 替代 Whisper + TTS 拼接方案
  → 先在 Telegram 语音消息场景试点

Phase 2: 实时语音对话
  → 使用 Realtime API 实现持续语音交互
  → 语义打断 + 声音克隆

Phase 3: 全模态代理
  → 代理可以看、听、说、写
  → 结合 WebSearch + Function Calling

8.4 注意事项

依赖阿里云 API，需考虑国内/国际网络延迟
声音克隆的隐私和安全合规
等开源后可本地部署，降低延迟和成本

9. 与美团 LongCat 系列对比

9.1 LongCat 全模态家族

美团 LongCat 团队在同一时间段（2026 年 3 月）密集发布了两个全模态模型，形成了完整的"大+小"布局：

模型	总参数	激活参数	架构	开源	发布日期
LongCat-Flash-Omni	5600 亿 (562B)	270 亿 (27B)	MoE，128 专家/层激活 4	✅ 已开源	2026-03-28
LongCat-Next	685 亿 (68.5B)	30 亿 (3B)	MoE，基于 LongCat-Flash-Lite	✅ 已开源	2026-03-27
Qwen3.5-Omni Plus	未公开（推测 ~400B）	未公开	Hybrid-Attention MoE	❌ 仅 API	2026-03-30

9.2 LongCat-Flash-Omni：5600 亿参数全模态怪兽

这是目前参数量最大的开源全模态模型之一，核心特点：

架构设计：

MoE 主干：总专家数 128，每层激活 4 个专家，shortcut-connected 跨层连接
音频编码器/解码器：Mel 频谱 + Transformer，支持 8K/16K 采样率，TTS MOS 达 4.3
视觉编码器：图像用 ViT-L，视频用 TimeSformer（时空注意力）
128K token 上下文窗口（vs Qwen3.5-Omni 256K）

训练策略：三阶段渐进式

1. 单模态基础（40%）：1.2 万亿 token 中文文本 + 5000 小时语音 + COCO/ImageNet/Kinetics-400

2. 双模态融合（35%）：文本+音频 / 文本+视觉互信息最大化

3. 全模态融合（25%）：100 万条 "文本+音频+视觉" triples，大量来自美团本地生活场景

关键技术：

零计算专家机制：自动检测输入模态，关闭无关专家层，单模态输入计算量减少 30%
分块式音视频特征交织：视频每 2 秒一帧、音频每 0.5 秒一段，逐块处理实现 1-3 秒延迟
模态解耦并行训练：三种模态独立集群训练 + 定期跨模态对齐，训练效率提升 35%

Benchmark：

测试	LongCat-Flash-Omni	Qwen-2.5-72B	说明
OmniBench（全模态）	61.38	58.21	跨模态整合
DailyOmni（日常交互）	82.38	79.15	接近人类交互
MMBench-ZH（中文视觉）	88.7	86.1	中文场景优势明显
LongVideoBench（长视频）	69.3	65.7	10 分钟+视频分析
OpenAudioBench	92.1%	90.5%	噪声环境识别

部署要求：

单节点 8×A100 40GB 即可全参数推理（使用 SGLang 框架）
支持张量并行（TP）+ 专家并行（EP）
提供完整工具链：权重 + 训练代码 + 推理 Demo + 技术报告

9.3 LongCat-Next：原生多模态新范式

LongCat-Next 的创新更偏基础研究：

核心思想：摒弃"以语言为中心"的多模态架构，让视觉和语音与文本一样是"原生母语"
dNaViT（离散原生分辨率视觉分词器）：将不同分辨率图像直接转为与文本同源的离散 Token，消除模态转换壁垒
纯 NTP（Next Token Prediction）机制：统一的 Token 预测，不需要针对不同模态的特殊头
LoZA 稀疏注意力：2 倍长文本处理能力，无需升级硬件
68.5B 总参/3B 激活 → 本地友好，适合边缘部署

9.4 三者对比：Qwen3.5-Omni vs LongCat-Flash-Omni vs LongCat-Next

维度	Qwen3.5-Omni Plus	LongCat-Flash-Omni	LongCat-Next
参数量	~400B（推测）	562B（最大）	68.5B
激活参数	未知	27B	3B（最轻）
上下文	256K（最长）	128K	支持超长（LoZA）
ASR 语言	113 种（最多）	中英为主	中英为主
TTS 语言	36 种（最多）	中英为主	中英为主
声音克隆	✅	✅（TTS WER 1.90 中/1.89 英）	❌
开源	❌ 仅 API	✅ 已开源	✅ 已开源
中文优化	好	最好（美团本地生活数据）	好
部署门槛	无需部署（API）	8×A100 40GB	最低（3B 激活）
训练数据	1 亿+小时	美团自建数据集	—
适合场景	全球化多语言	中文全模态交互	本地化轻量部署

9.5 对 Babel 播客的影响

LongCat-Flash-Omni 的优势：

TTS 中文 WER 低至 1.90（优秀），声音克隆质量有保障
完全开源，可以在 ub2 (4090 24GB) 上尝试——但 27B 激活参数需要多卡或量化
中文场景训练数据更多，翻译质量可能更贴近中文表达习惯

但 Qwen3.5-Omni 仍是首选：

113 种语言 ASR 对英文输入处理更成熟
256K 上下文可一次处理更长音频
API 直接调用最简单，无需管理部署
声音克隆 + 语义打断生态更完整

9.6 本地部署可行性（ub2: 1×4090 24GB + 62GB RAM）

模型	总参数	BF16 大小	INT4 大小	ub2 能跑？
LongCat-Next	68.5B	~137 GB	~34 GB	❌ 不行
LongCat-Flash-Omni	562B	~1.1 TB	~281 GB	❌ 完全不行
Qwen3.5-Omni	未开源	—	—	❌ 未开源
Qwen3-Omni（上代）	30B-A3B	~60 GB	~15 GB	✅ INT4 可跑

LongCat-Next 为什么跑不了？

虽然只激活 3B 参数，但 MoE 模型需要将全部 68.5B 参数加载到显存/内存（所有专家权重必须在内存中待命，每次推理只路由到其中几个）。官方要求最低 3×A100/H100 80GB（240GB VRAM）。

精度	模型大小	能塞进 4090 24GB？
BF16	~137 GB	❌
INT8	~69 GB	❌
INT4	~34 GB	❌
INT3	~26 GB	❌ 勉强超出

CPU offload 理论可行（INT4 34GB 放进 62GB RAM），但推理速度极慢（CPU↔GPU 来回搬数据），多模态推理更重（视觉/音频编码器也要跑），实用价值基本为零。且目前无 GGUF/Ollama 量化版。

如需测试 LongCat-Next：

在线体验：longcat.ai（Web/iOS/Android）
云 GPU 租用：3×A100 40GB（~$6-9/小时）或 2×A100 80GB
等社区出 GGUF 量化版 + Ollama 支持（可能数周）

最佳策略：短期用 Qwen3.5-Omni API，长期等 Omni 开源后与 LongCat-Flash-Omni 做本地 A/B 对比，选中文 TTS 质量更好的那个。

10. 总结与展望

10.1 关键结论

1. Qwen3.5-Omni 是目前最全面的原生全模态 AI 模型之一，在音频理解上超越 Gemini 3.1 Pro，在处理效率上远超 GPT-5.4

2. 声音克隆 + 语义打断 + Vibe Coding 三大特性标志着 AI 从 "工具" 向 "交互伙伴" 的转变

3. 对 Babel 播客项目：短期可用 Omni 替代 Whisper + DeepSeek 步骤，但 TTS 环节暂时保留 IndexTTS2

4. 开源预期乐观，但时间和功能范围不确定

5. 定价极具竞争力，尤其音频处理（每秒 25 token ≈ 几乎免费）

10.2 下一步行动

[ ] 等 Qwen3.5-Omni API 完全开放后，测试 ASR + 翻译一体化效果
[ ] 做 Babel 的 A/B 对比测试（当前流程 vs. Omni 混合方案）
[ ] 评估声音克隆 API 的质量和多角色切换能力
[ ] 关注开源动态，开源后在 ub2 上尝试本地部署
[ ] 设计 OpenClaw 语音交互层的 PoC

6. LongCat-Flash-Omni 是目前最大的开源全模态模型（562B），中文场景训练数据丰富，TTS WER 极低，适合本地部署的中文播客场景

参考链接

Qwen3.5-Omni 官方博客 — 官方技术详解
Decrypt 评测：Qwen 3.5 Omni Can Now Hear, Watch, and Clone Your Voice — 独立评测，含 GPT-5.4 对比
ToolMesh 技术分析：215 SOTA Benchmarks & Vibe Coding — 技术细节梳理
NYU RITS 深度解读 — 学术视角分析
Qwen Twitter/X 发布公告
Qwen3-Omni GitHub（上一代开源）
Qwen HuggingFace 主页
Qwen3.5 Ollama 页面
阿里百炼定价页面
阿里百炼 DashScope API 文档
LongCat-Flash-Omni 详细技术分析（新浪） — 5600 亿参数全模态模型技术细节
LongCat-Next 发布报道 — 原生多模态新范式
LongCat-Next HuggingFace
LongCat-Next GitHub
Reddit: 中国 LLM 生态现状 — 含 LongCat 社区评价

评分

维度	分数	说明
创意	?/10
技术深度	?/10
实用性	?/10
影响力	?/10
数据支撑	?/10
与我们的相关性	?/10
综合	?/10	需要后续评估

> 一句话总结：（报告的核心价值与我们的关联）

评分

维度	分数	说明
创意	?/10
技术深度	?/10
实用性	?/10
影响力	?/10
数据支撑	?/10
与我们的相关性	?/10
综合	?/10	需要后续评估

> 一句话总结：（报告的核心价值与我们的关联）