美团 LongCat-Next:让视觉和语音成为 AI 的"原生母语"
> GitHub: meituan-longcat/LongCat-Next
> HuggingFace: meituan-longcat/LongCat-Next
> Demo: longcat.chat/longcat-next
> 技术报告: tech_report.pdf
> 发布时间: 2026-03-26/27
> 研究时间: 2026-03-27
🎯 一句话版本
美团 AI 团队发布并开源了 LongCat-Next——一个把文字、图片、声音统一当成同一种"语言"来理解和生成的模型。不再是"语言模型+外挂视觉模块"的拼凑,而是从底层架构上真正的原生多模态,仅用 3B 激活参数就在多个基准上超越了大几倍的专用模型。
🧩 背景:多模态的老问题
今天大多数"多模态大模型",本质上是这样的结构:
语言基座
+ 视觉编码器(CLIP/SigLIP)→ 投影到语言空间
+ 音频编码器 → 投影到语言空间
问题在于:
- 视觉"理解"(图→文)和"生成"(文→图)用的是两套完全不同的架构(对齐 vs. 扩散)
- 非语言模态本质上是"外来客",通过对齐机制硬塞进来的
- 训练不稳定,部署更复杂
美团的问题:能不能让 AI 像处理文字一样,用同一种方式处理所有物理世界的信息?
🏗️ 核心架构:DiNA(离散原生自回归)
LongCat-Next 的答案是 DiNA(Discrete Native Autoregressive)——
> 把文字、图像、音频全部转换为同源的离散 Token,然后用同一个自回归模型做 Next Token Prediction。
就这一句话,但改变了多模态建模的底层逻辑:
| 传统多模态 | DiNA |
|---|---|
| 语言为中心,视觉/音频外挂 | 所有模态平等,共享参数 |
| 理解/生成两套架构 | 同一套预测逻辑 |
| 跨模态"对齐" | 跨模态"内化" |
| 训练不稳定 | 统一损失函数,更稳定 |
基座:LongCat-Flash-Lite MoE(总参数 68.5B,激活参数仅 3B)
激活参数只有 3B,但效果超越激活参数大几倍的专用模型——这是 MoE 架构的优势。
🔑 三大核心技术
1. DiNA 架构
给定图像→预测文字 = 理解
给定文字→预测图像 = 生成
两者数学形式完全一致,不再割裂。训练中还出现了有趣现象:MoE 路由自发出现模态专精化——不同专家自动分化出对不同模态的偏好,就像语言模型里不同专家处理不同语言一样。
2. dNaViT(离散原生分辨率视觉分词器)
视觉领域的"tokenizer":image → 离散 Token → image,完整闭环。
亮点:
- 原生任意分辨率:不缩放、不裁剪、不填充,保留所有细节(OCR、财报解析等任务的关键)
- 8层 RVQ(残差向量量化):28倍压缩率,层层逼近高维连续表示
- 解耦双轨解码:结构像素解码器(还原布局)+ 扩散像素细化器(注入纹理)
3. SAE(语义对齐完备编码器)
解决"离散化必然损失信息"的老难题。不用对比学习(SigLIP),改用大规模视觉-语言监督(描述、问答、推理)训练,学习高密度、多属性语义表征,底层视觉细节(颜色、纹理、空间)持续向高层传播。
📊 基准测试成绩
视觉理解
| 基准 | 成绩 | 对比 |
|---|---|---|
| OmniDocBench | 0.152/0.226 | **超越 Qwen3-Omni 和专用 Qwen3-VL** |
| MathVista | **83.1** | 行业领先 |
图像生成
| 基准 | 成绩 |
|---|---|
| GenEval | **84.44** |
| LongText-Bench(英文) | **93.15**(显著超越 BAGEL 等统一模型) |
纯文本(证明统一框架没有损失语言能力)
| 基准 | 成绩 |
|---|---|
| MMLU-Pro | 77.02 |
| C-Eval | **86.80** |
工具调用/智能体
| 基准 | LongCat-Next | Qwen3-Next-80B-A3B |
|---|---|---|
| τ²-Bench 零售 | **73.68** | 57.30 |
| SWE-Bench | **43.0** | 低于 |
音频
| 任务 | 成绩 |
|---|---|
| SeedTTS 中文 WER | **1.90**(极低) |
| SeedTTS 英文 WER | **1.89** |
| MMAU | 76.40 |
| 语音克隆 | 支持可定制 |
| 低延迟语音 | 并行文本语音生成 |
💡 三大行业刻板印象被打破
| 刻板印象 | LongCat-Next 的回答 |
|---|---|
| "离散视觉有天花板,细粒度感知必须用连续模型" | OmniDocBench 超越 Qwen3-VL(连续模型专用) |
| "单一模型难以同时做好理解和生成" | 理解损失仅比纯理解高 0.006,生成损失比纯生成低 0.02 |
| "统一框架会损害语言能力" | MMLU-Pro 和 C-Eval 仍然领先 |
❓ 常见问题解答
"下一个 Token 预测"是什么意思?是读包含图片的材料吗?
不只是这样——图片本身也被编码成 Token 序列,然后用同一个预测机制处理。
传统多模态(如 GPT-4V)的做法:
图片 → 视觉编码器 → 连续向量 → 投影层 → 语言模型入口
文字 → 分词器 → Token 序列 → 语言模型
图片和文字走不同路,只在入口处"对齐"。生成图片还需要另一套扩散模型。
LongCat-Next(DiNA)的做法:
图片 → dNaViT → 离散Token序列 [43, 892, 217...]
文字 → 分词器 → Token序列 [Hello=1, world=2...]
音频 → 音频分词器 → Token序列
↓
全部送进同一个自回归模型
↓
预测下一个 Token(不管是文字/图片/音频 Token)
所以同一套模型就能完成四件事:
- 给图片 → 预测文字Token = 图片理解
- 给文字 → 预测图片Token = 图片生成
- 给音频 → 预测文字Token = 语音识别
- 给文字 → 预测音频Token = TTS(文字转语音)
一张图代表几个 Token?
取决于分辨率,dNaViT 支持动态 tokenization——图越大,Token 越多。
关键参数:28× 压缩率 + 8层 RVQ。典型估算(以 512×512 图为例):
| 系统 | 512×512 约需 Token 数 | 说明 |
|---|---|---|
| GPT-4V | ~170 | 连续向量,无法生成图片 |
| LLaVA | ~256 | 连续向量,无法生成图片 |
| LongCat-Next | **多(动态)** | 离散 Token,可以生成图片 |
Token 数量更多,换来的是真正能生成图像的能力。这也解释了为什么它需要 3 块 80GB GPU——图像 Token 序列本身就很长,上下文窗口消耗大。
什么是"离散视觉"?什么是"连续视觉"?
用一个比喻来理解:
连续视觉 = 把图片区域描述成 [0.83, -0.21, 0.47, 0.91...] 一串浮点数(高维向量),像一把无限精细的尺子。
离散视觉 = 把图片区域描述成 #4821 一个整数 ID,像字典里的词条,数量有限。
| 连续视觉(GPT-4V、LLaVA 等) | 离散视觉(LongCat-Next) | |
|---|---|---|
| 图片表示 | 浮点向量 [0.83, -0.21...] | 整数 ID [4821, 892, 217...] |
| 信息精度 | 高,理论上无限精细 | 有限,取决于词典大小 |
| 能否生成图片 | ❌ 语言模型无法输出浮点向量还原图片 | ✅ 预测整数 ID,再解码为图片 |
| 理解/生成 | 两套完全不同的架构 | 同一套模型 |
为什么行业长期认为"离散视觉有天花板":
把 RGB(235, 127, 43) 这样的精细颜色映射到 #4821 这个词条,总会有精度损失——就像把"微微泛红的橙黄色"硬塞进"橙色"这个词,细节丢了。财报 OCR、学术论文识别这类任务对细节极度敏感,所以连续模型长期占优。
LongCat-Next 如何突破这个天花板:
- 8层 RVQ(残差向量量化):每层学习前一层的"误差",层层逼近,类似于用一系列近似值叠加来还原原始信号
- SAE 编码器:用大规模视觉-语言监督训练,保留颜色、纹理、空间结构等细粒度信息
结果:OmniDocBench(财报/学术论文 OCR)超越了连续模型 Qwen3-VL,证明了离散化不是细节感知的天花板。
🛠️ 部署要求
- 至少 3 块 80GB GPU(H100/A100 80GB)
- Python >= 3.10, Torch >= 2.6, Transformers >= 4.57.6
- 模型格式与 HuggingFace Transformers 兼容
- 支持图像理解/生成、音频理解/生成、工具调用、语音克隆
🔗 与我们的关联
1. 对 OpenClaw 代理的意义
工具调用能力超越 Qwen3-Next-80B-A3B-Instruct(57.3 → 73.68)——这对 Agent 场景意义重大。
如果 LongCat-Next 可以通过 Ollama 部署(需要验证),它将是 ub2(RTX 4090×1,24GB VRAM)无法运行的——需要至少 3 块 80GB GPU。但对于有条件的团队,这是比 Qwen3:30b-a3b 更强的 Agent 基础模型候选。
2. 多模态 Agent 的未来
美团的方向非常清晰:通往物理世界 AI。
- 一个能真正"看懂"图像(不只是对齐)
- 真正"听懂"声音(不只是 ASR)
- 真正理解物理世界规律的 AI
这是比"语言 Agent"更高阶的目标,也是未来送餐机器人、服务机器人的核心能力需求——而这恰恰是美团这家公司的核心战场。
3. 对比 Qwen 系列
美团 LongCat-Next 直接拿 Qwen3-Omni 和 Qwen3-VL 做对比,并声称在多个任务上超越。这不是小打小闹,而是对阿里最强多模态系列的正面挑战。
4. 开源策略
完全开源(模型权重 + 分词器 + 技术报告),这是美团 AI 建立影响力的重要信号。类比:Meta 用 LLaMA 系列赢得开发者社区,美团在用 LongCat 做同样的事。
⚠️ 注意事项
| 问题 | 说明 |
|---|---|
| 硬件门槛高 | 需要 3×80GB GPU,个人/小团队难以本地运行 |
| 整体规模小 | 3B 激活参数,天花板可能有限 |
| 美团 vs 通用 AI | 训练数据偏向美团业务场景(零售、餐饮),泛化性待验证 |
| 音频能力 | TTS 指标好,但实际语音对话质量需要实测 |
📊 评分
| 维度 | 评分(/10) |
|---|---|
| 技术创新 | 9.0 — DiNA 是真正的架构创新,不是缝合 |
| 开源生态 | 8.5 — 模型+分词器+报告全开源 |
| 实测性能 | 8.5 — 多个任务超越专用模型 |
| 实用性 | 7.0 — 3×80GB 门槛是主要限制 |
| 对行业影响 | 8.5 — 证明了离散原生多模态的可行性 |
| **综合** | **8.5** |
报告由深度研究助手自动生成 | 2026-03-27