美团 LongCat-Next:让视觉和语音成为 AI 的"原生母语"

> GitHub: meituan-longcat/LongCat-Next

> HuggingFace: meituan-longcat/LongCat-Next

> Demo: longcat.chat/longcat-next

> 技术报告: tech_report.pdf

> 发布时间: 2026-03-26/27

> 研究时间: 2026-03-27

🎯 一句话版本

美团 AI 团队发布并开源了 LongCat-Next——一个把文字、图片、声音统一当成同一种"语言"来理解和生成的模型。不再是"语言模型+外挂视觉模块"的拼凑,而是从底层架构上真正的原生多模态,仅用 3B 激活参数就在多个基准上超越了大几倍的专用模型。

🧩 背景:多模态的老问题

今天大多数"多模态大模型",本质上是这样的结构:


语言基座
  + 视觉编码器(CLIP/SigLIP)→ 投影到语言空间
  + 音频编码器 → 投影到语言空间

问题在于:

美团的问题:能不能让 AI 像处理文字一样,用同一种方式处理所有物理世界的信息?

🏗️ 核心架构:DiNA(离散原生自回归)

LongCat-Next 的答案是 DiNA(Discrete Native Autoregressive)——

> 把文字、图像、音频全部转换为同源的离散 Token,然后用同一个自回归模型做 Next Token Prediction。

就这一句话,但改变了多模态建模的底层逻辑:

传统多模态DiNA
语言为中心,视觉/音频外挂所有模态平等,共享参数
理解/生成两套架构同一套预测逻辑
跨模态"对齐"跨模态"内化"
训练不稳定统一损失函数,更稳定

基座:LongCat-Flash-Lite MoE(总参数 68.5B,激活参数仅 3B)

激活参数只有 3B,但效果超越激活参数大几倍的专用模型——这是 MoE 架构的优势。

🔑 三大核心技术

1. DiNA 架构

给定图像→预测文字 = 理解

给定文字→预测图像 = 生成

两者数学形式完全一致,不再割裂。训练中还出现了有趣现象:MoE 路由自发出现模态专精化——不同专家自动分化出对不同模态的偏好,就像语言模型里不同专家处理不同语言一样。

2. dNaViT(离散原生分辨率视觉分词器)

视觉领域的"tokenizer":image → 离散 Token → image,完整闭环。

亮点:

3. SAE(语义对齐完备编码器)

解决"离散化必然损失信息"的老难题。不用对比学习(SigLIP),改用大规模视觉-语言监督(描述、问答、推理)训练,学习高密度、多属性语义表征,底层视觉细节(颜色、纹理、空间)持续向高层传播。

📊 基准测试成绩

视觉理解

基准成绩对比
OmniDocBench0.152/0.226**超越 Qwen3-Omni 和专用 Qwen3-VL**
MathVista**83.1**行业领先

图像生成

基准成绩
GenEval**84.44**
LongText-Bench(英文)**93.15**(显著超越 BAGEL 等统一模型)

纯文本(证明统一框架没有损失语言能力)

基准成绩
MMLU-Pro77.02
C-Eval**86.80**

工具调用/智能体

基准LongCat-NextQwen3-Next-80B-A3B
τ²-Bench 零售**73.68**57.30
SWE-Bench**43.0**低于

音频

任务成绩
SeedTTS 中文 WER**1.90**(极低)
SeedTTS 英文 WER**1.89**
MMAU76.40
语音克隆支持可定制
低延迟语音并行文本语音生成

💡 三大行业刻板印象被打破

刻板印象LongCat-Next 的回答
"离散视觉有天花板,细粒度感知必须用连续模型"OmniDocBench 超越 Qwen3-VL(连续模型专用)
"单一模型难以同时做好理解和生成"理解损失仅比纯理解高 0.006,生成损失比纯生成低 0.02
"统一框架会损害语言能力"MMLU-Pro 和 C-Eval 仍然领先

❓ 常见问题解答

"下一个 Token 预测"是什么意思?是读包含图片的材料吗?

不只是这样——图片本身也被编码成 Token 序列,然后用同一个预测机制处理。

传统多模态(如 GPT-4V)的做法:


图片 → 视觉编码器 → 连续向量 → 投影层 → 语言模型入口
文字 → 分词器 → Token 序列 → 语言模型

图片和文字走不同路,只在入口处"对齐"。生成图片还需要另一套扩散模型。

LongCat-Next(DiNA)的做法:


图片 → dNaViT → 离散Token序列 [43, 892, 217...]
文字 → 分词器 → Token序列 [Hello=1, world=2...]
音频 → 音频分词器 → Token序列
↓
全部送进同一个自回归模型
↓
预测下一个 Token(不管是文字/图片/音频 Token)

所以同一套模型就能完成四件事:

一张图代表几个 Token?

取决于分辨率,dNaViT 支持动态 tokenization——图越大,Token 越多。

关键参数:28× 压缩率 + 8层 RVQ。典型估算(以 512×512 图为例):

系统512×512 约需 Token 数说明
GPT-4V~170连续向量,无法生成图片
LLaVA~256连续向量,无法生成图片
LongCat-Next**多(动态)**离散 Token,可以生成图片

Token 数量更多,换来的是真正能生成图像的能力。这也解释了为什么它需要 3 块 80GB GPU——图像 Token 序列本身就很长,上下文窗口消耗大。

什么是"离散视觉"?什么是"连续视觉"?

用一个比喻来理解:

连续视觉 = 把图片区域描述成 [0.83, -0.21, 0.47, 0.91...] 一串浮点数(高维向量),像一把无限精细的尺子。

离散视觉 = 把图片区域描述成 #4821 一个整数 ID,像字典里的词条,数量有限。

连续视觉(GPT-4V、LLaVA 等)离散视觉(LongCat-Next)
图片表示浮点向量 [0.83, -0.21...]整数 ID [4821, 892, 217...]
信息精度高,理论上无限精细有限,取决于词典大小
能否生成图片❌ 语言模型无法输出浮点向量还原图片✅ 预测整数 ID,再解码为图片
理解/生成两套完全不同的架构同一套模型

为什么行业长期认为"离散视觉有天花板":

RGB(235, 127, 43) 这样的精细颜色映射到 #4821 这个词条,总会有精度损失——就像把"微微泛红的橙黄色"硬塞进"橙色"这个词,细节丢了。财报 OCR、学术论文识别这类任务对细节极度敏感,所以连续模型长期占优。

LongCat-Next 如何突破这个天花板:

结果:OmniDocBench(财报/学术论文 OCR)超越了连续模型 Qwen3-VL,证明了离散化不是细节感知的天花板。

🛠️ 部署要求

🔗 与我们的关联

1. 对 OpenClaw 代理的意义

工具调用能力超越 Qwen3-Next-80B-A3B-Instruct(57.3 → 73.68)——这对 Agent 场景意义重大。

如果 LongCat-Next 可以通过 Ollama 部署(需要验证),它将是 ub2(RTX 4090×1,24GB VRAM)无法运行的——需要至少 3 块 80GB GPU。但对于有条件的团队,这是比 Qwen3:30b-a3b 更强的 Agent 基础模型候选。

2. 多模态 Agent 的未来

美团的方向非常清晰:通往物理世界 AI

这是比"语言 Agent"更高阶的目标,也是未来送餐机器人、服务机器人的核心能力需求——而这恰恰是美团这家公司的核心战场。

3. 对比 Qwen 系列

美团 LongCat-Next 直接拿 Qwen3-Omni 和 Qwen3-VL 做对比,并声称在多个任务上超越。这不是小打小闹,而是对阿里最强多模态系列的正面挑战。

4. 开源策略

完全开源(模型权重 + 分词器 + 技术报告),这是美团 AI 建立影响力的重要信号。类比:Meta 用 LLaMA 系列赢得开发者社区,美团在用 LongCat 做同样的事。

⚠️ 注意事项

问题说明
硬件门槛高需要 3×80GB GPU,个人/小团队难以本地运行
整体规模小3B 激活参数,天花板可能有限
美团 vs 通用 AI训练数据偏向美团业务场景(零售、餐饮),泛化性待验证
音频能力TTS 指标好,但实际语音对话质量需要实测

📊 评分

维度评分(/10)
技术创新9.0 — DiNA 是真正的架构创新,不是缝合
开源生态8.5 — 模型+分词器+报告全开源
实测性能8.5 — 多个任务超越专用模型
实用性7.0 — 3×80GB 门槛是主要限制
对行业影响8.5 — 证明了离散原生多模态的可行性
**综合****8.5**

报告由深度研究助手自动生成 | 2026-03-27

来源: IT之家 / 新浪财经 / GitHub