美团 LongCat-Next：让视觉和语音成为 AI 的"原生母语"

> GitHub: meituan-longcat/LongCat-Next

> HuggingFace: meituan-longcat/LongCat-Next

> 发布时间: 2026-03-26/27

> 研究时间: 2026-03-27

🎯 一句话版本

美团 AI 团队发布并开源了 LongCat-Next——一个把文字、图片、声音统一当成同一种"语言"来理解和生成的模型。不再是"语言模型+外挂视觉模块"的拼凑，而是从底层架构上真正的原生多模态，仅用 3B 激活参数就在多个基准上超越了大几倍的专用模型。

🧩 背景：多模态的老问题

今天大多数"多模态大模型"，本质上是这样的结构：


语言基座
  + 视觉编码器（CLIP/SigLIP）→ 投影到语言空间
  + 音频编码器 → 投影到语言空间

问题在于：

视觉"理解"（图→文）和"生成"（文→图）用的是两套完全不同的架构（对齐 vs. 扩散）
非语言模态本质上是"外来客"，通过对齐机制硬塞进来的
训练不稳定，部署更复杂

美团的问题：能不能让 AI 像处理文字一样，用同一种方式处理所有物理世界的信息？

🏗️ 核心架构：DiNA（离散原生自回归）

LongCat-Next 的答案是 DiNA（Discrete Native Autoregressive）——

> 把文字、图像、音频全部转换为同源的离散 Token，然后用同一个自回归模型做 Next Token Prediction。

就这一句话，但改变了多模态建模的底层逻辑：

传统多模态	DiNA
语言为中心，视觉/音频外挂	所有模态平等，共享参数
理解/生成两套架构	同一套预测逻辑
跨模态"对齐"	跨模态"内化"
训练不稳定	统一损失函数，更稳定

基座：LongCat-Flash-Lite MoE（总参数 68.5B，激活参数仅 3B）

激活参数只有 3B，但效果超越激活参数大几倍的专用模型——这是 MoE 架构的优势。

🔑 三大核心技术

1. DiNA 架构

给定图像→预测文字 = 理解

给定文字→预测图像 = 生成

两者数学形式完全一致，不再割裂。训练中还出现了有趣现象：MoE 路由自发出现模态专精化——不同专家自动分化出对不同模态的偏好，就像语言模型里不同专家处理不同语言一样。

2. dNaViT（离散原生分辨率视觉分词器）

视觉领域的"tokenizer"：image → 离散 Token → image，完整闭环。

亮点：

原生任意分辨率：不缩放、不裁剪、不填充，保留所有细节（OCR、财报解析等任务的关键）
8层 RVQ（残差向量量化）：28倍压缩率，层层逼近高维连续表示
解耦双轨解码：结构像素解码器（还原布局）+ 扩散像素细化器（注入纹理）

3. SAE（语义对齐完备编码器）

解决"离散化必然损失信息"的老难题。不用对比学习（SigLIP），改用大规模视觉-语言监督（描述、问答、推理）训练，学习高密度、多属性语义表征，底层视觉细节（颜色、纹理、空间）持续向高层传播。

📊 基准测试成绩

视觉理解

基准	成绩	对比
OmniDocBench	0.152/0.226	超越 Qwen3-Omni 和专用 Qwen3-VL
MathVista	83.1	行业领先

图像生成

基准	成绩
GenEval	84.44
LongText-Bench（英文）	93.15（显著超越 BAGEL 等统一模型）

纯文本（证明统一框架没有损失语言能力）

基准	成绩
MMLU-Pro	77.02
C-Eval	86.80

工具调用/智能体

基准	LongCat-Next	Qwen3-Next-80B-A3B
τ²-Bench 零售	73.68	57.30
SWE-Bench	43.0	低于

音频

任务	成绩
SeedTTS 中文 WER	1.90（极低）
SeedTTS 英文 WER	1.89
MMAU	76.40
语音克隆	支持可定制
低延迟语音	并行文本语音生成

💡 三大行业刻板印象被打破

刻板印象	LongCat-Next 的回答
"离散视觉有天花板，细粒度感知必须用连续模型"	OmniDocBench 超越 Qwen3-VL（连续模型专用）
"单一模型难以同时做好理解和生成"	理解损失仅比纯理解高 0.006，生成损失比纯生成低 0.02
"统一框架会损害语言能力"	MMLU-Pro 和 C-Eval 仍然领先

❓ 常见问题解答

"下一个 Token 预测"是什么意思？是读包含图片的材料吗？

不只是这样——图片本身也被编码成 Token 序列，然后用同一个预测机制处理。

传统多模态（如 GPT-4V）的做法：


图片 → 视觉编码器 → 连续向量 → 投影层 → 语言模型入口
文字 → 分词器 → Token 序列 → 语言模型

图片和文字走不同路，只在入口处"对齐"。生成图片还需要另一套扩散模型。

LongCat-Next（DiNA）的做法：


图片 → dNaViT → 离散Token序列 [43, 892, 217...]
文字 → 分词器 → Token序列 [Hello=1, world=2...]
音频 → 音频分词器 → Token序列
↓
全部送进同一个自回归模型
↓
预测下一个 Token（不管是文字/图片/音频 Token）

所以同一套模型就能完成四件事：

给图片 → 预测文字Token = 图片理解
给文字 → 预测图片Token = 图片生成
给音频 → 预测文字Token = 语音识别
给文字 → 预测音频Token = TTS（文字转语音）

一张图代表几个 Token？

取决于分辨率，dNaViT 支持动态 tokenization——图越大，Token 越多。

关键参数：28× 压缩率 + 8层 RVQ。典型估算（以 512×512 图为例）：

系统	512×512 约需 Token 数	说明
GPT-4V	~170	连续向量，无法生成图片
LLaVA	~256	连续向量，无法生成图片
LongCat-Next	多（动态）	离散 Token，可以生成图片

Token 数量更多，换来的是真正能生成图像的能力。这也解释了为什么它需要 3 块 80GB GPU——图像 Token 序列本身就很长，上下文窗口消耗大。

什么是"离散视觉"？什么是"连续视觉"？

用一个比喻来理解：

连续视觉 = 把图片区域描述成 [0.83, -0.21, 0.47, 0.91...] 一串浮点数（高维向量），像一把无限精细的尺子。

离散视觉 = 把图片区域描述成 #4821 一个整数 ID，像字典里的词条，数量有限。

	连续视觉（GPT-4V、LLaVA 等）	离散视觉（LongCat-Next）
图片表示	浮点向量 [0.83, -0.21...]	整数 ID [4821, 892, 217...]
信息精度	高，理论上无限精细	有限，取决于词典大小
能否生成图片	❌ 语言模型无法输出浮点向量还原图片	✅ 预测整数 ID，再解码为图片
理解/生成	两套完全不同的架构	同一套模型

为什么行业长期认为"离散视觉有天花板"：

把 RGB(235, 127, 43) 这样的精细颜色映射到 #4821 这个词条，总会有精度损失——就像把"微微泛红的橙黄色"硬塞进"橙色"这个词，细节丢了。财报 OCR、学术论文识别这类任务对细节极度敏感，所以连续模型长期占优。

LongCat-Next 如何突破这个天花板：

8层 RVQ（残差向量量化）：每层学习前一层的"误差"，层层逼近，类似于用一系列近似值叠加来还原原始信号
SAE 编码器：用大规模视觉-语言监督训练，保留颜色、纹理、空间结构等细粒度信息

结果：OmniDocBench（财报/学术论文 OCR）超越了连续模型 Qwen3-VL，证明了离散化不是细节感知的天花板。

📦 开源资源一览

全面开源——模型权重、分词器、代码、技术报告全部公开。

资源	地址
模型权重	[huggingface.co/meituan-longcat/LongCat-Next](https://huggingface.co/meituan-longcat/LongCat-Next)
代码 + dNaViT 分词器	[github.com/meituan-longcat/LongCat-Next](https://github.com/meituan-longcat/LongCat-Next)
技术报告	[tech_report.pdf](https://github.com/meituan-longcat/LongCat-Next/blob/main/tech_report.pdf)
在线 Demo	[longcat.chat/longcat-next](https://longcat.chat/longcat-next)
博客/介绍	[longcat.chat/longcat-next/intro](https://longcat.chat/longcat-next/intro)

🛠️ 部署要求

至少 3 块 80GB GPU（H100/A100 80GB）
Python >= 3.10, Torch >= 2.6, Transformers >= 4.57.6
模型格式与 HuggingFace Transformers 兼容
支持图像理解/生成、音频理解/生成、工具调用、语音克隆

🔗 与我们的关联

1. 对 OpenClaw 代理的意义

工具调用能力超越 Qwen3-Next-80B-A3B-Instruct（57.3 → 73.68）——这对 Agent 场景意义重大。

如果 LongCat-Next 可以通过 Ollama 部署（需要验证），它将是 ub2（RTX 4090×1，24GB VRAM）无法运行的——需要至少 3 块 80GB GPU。但对于有条件的团队，这是比 Qwen3:30b-a3b 更强的 Agent 基础模型候选。

2. 多模态 Agent 的未来

美团的方向非常清晰：通往物理世界 AI。

一个能真正"看懂"图像（不只是对齐）
真正"听懂"声音（不只是 ASR）
真正理解物理世界规律的 AI

这是比"语言 Agent"更高阶的目标，也是未来送餐机器人、服务机器人的核心能力需求——而这恰恰是美团这家公司的核心战场。

3. 对比 Qwen 系列

美团 LongCat-Next 直接拿 Qwen3-Omni 和 Qwen3-VL 做对比，并声称在多个任务上超越。这不是小打小闹，而是对阿里最强多模态系列的正面挑战。

4. 开源策略

完全开源（模型权重 + 分词器 + 技术报告），这是美团 AI 建立影响力的重要信号。类比：Meta 用 LLaMA 系列赢得开发者社区，美团在用 LongCat 做同样的事。

⚠️ 注意事项

问题	说明
硬件门槛高	需要 3×80GB GPU，个人/小团队难以本地运行
整体规模小	3B 激活参数，天花板可能有限
美团 vs 通用 AI	训练数据偏向美团业务场景（零售、餐饮），泛化性待验证
音频能力	TTS 指标好，但实际语音对话质量需要实测

📊 评分

维度	评分（/10）
技术创新	9.0 — DiNA 是真正的架构创新，不是缝合
开源生态	8.5 — 模型+分词器+报告全开源
实测性能	8.5 — 多个任务超越专用模型
实用性	7.0 — 3×80GB 门槛是主要限制
对行业影响	8.5 — 证明了离散原生多模态的可行性
综合	8.5

报告由深度研究助手自动生成 | 2026-03-27

来源: IT之家 / 新浪财经 / GitHub

评分

维度	分数	说明
创意	?/10
技术深度	?/10
实用性	?/10
影响力	?/10
数据支撑	?/10
与我们的相关性	?/10
综合	?/10	需要后续评估

> 一句话总结：（报告的核心价值与我们的关联）

评分

维度	分数	说明
创意	?/10
技术深度	?/10
实用性	?/10
影响力	?/10
数据支撑	?/10
与我们的相关性	?/10
综合	?/10	需要后续评估

> 一句话总结：（报告的核心价值与我们的关联）