SANA-WM: NVIDIA 开源高效分钟级世界模型

> 一句话版本：NVIDIA 开源了一个 26 亿参数的世界模型，只用一张显卡就能生成 1 分钟长的 720p 视频，而且可以精确控制镜头运动——就像给 AI 装了一个"虚拟摄像机"，你告诉它镜头怎么走，它就生成对应的画面。

来源: arXiv 2605.15178
项目页: https://nvlabs.github.io/Sana/WM/
GitHub: https://github.com/NVlabs/Sana
日期: 2026-05-14 (提交), 2026-05-17 (研究)

核心亮点

指标	SANA-WM	对比对象
参数量	2.6B	工业级模型通常 >10B
训练数据	~213K 公开视频	传统方案需要数百万级
训练成本	15 天 × 64 H100	可复现的学术级预算
推理硬件	单张 H100 / RTX 5090	竞品需多卡集群
推理速度	34s (RTX 5090, 蒸馏版)	比竞品快 36×
分辨率	720p, 60 秒	对标工业级输出
开源协议	CC BY-NC-SA 4.0	完全开放

这是什么？

SANA-WM 是 NVIDIA 推出的开源世界模型（World Model），核心能力是：

1. 输入: 一张起始图片 + 文本描述 + 6-DoF 相机轨迹（镜头移动路径）

2. 输出: 1 分钟长的 720p 视频，画面跟随相机轨迹运动，同时保持场景一致性

"世界模型"在这里的含义是：模型学会了"如果镜头这样移动，世界看起来会是什么样子"，而不是单纯地生成随机视频。

四个关键技术

1. 混合线性注意力（Hybrid Linear Attention）

核心创新。传统的 Transformer 注意力机制在处理长视频时内存爆炸。SANA-WM 的做法：

大部分层使用 Gated DeltaNet (GDN) —— 一种线性注意力变体，内存占用恒定
每隔几层插入标准的 softmax 注意力层，保证长距离回忆精度
结果：分钟级视频的上下文建模变得可行

2. 双分支相机控制（Dual-Branch Camera Control）

精确控制镜头运动需要解决一个矛盾：视频压缩后帧率降低，但相机运动是连续的。

UCPE 分支（在压缩后的 latent 空间工作）—— 捕捉全局轨迹结构
Plücker 混合分支（在原始帧空间工作）—— 恢复 VAE 压缩步内的精细运动
两路结合实现粗到细的精确控制

3. 两阶段生成流水线

阶段 1: 基础生成器产出 60 秒视频
阶段 2: 专用的长视频精炼器（refiner）修复结构缺陷、锐化细节
独立于基础模型，可以单独优化

4. 数据标注流水线

因为没有现成的带相机姿态标注的大规模数据集，他们自己构建了一套自动标注系统：

使用 VIPE、Pi3X、MoGe-2 等姿态/深度估计器
从公开视频中恢复公制尺度的 6-DoF 相机位姿
经过质量过滤后得到 ~213K 个高质量片段
这是他们能用少量数据训练的关键

渐进式训练策略（四阶段）

1. VAE 适配: 替换为 LTX2-VAE（压缩率比 Wan2.1-VAE 高 8 倍）

2. 架构适配: 从 SANA-Video 基础模型迁移到 GDN-Softmax 混合架构

3. 分钟级扩展: 拉长序列长度 + 加入相机控制分支

4. 蒸馏部署: 使用自强化蒸馏减少到 4 步去噪，配合 NVFP4 量化在 RTX 5090 上 34 秒完成

三套推理模式

模式	用途	硬件要求
双向生成器	高质量离线合成	1× H100
分块因果自回归	顺序滚动生成	1× H100
蒸馏版自回归	快速部署	1× RTX 5090 (34s)

行业对标

论文将 SANA-WM 与两个工业级闭源方案对比：

LingBot-World: 大规模工业世界模型
HY-WorldPlay: 字节跳动的世界模型

结论：SANA-WM 在动作跟随精度上超过所有开源方案，视觉质量与工业级方案相当，吞吐量高出 36 倍。

与我们的项目的关联

SANA-WM 是 NVIDIA 的 SANA 系列的最新成员，延续了 SANA (图像)、SANA-Video (视频) 到 SANA-WM (世界模型) 的演进路径。对于我们的工作：

1. 开源世界模型的核心参考: 如果我们要评估或使用世界模型做仿真/内容生成，SANA-WM 是目前性价比最高的选择

2. 数据效率启示: 213K 视频片段 + 自动标注流水线的做法，对 AI 训练的数据策略有参考意义

3. 混合注意力架构设计: GDN + softmax 的混合方案值得在长序列建模任务中借鉴

4. NVFP4 量化实践: 在消费级显卡（RTX 5090）上运行 26B 模型，对本地部署 LLM/扩散模型有参考价值

评分

维度	评分	说明
创新性	★★★★☆	混合注意力和渐进训练策略精巧，但整体框架继承 SANA-Video
实用性	★★★★★	开源、单卡推理、清晰的控制接口，直接可用
可复现性	★★★★★	公开数据 + 开源代码 + 可负担的训练预算
技术深度	★★★★☆	解决长视频建模真实工程难题，实验设计扎实
影响力潜力	★★★★★	世界模型的"开源里程碑"，可能加速整个领域

综合评分: 9.0/10