SANA-WM: NVIDIA 开源高效分钟级世界模型
> 一句话版本:NVIDIA 开源了一个 26 亿参数的世界模型,只用一张显卡就能生成 1 分钟长的 720p 视频,而且可以精确控制镜头运动——就像给 AI 装了一个"虚拟摄像机",你告诉它镜头怎么走,它就生成对应的画面。
- 来源: arXiv 2605.15178
- 项目页: https://nvlabs.github.io/Sana/WM/
- GitHub: https://github.com/NVlabs/Sana
- 日期: 2026-05-14 (提交), 2026-05-17 (研究)
核心亮点
| 指标 | SANA-WM | 对比对象 |
|---|---|---|
| 参数量 | **2.6B** | 工业级模型通常 >10B |
| 训练数据 | **~213K 公开视频** | 传统方案需要数百万级 |
| 训练成本 | **15 天 × 64 H100** | 可复现的学术级预算 |
| 推理硬件 | **单张 H100 / RTX 5090** | 竞品需多卡集群 |
| 推理速度 | **34s (RTX 5090, 蒸馏版)** | 比竞品快 36× |
| 分辨率 | **720p, 60 秒** | 对标工业级输出 |
| 开源协议 | CC BY-NC-SA 4.0 | 完全开放 |
这是什么?
SANA-WM 是 NVIDIA 推出的开源世界模型(World Model),核心能力是:
1. 输入: 一张起始图片 + 文本描述 + 6-DoF 相机轨迹(镜头移动路径)
2. 输出: 1 分钟长的 720p 视频,画面跟随相机轨迹运动,同时保持场景一致性
"世界模型"在这里的含义是:模型学会了"如果镜头这样移动,世界看起来会是什么样子",而不是单纯地生成随机视频。
四个关键技术
1. 混合线性注意力(Hybrid Linear Attention)
核心创新。传统的 Transformer 注意力机制在处理长视频时内存爆炸。SANA-WM 的做法:
- 大部分层使用 Gated DeltaNet (GDN) —— 一种线性注意力变体,内存占用恒定
- 每隔几层插入标准的 softmax 注意力层,保证长距离回忆精度
- 结果:分钟级视频的上下文建模变得可行
2. 双分支相机控制(Dual-Branch Camera Control)
精确控制镜头运动需要解决一个矛盾:视频压缩后帧率降低,但相机运动是连续的。
- UCPE 分支(在压缩后的 latent 空间工作)—— 捕捉全局轨迹结构
- Plücker 混合分支(在原始帧空间工作)—— 恢复 VAE 压缩步内的精细运动
- 两路结合实现粗到细的精确控制
3. 两阶段生成流水线
- 阶段 1: 基础生成器产出 60 秒视频
- 阶段 2: 专用的长视频精炼器(refiner)修复结构缺陷、锐化细节
- 独立于基础模型,可以单独优化
4. 数据标注流水线
因为没有现成的带相机姿态标注的大规模数据集,他们自己构建了一套自动标注系统:
- 使用 VIPE、Pi3X、MoGe-2 等姿态/深度估计器
- 从公开视频中恢复公制尺度的 6-DoF 相机位姿
- 经过质量过滤后得到 ~213K 个高质量片段
- 这是他们能用少量数据训练的关键
渐进式训练策略(四阶段)
1. VAE 适配: 替换为 LTX2-VAE(压缩率比 Wan2.1-VAE 高 8 倍)
2. 架构适配: 从 SANA-Video 基础模型迁移到 GDN-Softmax 混合架构
3. 分钟级扩展: 拉长序列长度 + 加入相机控制分支
4. 蒸馏部署: 使用自强化蒸馏减少到 4 步去噪,配合 NVFP4 量化在 RTX 5090 上 34 秒完成
三套推理模式
| 模式 | 用途 | 硬件要求 |
|---|---|---|
| 双向生成器 | 高质量离线合成 | 1× H100 |
| 分块因果自回归 | 顺序滚动生成 | 1× H100 |
| 蒸馏版自回归 | 快速部署 | 1× RTX 5090 (34s) |
行业对标
论文将 SANA-WM 与两个工业级闭源方案对比:
- LingBot-World: 大规模工业世界模型
- HY-WorldPlay: 字节跳动的世界模型
结论:SANA-WM 在动作跟随精度上超过所有开源方案,视觉质量与工业级方案相当,吞吐量高出 36 倍。
与我们的项目的关联
SANA-WM 是 NVIDIA 的 SANA 系列的最新成员,延续了 SANA (图像)、SANA-Video (视频) 到 SANA-WM (世界模型) 的演进路径。对于我们的工作:
1. 开源世界模型的核心参考: 如果我们要评估或使用世界模型做仿真/内容生成,SANA-WM 是目前性价比最高的选择
2. 数据效率启示: 213K 视频片段 + 自动标注流水线的做法,对 AI 训练的数据策略有参考意义
3. 混合注意力架构设计: GDN + softmax 的混合方案值得在长序列建模任务中借鉴
4. NVFP4 量化实践: 在消费级显卡(RTX 5090)上运行 26B 模型,对本地部署 LLM/扩散模型有参考价值
评分
| 维度 | 评分 | 说明 |
|---|---|---|
| **创新性** | ★★★★☆ | 混合注意力和渐进训练策略精巧,但整体框架继承 SANA-Video |
| **实用性** | ★★★★★ | 开源、单卡推理、清晰的控制接口,直接可用 |
| **可复现性** | ★★★★★ | 公开数据 + 开源代码 + 可负担的训练预算 |
| **技术深度** | ★★★★☆ | 解决长视频建模真实工程难题,实验设计扎实 |
| **影响力潜力** | ★★★★★ | 世界模型的"开源里程碑",可能加速整个领域 |
综合评分: 9.0/10