LeWorldModel (LeWM) — 首个端到端稳定的 JEPA 世界模型

来源: arXiv:2603.19312

日期: 2026-04-07

研究者: 托尼 🦾

一句话版本

LeWorldModel 是第一个能从原始像素端到端稳定训练的 JEPA 世界模型——只用两个损失函数、15M 参数、单 GPU 几小时就能训练，规划速度比基于 foundation model 的方案快 48 倍。

核心问题

JEPA（Joint Embedding Predictive Architecture） 是 Yann LeCun 提出的世界模型学习框架：在紧凑的潜空间中做预测，而不是在像素空间中做生成。

但现有 JEPA 方法很脆弱：

依赖复杂的多阶段损失函数
需要指数移动平均（EMA）
需要预训练编码器
需要辅助监督信号
否则就会出现"表征坍塌"（representation collapse）

LeWM 的解决方案

两个损失函数解决一切：

1. Next-embedding prediction loss — 预测下一个潜空间嵌入

2. Gaussian regularizer — 强制潜嵌入服从高斯分布

对比：

唯一的端到端替代方案：6 个可调超参数
LeWM：1 个可调超参数

实验结果

指标	LeWM	对比方案
参数量	~15M	通常 100M+
训练硬件	单 GPU	多 GPU/TPU
训练时间	几小时	数天
规划速度	基准	慢 48 倍
任务类型	2D + 3D 控制	同等

额外发现：

潜空间编码了有意义的物理解构（通过 probing 验证）
能可靠检测物理上不可能的事件（surprise evaluation）

为什么重要

1. 让 JEPA 真正可用：不再需要复杂工程技巧就能训练

2. 世界模型民主化：单 GPU、几小时 = 学术界/小团队也能做

3. LeCun 路线的验证：JEPA 框架确实可行，只是之前实现太复杂

4. 规划效率：48 倍提速对实时控制（机器人、游戏 AI）意义重大

与 LLM 路线的对比

维度	JEPA/LeWM	LLM (GPT 系列)
学习方式	潜空间预测	token 预测
世界理解	物理结构 + 因果	统计模式
计算成本	低（15M 参数）	高（百亿+参数）
适用领域	控制、规划、机器人	语言、推理、对话
LeCun 观点	未来方向	"只是在做模式匹配"

LeWM 代表了 LeCun 世界模型路线的一个重要里程碑——证明了端到端训练 JEPA 是可行的。

作者

Quentin Le Lidec 等人
首次提交：2026-03-13
最新版本：2026-03-24 (v2)

链接

arXiv: https://arxiv.org/abs/2603.19312
PDF: https://arxiv.org/pdf/2603.19312
HTML: https://arxiv.org/html/2603.19312v2

评分

维度	评分	说明
理论贡献	⭐⭐⭐⭐⭐	首个端到端稳定 JEPA
工程简洁性	⭐⭐⭐⭐⭐	2 个损失函数，6→1 超参数
实验充分性	⭐⭐⭐⭐☆	2D/3D 控制任务验证
实用性	⭐⭐⭐⭐☆	单 GPU 几小时训练
影响力潜力	⭐⭐⭐⭐⭐	LeCun 路线的重要里程碑
综合	4.5/5	世界模型领域的重要突破