我们离世界模型还有多远?Yann LeCun提出的自主机器智能愿景到哪层了?关于JEPA家族发展现状研究

张开发
2026/4/4 2:48:56 15 分钟阅读
我们离世界模型还有多远?Yann LeCun提出的自主机器智能愿景到哪层了?关于JEPA家族发展现状研究
最近社区里关于JEPA的热评特别多,本月的V-JEPA 2.1与LeWorldModel (LeWM)发布,引发JEPA家族的14个变体讨论,Yann LeCun(Yann)一如既往地对LLM不看好,有人一直在说JEPA代表的自主机器智能是通往世界模型的最优解,当然也有人说空间智能也是一种直观高效的世界模型,这题暂时无解,毕竟风物长宜放眼量。我们就先从JEPA框架的总论文开始着手,结合已发布的JEPA(含社区作品)成员来判断愿景框架的工作进展,从而按照框架进行每篇的内容、高光点以及应用方向概述。OK,Action!JEPA的愿景框架与工作进展提起世界模型 JEPA,JEPA就是不抠像素(细节),只学抽象规律,预测未来,确实的本质特征,相比生成式AI要省算力。要知道2022年Yann提出的JEPA的那篇论文《A Path Towards Autonomous Machine Intelligence》(2022),是一整个对自主机器智能愿景框架,把JEPA分成4层,分别是,Level 0:基础 JEPA。单模态、潜空间预测,不重建像素以及Token。Level 1:多模态 JEPA。图像 、视频、语言、音频、3D全覆盖。Level 2:世界模型 JEPA。时序 + 物理 + 动作 + 因果,能预测未来。Level 3:分层思考 JEPA。多层抽象 + 长期规划 + 类人思考。Yann把整个JEPA又分为三个方向:I-JEPA(图像起点)、V-JEPA(视频、世界模型方向) 和 H-JEPA(层次化未来方向)。这样一来,工作进展就很清晰了,那我们就从L0-L4一层一层来看,可以说版图基本完成大半,还差最后的临门一脚!Level 0:基础JEPA,完成进度100%这层的代表作是以图像代表作的I-JEPA(2023),潜在空间预测可行性的里程碑。它证明了非生成式、自监督学习的有效性,避免了像素重建的维度灾难。参考:I-JEPA(图像)、DMT-JEPA(细粒度图像)、Point-JEPA(3D点云)等。Level 1:多模态全覆盖,完成进度95%这层走全面发展策略,整体比较综合,从图像、视频、3D到音频、语言、图文再到图数据、医疗全有,这层的成果和Yann的AMI LABs的产品线以及战略保持一致,医疗和图数据属于领域扩展,没到领域全覆盖,也是当前运用最为高频的方向。参考:V-JEPA(视频)、A-JEPA(音频)、LLM-JEPA(语言)、VL-JEPA(图文)、Graph-JEPA(图数据)、EchoJEPA(医疗超声)等。Level 2:世界模型 + 因果,完成进度80%这层接近完全落地,主要涉及时序预测、动作条件、物理推理、因果推理,今年3月发的V-JEPA 2.1、LeWorldModel属于关键性突破,Yann在达沃斯论坛分享时就提到近期要发布V-JEPA 2.1,又一次强调对常识的理解。LeWorldModel,第一个从原始像素端到端稳定训练的JEPA,解决坍缩问题,像素级世界模型稳定性+1。参考:V-JEPA 2(视频规划)、ACT-JEPA(动作条件)、Causal-JEPA(因果)等。关键突破:V-JEPA 2.1(密集特征)、LeWorldModel(端到端像素世界模型)Level 3:分层思考(ThinkJEPA),正在来的路上目前暂时可以参考的是2022版愿景,属于是Yann 的终极 AGI 世界模型,可以先参考V-JEPA 2、ACT-JEPA,但还没到多层抽象 + 长期规划 + 类人思考程度。JEPA家族成员介绍社区里有很多种分类方法,有说10种,也有12种,14种,我们先按照有代表性的进行分析,挖坑先,待L3成果问世之时,我会再更一版,当前家族成员情况如下:1. JEPA/ H-JEPA(L3)论文: A Path Towards Autonomous Machine Intelligence摘要: 机器如何能像人类和动物一样高效地学习?机器如何能学会推理和规划?机器如何能学习多个抽象层级上的感知与行动计划的表示,从而使它们能够在多个时间跨度内进行推理、预测和规划?本论文提出了一种用于构建自主智能代理的架构和训练范式。它结合了诸如可配置的预测世界模型、由内在动机驱动的行为,以及通过自监督学习训练的分层联合嵌入架构等概念。创新点:首次提出联合嵌入预测架构,核心从像素、原始数据预测转向抽象嵌入预测,避免生成不可预测的噪声细节。分层设计(H-JEPA)实现多尺度预测,支持短期细节与长期规划,模拟人的认知过程。完全自监督,无需任何标签或人工增强,奠定Yann LeCun的自主机器智能路线图基础。自主智能架构。| 论文:openreview.net/pdf?id=BZ5a1r-kVsf2. I-JEPA(L0)论文: Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture摘要: 本文介绍了基于图像的联合嵌入预测架构 (I-JEPA),这是一种无需人工数据增强的自监督学习非生成方法。通过利用 Vision Transformers 并在 ImageNet 上使用少量 GPU 进行高效训练,I-JEPA 在多种下游任务(从线性分类到物体计数和深度预测)中均实现了强大的语义表示性能。创新点:首个真正非生成式JEPA实现,彻底抛弃像素重建,专注高层语义预测,计算效率大幅提升。采用上下文块分散可见,目标块语义尺度的创新掩码策略,无需任何数据增强即可达到SOTA表示质量。在ImageNet线性评估中以更少计算资源超越MAE/CAE等传统方法,训练快,抗噪,少标注,好用,成为视觉JEPA的标杆。应用建议:图像分类、检测、分割、医学影像、卫星图分析等。

更多文章