Meta 推出 V-JEPA 2:人工智能系统学习对物理世界进行预测
Meta发布V-JEPA 2:面向人工智能未来的革命性人工智能世界模型
Meta公司发布了V-JEPA 2,这是一款突破性的人工智能系统,其方法与传统的大型语言模型截然不同。该世界模型拥有12亿个参数,旨在帮助机器人和其他人工智能体理解物理世界,并预测物理世界对其行为的反应。
V-JEPA 2 是什么?它与语言模型有何不同?
V-JEPA 2 代表“视频联合嵌入预测架构 2”,它基于与传统语言模型完全不同的架构。像 ChatGPT 或 GPT-4 这样的语言模型对文本序列进行概率预测,而 V-JEPA 2 则在一个抽象的表示空间中运行,专注于理解物理定律。
关键区别在于学习方法:语言模型需要大量标注数据,并通过监督训练进行学习。而V-JEPA 2则采用自监督学习,从未标注视频中提取知识,从而显著降低数据准备成本。该模型并非通过像素重建进行学习,而是通过视频内容的抽象表示进行学习。
JEPA架构:通过预测进行学习
联合嵌入预测架构 (JEPA) 由 Meta 的首席人工智能科学家 Yann LeCun 开发,是生成式人工智能模型的替代方案。与试图重建每个缺失像素的生成式方法不同,V-JEPA 2 处理带有掩码的视频区域,并学习预测抽象概念。
该系统采用两阶段训练方法:
第一阶段:自主学习
- 培训内容包括超过一百万小时的视频资料和一百万张图片。
- 无需人工标注即可学习物理交互模式
- 构建物理世界的内部模型
第二阶段:行动诱导适应
- 仅使用来自 DROID 数据集的 62 小时机器人控制数据进行微调
- 将智能体行为整合到预测能力中
- 实现规划和闭环控制
实践中表现优异
V-JEPA 2 在各个方面都展现出了令人印象深刻的性能:
视频理解和运动检测
- 在 Something-Something v2 数据集中,Top 1 准确率达到 77.3%。
- Epic-Kitchens-100 动作预测中,5 号召回率为 39.7%(比之前的模型提高了 44%)
- 在各种视频问答任务中均表现出色
机器人控制
- 在陌生环境中执行取放任务的成功率达到 65-80%。
- 无需特定环境训练的零样本机器人控制
- 在两个不同的实验室中使用 Franka 机器人手臂进行部署
与竞争对手相比的效率
V-JEPA 2 比 NVIDIA 的 Cosmos 模型快 30 倍,规划机器人动作仅需 16 秒,而 Cosmos 则需要 4 分钟。
技术创新和主要特点
该模型具有五项关键技术突破的特点:
- 自监督学习:无需大量标注数据。
- 掩蔽机制:通过预测隐藏的视频区域来训练模型
- 抽象表征学习:关注语义含义而非像素细节
- 世界模型架构:构建对物理定律的内在理解
- 高效的迁移学习:卓越的零样本学习能力
新的基准测试揭示了当前人工智能的局限性
与 V-JEPA 2 同时,Meta 还发布了三个新的基准测试,用于测试人工智能系统对物理的理解:
国际物理学2
它测试的是区分物理上合理和不合理情景的能力。即使是先进的模型,在这方面也仍然接近随机结果。
MVPBench
它使用视觉上相似的视频对,这些视频对针对同一问题给出相反的答案。V-JEPA 2 的配对准确率达到 44.5%,是所有测试系统中表现最佳的。
因果VQA
该研究考察了因果理解和反事实推理能力。结果表明,目前的AI系统能够很好地描述它们所观察到的现象,但在预测其他可能的结果方面存在困难。
无需数据渴求的人工智能:V-JEPA 2 如何提高机器学习效率
Yann LeCun认为,像V-JEPA 2这样的世界模型是下一代人工智能发展的关键。该模型有望彻底改变多个应用领域:
机器人和家庭助手
世界模型旨在开启机器人技术的新时代,在这个时代,人工智能代理无需天文数字般的训练数据即可处理现实世界的任务。
自动驾驶汽车
V-JEPA 2 的实时空间理解能力对于自动驾驶车辆、仓库机器人和无人机配送系统至关重要。
增强现实(AR)和虚拟助手
Meta计划通过集成音频分析和增强的视频理解功能,扩展V-JEPA 2的功能,使其适用于AR眼镜和虚拟助手。
开源软件的可用性和研究经费
Meta已将V-JEPA 2以CC-BY-NC许可协议开源,旨在促进全球人工智能研究。该模型代码可在GitHub上获取,并可在Google Colab和Kaggle等平台上运行。这种开放性与其他许多大型人工智能模型形成鲜明对比,旨在推动机器人和具身人工智能领域世界模型的发展。
人工智能发展范式的转变
V-JEPA 2 代表着从纯粹的语言处理到对物理世界更深层次理解的根本性范式转变。大多数人工智能公司依赖生成模型,而 Meta 则以其世界模型方法,为人工智能的未来探索另一种愿景。从极少数据中学习并实现零样本机器人控制的能力,有望为新一代智能系统铺平道路,这些系统不仅能够理解现实世界,还能在现实世界中采取行动。
适合:
您的全球营销和业务发展合作伙伴
☑️我们的业务语言是英语或德语
☑️ 新:用您的国家语言进行通信!
我很乐意作为个人顾问为您和我的团队提供服务。
您可以通过填写此处的联系表,或者直接致电+49 89 89 674 804 (慕尼黑)。我的电子邮件地址是: wolfenstein ∂ xpert.digital
我很期待我们的联合项目。


