语言选择 📢


对于机器人和其他AI代理:META的AI模型V-JEPA 2-AI了解我们的物理世界

发表于:2025年6月13日 /更新:2025年6月13日 - 作者: Konrad Wolfenstein

对于机器人和其他AI代理:META的AI模型V-JEPA 2-AI了解我们的物理世界

对于机器人和其他AI代理:META的AI Model V-JEPA 2-AI了解我们的物理世界形象:XPERT.Digital

META呈现V-JEPA 2:AI系统学习有关物理世界的预测

Meta出版V-JEPA 2:人工智能未来的革命性AI世界模型

使用V-JEPA 2,Meta提出了一个开创性的AI系统,该系统采用了基本方法,而不是传统的大型语音模型。开发了12亿个参数强大的世界模型,以帮助机器人和其他AI代理人了解物理世界,并预测其对其行为的反应。

什么是v-jepa 2,它与语音模型有何不同?

V-JEPA 2代表“视频嵌入预测架构2”,其基于与传统语音模型完全不同的架构。尽管诸如chatgpt或gpt-4之类的语音模型对文本序列做出了概率预测,但V-JEPA 2在抽象表示室中起作用,并专注于理解物理定律。

决定性的差异在于学习方法:语言模型需要大量标记的数据,并通过受到监视培训学习。另一方面,V-JEPA 2使用自我监测的学习和从不受欢迎的视频中提取知识,从而大大降低了数据准备的成本。该模型不是通过像素重建,而是通过视频内容的抽象表示。

JEPA架构:通过预测学习

Metas首席AI科学家Yann Lecun开发了联合嵌入预测性结构(JEPA),代表了生成AI模型的替代方案。与试图重建每个缺失的像素的生成方法相反,V-JEPA 2与蒙版的视频橡树一起使用,并学会了预测抽象概念。

该系统使用两阶段训练方法:

第一阶段:自我监视学习

  • 培训超过一百万小时的视频材料和一百万张图片
  • 在没有人类注释的情况下学习身体互动模式
  • 发展物理世界的内部模型

第二阶段:与动作相关的适应

  • 从DROID数据集中使用62小时的机器人控制数据进行微调
  • 将代理行动集成到预测技能中
  • 启用计划和封闭控制电路控制

实践中出色的表现

V-JEPA 2在不同领域表现出令人印象深刻的表现:

视频理解和运动检测

  • 77.3%的最高1 v2数据集中的精度
  • Epic-Kitchens-100动作预测的39.7%召回AT-5(与以前的模型相比提高了44%)
  • 各种视频问题响应任务中的最先进的表现

机器人控制

  • 在未知环境中采摘任务的成功率为65-80%
  • 零射击机器人控制没有特定环境训练
  • 与Franka Robot Arms一起使用两个不同的实验室

与竞争相比的效率

V-JEPA 2的速度比NVIDIA的宇宙模型快30倍,只需要16秒即可计划机器人动作,而宇宙需要4分钟。

技术创新和关键特征

该模型的特征是五个中央技术突破:

  1. 自我监控学习:消除了对大量标记数据的需求
  2. 掩盖机制:通过预测隐藏的视频区域来训练模型
  3. 摘要代表性学习:关注语义含义而不是像素细节
  4. 世界模型架构:对物理定律的内部理解
  5. 有效的转移学习:出色的零射门学习技能

当前AI的新基准明显限制

Meta与V-JEPA 2并行发布了三个新的基准测试,该基准测试了对AI系统的物理理解:

Intphys 2

测试区分物理上合理和不可能的情况的能力。即使是高级模型也仍然接近随机级别。

mvpbench

视觉上使用类似的视频车,对同一问题的答案有反对答案。 V-JEPA 2达到44.5%配对精度 - 所有测试系统的最佳性能。

Causalvqa

检查因果理解和相反的思维。结果表明,当前的AI系统可以很好地描述他们看到的内容,但很难预测替代课程。

AI没有数据的饥饿:V-JEPA 2机器学习如何提高效率

Yann Lecun看到了像V-JEPA 2这样的世界模型中下一代AI开发的关键。该模型可以彻底改变不同的应用领域:

机器人和预算助手

世界模型应该预示着一个新时代的机器人技术,其中AI代理可以在没有天文数量的培训数据的情况下管理实际任务。

自动驾驶汽车

V-JEPA 2对实时的空间了解对于自动驾驶汽车,仓库机器人和无人机输送系统至关重要。

扩展现实(AR)和虚拟助手

META计划通过整合音频分析并扩展对AR眼镜和虚拟助手的视频理解来扩展V-JEPA 2的功能。

开源可用性和研究促销

Meta已在CC-BY-NC许可下发布了V-JEPA 2,作为促进全球AI研究的开源。该模型代码可在GitHub上获得,可以在Google Colab和Kaggle等平台上执行。这种开放性与许多其他大型AI模型相反,旨在促进机器人技术和体现AI的世界模型的发展。

AI开发的范式转变

V-JEPA 2代表了从纯语言处理到对物理世界的更深刻理解的基本范式的转变。尽管大多数AI公司都依靠生成模型,但Meta通过其世界模型方法遵循人工智能未来的另一种愿景。从最小数据中学习并启用零射击机器人控制的能力可以为新一代的智能系统铺平道路,这些系统不仅了解,而且还可以在现实世界中行动。

适合:

 

您的全球营销和业务发展合作伙伴

☑️我们的业务语言是英语或德语

☑️ 新:用您的国家语言进行通信!

 

数字先锋 - 康拉德·德军总部

康拉德·德军总部

我很乐意作为个人顾问为您和我的团队提供服务。

您可以通过填写此处的联系表,或者直接致电+49 89 89 674 804 (慕尼黑)。我的电子邮件地址是: wolfenstein xpert.digital

我很期待我们的联合项目。

 

 

☑️ 为中小企业提供战略、咨询、规划和实施方面的支持

☑️ 创建或调整数字战略和数字化

☑️国际销售流程的扩展和优化

☑️ 全球数字 B2B 交易平台

☑️ 先锋业务发展/营销/公关/贸易展览会


⭐️人工智能 (AI) - AI 博客、热点和内容中心⭐️机器人/机器人⭐️ XPaper