ロボットやその他のAIエージェント向け：MetaのV-JEPA 2 AIモデル - 物理世界を理解するAI

公開日: 2025年6月13日 / 更新日: 2025年6月13日 – 著者: Konrad Wolfenstein

ロボットやその他のAIエージェント向け：MetaのV-JEPA 2 AIモデル - 物理世界を理解するAI - 画像：Xpert.Digital

MetaがV-JEPA 2を発表: AIシステムが物理世界についての予測を学習

MetaがV-JEPA 2を公開：人工知能の未来に向けた革新的なAI世界モデル

Metaは、従来のGrand Language Models（大言語モデル）とは根本的に異なるアプローチを採用した画期的なAIシステム、V-JEPA 2を発表しました。12億のパラメータを持つこの世界モデルは、ロボットやその他のAIエージェントが物理世界を理解し、その行動に対する反応を予測できるように開発されました。.

V-JEPA 2 とは何ですか? 言語モデルとどう違うのですか?

V-JEPA 2は「Video Joint Embedding Predictive Architecture 2」の略で、従来の言語モデルとは全く異なるアーキテクチャに基づいています。ChatGPTやGPT-4のような言語モデルがテキストシーケンスについて確率的な予測を行うのに対し、V-JEPA 2は抽象的な表現空間で動作し、物理法則の理解に重点を置いています。.

決定的な違いは学習方法にあります。言語モデルは大量のラベル付きデータを必要とし、教師あり学習によって学習します。一方、V-JEPA 2は自己教師学習を採用し、ラベルなし動画から知識を抽出することで、データ準備コストを大幅に削減します。このモデルは、ピクセル再構成ではなく、動画コンテンツの抽象的な表現に基づいて学習します。.

JEPAアーキテクチャ：予測による学習

Joint Embedding Predictive Architecture（JEPA）は、MetaのチーフAIサイエンティストであるヤン・ルカン氏によって開発され、生成AIモデルの代替となるものです。欠落したピクセルをすべて再構築しようとする生成アプローチとは異なり、V-JEPA 2はマスクされたビデオ領域を扱い、抽象的な概念を予測することを学習します。.

このシステムは 2 段階のトレーニングアプローチを使用します。

第一段階：自己教師学習

100万時間以上のビデオ教材と100万枚の画像を使ったトレーニング
人間の注釈なしで物理的な相互作用パターンを学習する
物理世界の内部モデルの開発

第2段階：行動誘発適応

DROIDデータセットからの62時間のロボット制御データのみで微調整
エージェントのアクションを予測機能に統合
計画と閉ループ制御の実現

実践での優れたパフォーマンス

V-JEPA 2 は、さまざまな分野で優れたパフォーマンスを発揮します。

ビデオ理解とモーション検出

Something-Something v2データセットで77.3%のトップ1の精度
Epic-Kitchens-100 のアクション予測における 5 回目の再現率は 39.7% （以前のモデルと比較して 44% の改善）
さまざまなビデオ質疑応答タスクにおける最先端のパフォーマンス

ロボット制御

未知の環境でのピックアンドプレース作業の成功率は65～80%
環境固有のトレーニングなしでゼロショットロボット制御
Frankaロボットアームを2つの異なる研究室に導入

競合他社と比較した効率性

V-JEPA 2 は NVIDIA の Cosmos モデルよりも 30 倍高速で、ロボットの動作を計画するのに 16 秒しかかかりませんが、Cosmos では 4 分かかります。.

技術革新と主な特徴

このモデルは、次の 5 つの主要な技術革新を特徴としています。

自己教師学習: 大量のラベル付きデータの必要性を排除します。
マスキングメカニズム: 隠れたビデオ領域を予測してモデルをトレーニングする
抽象表現学習: ピクセルの詳細ではなく意味に焦点を当てる
世界モデルアーキテクチャ：物理法則の内部理解の構築
効率的な転移学習：優れたゼロショット学習能力

新たなベンチマークが現在のAIの限界を明らかにする

V-JEPA 2 と並行して、Meta は AI システムの物理的な理解をテストする 3 つの新しいベンチマークをリリースしました。

物理2

これは、物理的に起こり得るシナリオと起こり得ないシナリオを区別する能力をテストするものです。高度なモデルであっても、この点では依然としてランダム性に近い結果を示します。.

MVPベンチ

視覚的に類似したビデオペアを使用し、同じ質問に対して相反する回答をします。V-JEPA 2は44.5%のペア正解率を達成し、テストされたすべてのシステムの中で最高のパフォーマンスを達成しました。.

因果VQA

この研究は、因果理解と反事実的推論を検証しています。その結果、現在のAIシステムは見たものをうまく説明できるものの、代替的な結果を予測することが困難であることがわかりました。.

データ飢餓のないAI：V-JEPA 2が機械学習をより効率的にする方法

ヤン・ルカン氏は、V-JEPA 2のような世界モデルが次世代のAI開発の鍵となると考えています。このモデルは、様々な応用分野に革命をもたらす可能性があります。

ロボット工学と家事アシスタント

ワールドモデルは、膨大な量のトレーニングデータなしで AI エージェントが現実世界のタスクを処理できるようになるロボット工学の新しい時代を先導することを目的としています。.

自動運転車

V-JEPA 2 のリアルタイム空間認識は、自律走行車、倉庫ロボット、ドローン配送システムにとって非常に重要になる可能性があります。.

拡張現実（AR）と仮想アシスタント

Meta は、AR グラスと仮想アシスタント向けのオーディオ分析と強化されたビデオ理解機能を統合することで、V-JEPA 2 の機能を拡張する予定です。.

オープンソースの可用性と研究資金

Metaは、世界的なAI研究を促進するため、V-JEPA 2をCC-BY-NCライセンスの下でオープンソースとして公開しました。モデルコードはGitHubで公開されており、Google ColabやKaggleなどのプラットフォームで実行できます。このオープン性は、他の多くの大規模AIモデルとは対照的であり、ロボティクスや身体性AIにおける世界モデルの開発を促進することを目的としています。.

AI開発におけるパラダイムシフト

V-JEPA 2は、純粋な言語処理から物理世界のより深い理解への根本的なパラダイムシフトを表しています。多くのAI企業が生成モデルに依存している中、Metaは世界モデルアプローチによって、人工知能の未来における新たなビジョンを追求しています。最小限のデータから学習し、ゼロショットのロボット制御を可能にする能力は、現実世界を理解するだけでなく、行動も起こす新世代のインテリジェントシステムへの道を開く可能性があります。.

に適し：