ロボットおよびその他のAIエージェントの場合：私たちの物理的な世界を理解しているメタからのAIモデルV-JEPA 2

公開：2025年6月13日 /更新：2025年6月13日 - 著者： Konrad Wolfenstein

ロボットおよびその他のAIエージェントの場合：私たちの物理的な世界イメージを理解しているメタのAIモデルV-JEPA 2 AI：Xpert.Digital

メタはV-JEPA 2を提示します：AIシステムは物理的な世界についての予測を学びます

MetaはV-Jepa 2を発行します：人工知能の将来のための革新的なAI世界モデル

V-JEPA 2を使用すると、Metaは、従来の大きな音声モデルよりも基本的なアプローチを追求する画期的なAIシステムを提示しました。ロボットや他のAIエージェントが物理的世界を理解し、その行動にどのように反応するかを予測するために、12億パラメーターの強い世界モデルが開発されました。

V-JEPA 2とは何ですか、そしてそれは音声モデルとどのように違いますか？

V-JEPA 2は、「Video Joint Embedding Predictive Architecture 2」を表し、従来の音声モデルとはまったく異なるアーキテクチャに基づいています。 ChatGPTやGPT-4などの音声モデルは、テキストシーケンスについて確率的予測を行いますが、V-JEPA 2は抽象的な表現室で機能し、物理的法則の理解に焦点を当てています。

決定的な違いは、学習方法にあります。言語モデルには、ラベル付けされたデータが大量に必要とされ、監視されたトレーニングを通じて学習が必要です。一方、V-JEPA 2は、自己監視された学習と、未確認のビデオから知識を抽出することを使用して、データの準備のコストを大幅に削減します。このモデルは、ピクセルの再構築を通じて学習するのではなく、ビデオコンテンツの抽象表現を通じて学習します。

JEPAアーキテクチャ：予測による学習

共同埋め込み予測アーキテクチャ（JEPA）は、METASチーフAI科学者であるYann Lecunによって開発され、生成AIモデルの代替品を代表しています。行方不明のすべてのピクセルを再構築しようとする生成アプローチとは対照的に、V-JEPA 2はマスクされたビデオオークスで動作し、抽象的な概念を予測することを学びます。

システムは、2つのステージトレーニングアプローチを使用します。

第一段階：自己監視学習

100万時間以上のビデオ素材と100万枚の写真でのトレーニング
人間の注釈なしで物理的な相互作用パターンを学びます
物理世界の内部モデルの開発

第2フェーズ：アクション関連の適応

ドロイドデータセットからの62時間のロボット制御データでの微調整
予測スキルへのエージェントアクションの統合
計画および閉鎖制御回路制御を有効にします

実際には優れたパフォーマンス

V-JEPA 2は、さまざまな分野で印象的なパフォーマンスを示しています。

ビデオの理解と動きの検出

77.3％何かの何かのトップ1精度v2データセット
Epic-Kitchens-100アクション予測の39.7％Recall-5（以前のモデルと比較して44％の改善）
さまざまなビデオ質問の回答タスクで最先端のパフォーマンス

ロボット制御

未知の環境でのピックアンドプレイスタスクの65-80％の成功率
周囲固有のトレーニングなしのゼロショットロボット制御
フランカロボットアームズを備えた2つの異なる研究所で使用します

競争と比較した効率

V-Jepa 2は、NvidiaのCosmosモデルの30倍高速で、ロボットアクションを計画するのに16秒しか必要ありませんが、Cosmosは4分必要です。

技術的な革新と重要な特性

このモデルは、5つの中心的な技術的ブレークスルーによって特徴付けられます。

自己監視学習：大量のラベル付きデータの必要性を排除する
マスキングメカニズム：隠されたビデオ領域を予測することでモデルをトレーニングします
抽象的な代表学習：ピクセルの詳細の代わりに意味的な意味に焦点を当てる
世界モデルアーキテクチャ：物理的法則の内部理解の確立
効率的な転送学習：優れたゼロショット学習スキル

現在のAIの新しいベンチマークの見かけの制限

Metaは、AIシステムの物理的理解をテストするV-Jepa 2と並行して3つの新しいベンチマークをリリースしました。

intphys 2

物理的にもっともらしいシナリオと不可能なシナリオを区別する能力をテストします。ここでは、高度なモデルでさえランダムレベルに近いものです。

mvpbench

同じ質問に対する反対の答えを持つ同様のビデオカーを視覚的に使用します。 V-JEPA 2は44.5％ペアの精度に達します。これは、すべてのテストされたシステムの最高のパフォーマンスです。

因果関係

因果的理解と反動的思考を調べます。結果は、現在のAIシステムが見られるものをよく説明できるが、代替コースを予測するのが難しいことを示しています。

データへの飢えのないAI：V-JEPA 2機械学習がより効率的になる方法

Yann Lecunは、V-Jepa 2のような世界モデルの次世代のAI開発の鍵を見ています。モデルは、さまざまなアプリケーション領域に革命をもたらす可能性があります。

ロボット工学と予算のアシスタント

世界モデルは、AIエージェントが天文学的な量のトレーニングデータなしで実際のタスクを管理できるロボット工学の新しい時代を告げることになっています。

自動運転車

V-JEPA 2からのリアルタイムの空間的理解は、自動運転車、倉庫ロボット、ドローンデリバリーシステムにとって非常に重要です。

拡張現実（AR）および仮想アシスタント

METAは、ARメガネと仮想アシスタントのビデオ理解を拡大し、V-JEPA 2の機能を拡張する予定です。

オープンソースの可用性と研究プロモーション

メタは、グローバルAI研究を促進するためのオープンソースとして、CC-by-NCライセンスの下でV-JEPA 2をリリースしました。モデルコードはGitHubで利用でき、Google ColabやKaggleなどのプラットフォームで実行できます。このオープン性は、他の多くの大規模なAIモデルとは対照的であり、ロボット工学および具体化されたAIにおける世界モデルの開発を促進することを目的としています。

AI開発におけるパラダイムシフト

V-JEPA 2は、純粋な言語処理から物理的な世界のより深い理解への基本的なパラダイムシフトを表しています。ほとんどのAI企業は生成モデルに依存していますが、Metaは世界モデルアプローチを使用して、人工知能の将来の代替ビジョンに従います。最小限のデータから学習し、ゼロショットロボット制御を有効にする能力は、理解するだけでなく現実の世界でも行動できる新世代のインテリジェントシステムへの道を開くことができます。

に適し：