Pour les robots et autres agents de l'IA: le modèle AI V-Jepa 2 de Meta-the Ai qui comprend notre monde physique

Publié le : 13 juin 2025 / Mis à jour le : 13 juin 2025 – Auteur : Konrad Wolfenstein

Pour les robots et autres agents d'IA : le modèle d'IA V-JEPA 2 de Meta – L'IA qui comprend notre monde physique – Image : Xpert.Digital

Meta présente V-JEPA 2 : un système d’IA apprend à faire des prédictions sur le monde physique

Meta publie V-JEPA 2 : Un modèle révolutionnaire du monde de l’IA pour l’avenir de l’intelligence artificielle

Meta a dévoilé V-JEPA 2, un système d'IA révolutionnaire qui adopte une approche fondamentalement différente des modèles de langage complexes classiques. Ce modèle du monde, avec ses 1,2 milliard de paramètres, a été développé pour aider les robots et autres agents d'IA à comprendre le monde physique et à prédire ses réactions à leurs actions.

Qu'est-ce que V-JEPA 2 et en quoi diffère-t-il des modèles de langage ?

V-JEPA 2, acronyme de « Video Joint Embedding Predictive Architecture 2 », repose sur une architecture radicalement différente de celle des modèles de langage traditionnels. Alors que des modèles comme ChatGPT ou GPT-4 effectuent des prédictions probabilistes sur des séquences de texte, V-JEPA 2 opère dans un espace de représentation abstrait et se concentre sur la compréhension des lois physiques.

La différence cruciale réside dans la méthode d'apprentissage : les modèles de langage nécessitent de grandes quantités de données étiquetées et apprennent par un apprentissage supervisé. V-JEPA 2, en revanche, utilise un apprentissage auto-supervisé et extrait des connaissances de vidéos non étiquetées, réduisant ainsi considérablement les coûts de préparation des données. Le modèle apprend non pas par reconstruction pixel par pixel, mais par des représentations abstraites du contenu vidéo.

L'architecture JEPA : Apprendre par la prédiction

L'architecture JEPA (Joint Embedding Predictive Architecture), développée par Yann LeCun, responsable scientifique de l'IA chez Meta, offre une alternative aux modèles d'IA génératifs. Contrairement à ces derniers, qui tentent de reconstruire chaque pixel manquant, V-JEPA 2 travaille avec des régions vidéo masquées et apprend à prédire des concepts abstraits.

Le système utilise une approche de formation en deux étapes :

Première phase : Apprentissage auto-contrôlé

Formation comprenant plus d'un million d'heures de contenu vidéo et un million d'images
Apprentissage des schémas d'interaction physique sans annotation humaine
Développement d'un modèle interne du monde physique

Deuxième phase : Adaptation induite par l'action

Réglage fin avec seulement 62 heures de données de contrôle du robot issues de l'ensemble de données DROID
Intégration des actions des agents dans les capacités prédictives
Permettant la planification et le contrôle en boucle fermée

Performance supérieure en pratique

Le V-JEPA 2 affiche des performances impressionnantes dans divers domaines :

Compréhension vidéo et détection de mouvement

Précision de 77,3 % (Top 1) dans l'ensemble de données Something-Something v2
Rappel à 5 minutes de 39,7 % dans la prédiction des actions Epic-Kitchens-100 (amélioration de 44 % par rapport aux modèles précédents)
Performances de pointe dans diverses tâches de questions-réponses vidéo

Contrôle du robot

Taux de réussite de 65 à 80 % pour les tâches de prélèvement et de placement dans des environnements inconnus
Contrôle de robots sans aucun exemple d'entraînement spécifique à l'environnement
Déploiement dans deux laboratoires différents avec des bras robotisés Franka

Efficacité par rapport à la concurrence

V-JEPA 2 est 30 fois plus rapide que le modèle Cosmos de NVIDIA et ne nécessite que 16 secondes pour planifier une action robotique, tandis que Cosmos prend 4 minutes.

Innovations techniques et fonctionnalités clés

Ce modèle se caractérise par cinq avancées technologiques majeures :

Apprentissage auto-supervisé : élimine le besoin de grandes quantités de données étiquetées
Mécanisme de masquage : entraîne le modèle en prédisant les zones vidéo cachées
Apprentissage de représentations abstraites : privilégier le sens sémantique aux détails des pixels
Architecture du modèle du monde : Élaboration d'une compréhension interne des lois physiques
Apprentissage par transfert efficace : Excellentes capacités d’apprentissage sans exemple préalable

De nouveaux tests de référence révèlent les limites de l'IA actuelle

Parallèlement à V-JEPA 2, Meta a publié trois nouveaux benchmarks qui testent la compréhension physique des systèmes d'IA :

IntPhys 2

Ce test évalue la capacité à distinguer les scénarios physiquement plausibles des scénarios impossibles. Même les modèles avancés restent proches du hasard à cet égard.

MVPBench

Il utilise des paires de vidéos visuellement similaires présentant des réponses opposées à une même question. V-JEPA 2 atteint une précision de 44,5 % – la meilleure performance parmi tous les systèmes testés.

CausalVQA

L'étude examine la compréhension causale et le raisonnement contrefactuel. Les résultats montrent que les systèmes d'IA actuels décrivent bien ce qu'ils voient, mais éprouvent des difficultés à prédire les résultats alternatifs.

L'IA sans avidité de données : comment V-JEPA 2 rend l'apprentissage automatique plus efficace

Yann LeCun considère les modèles du monde comme V-JEPA 2 comme la clé du développement de la prochaine génération d'IA. Ce modèle pourrait révolutionner de nombreux domaines d'application :

Robotique et assistants domestiques

Les modèles du monde sont destinés à inaugurer une nouvelle ère de la robotique, dans laquelle les agents d'IA seront capables de gérer des tâches du monde réel sans avoir besoin de quantités astronomiques de données d'entraînement.

véhicules autonomes

La compréhension spatiale en temps réel de V-JEPA 2 pourrait s'avérer cruciale pour les véhicules autonomes, les robots d'entrepôt et les systèmes de livraison par drones.

Réalité augmentée (RA) et assistants virtuels

Meta prévoit d'étendre les fonctionnalités de V-JEPA 2 en intégrant l'analyse audio et des capacités améliorées de compréhension vidéo pour les lunettes AR et les assistants virtuels.

Disponibilité des logiciels libres et financement de la recherche

Meta a publié V-JEPA 2 en open source sous licence CC-BY-NC afin de promouvoir la recherche mondiale en IA. Le code du modèle est disponible sur GitHub et peut être exécuté sur des plateformes telles que Google Colab et Kaggle. Cette ouverture contraste avec celle de nombreux autres grands modèles d'IA et vise à faire progresser le développement de modèles du monde en robotique et en IA incarnée.

Un changement de paradigme dans le développement de l'IA

V-JEPA 2 représente un changement de paradigme fondamental, passant du simple traitement du langage à une compréhension plus approfondie du monde physique. Alors que la plupart des entreprises d'IA s'appuient sur des modèles génératifs, Meta propose une vision alternative de l'avenir de l'intelligence artificielle grâce à son approche par modélisation du monde. La capacité d'apprendre à partir d'un minimum de données et de permettre le contrôle de robots sans exemple préalable pourrait ouvrir la voie à une nouvelle génération de systèmes intelligents capables non seulement de comprendre le monde réel, mais aussi d'y agir.

Convient à: