Publié le : 13 juin 2025 / Mis à jour le : 13 juin 2025 – Auteur : Konrad Wolfenstein

Pour les robots et autres agents d'IA : le modèle d'IA V-JEPA 2 de Meta – L'IA qui comprend notre monde physique – Image : Xpert.Digital
Meta présente V-JEPA 2 : un système d’IA apprend à faire des prédictions sur le monde physique
Meta publie V-JEPA 2 : Un modèle révolutionnaire du monde de l’IA pour l’avenir de l’intelligence artificielle
Meta a dévoilé V-JEPA 2, un système d'IA révolutionnaire qui adopte une approche fondamentalement différente des modèles de langage complexes classiques. Ce modèle du monde, avec ses 1,2 milliard de paramètres, a été développé pour aider les robots et autres agents d'IA à comprendre le monde physique et à prédire ses réactions à leurs actions.
Qu'est-ce que V-JEPA 2 et en quoi diffère-t-il des modèles de langage ?
V-JEPA 2, acronyme de « Video Joint Embedding Predictive Architecture 2 », repose sur une architecture radicalement différente de celle des modèles de langage traditionnels. Alors que des modèles comme ChatGPT ou GPT-4 effectuent des prédictions probabilistes sur des séquences de texte, V-JEPA 2 opère dans un espace de représentation abstrait et se concentre sur la compréhension des lois physiques.
La différence cruciale réside dans la méthode d'apprentissage : les modèles de langage nécessitent de grandes quantités de données étiquetées et apprennent par un apprentissage supervisé. V-JEPA 2, en revanche, utilise un apprentissage auto-supervisé et extrait des connaissances de vidéos non étiquetées, réduisant ainsi considérablement les coûts de préparation des données. Le modèle apprend non pas par reconstruction pixel par pixel, mais par des représentations abstraites du contenu vidéo.
L'architecture JEPA : Apprendre par la prédiction
L'architecture JEPA (Joint Embedding Predictive Architecture), développée par Yann LeCun, responsable scientifique de l'IA chez Meta, offre une alternative aux modèles d'IA génératifs. Contrairement à ces derniers, qui tentent de reconstruire chaque pixel manquant, V-JEPA 2 travaille avec des régions vidéo masquées et apprend à prédire des concepts abstraits.
Le système utilise une approche de formation en deux étapes :
Première phase : Apprentissage auto-contrôlé
- Formation comprenant plus d'un million d'heures de contenu vidéo et un million d'images
- Apprentissage des schémas d'interaction physique sans annotation humaine
- Développement d'un modèle interne du monde physique
Deuxième phase : Adaptation induite par l'action
- Réglage fin avec seulement 62 heures de données de contrôle du robot issues de l'ensemble de données DROID
- Intégration des actions des agents dans les capacités prédictives
- Permettant la planification et le contrôle en boucle fermée
Performance supérieure en pratique
Le V-JEPA 2 affiche des performances impressionnantes dans divers domaines :
Compréhension vidéo et détection de mouvement
- Précision de 77,3 % (Top 1) dans l'ensemble de données Something-Something v2
- Rappel à 5 minutes de 39,7 % dans la prédiction des actions Epic-Kitchens-100 (amélioration de 44 % par rapport aux modèles précédents)
- Performances de pointe dans diverses tâches de questions-réponses vidéo
Contrôle du robot
- Taux de réussite de 65 à 80 % pour les tâches de prélèvement et de placement dans des environnements inconnus
- Contrôle de robots sans aucun exemple d'entraînement spécifique à l'environnement
- Déploiement dans deux laboratoires différents avec des bras robotisés Franka
Efficacité par rapport à la concurrence
V-JEPA 2 est 30 fois plus rapide que le modèle Cosmos de NVIDIA et ne nécessite que 16 secondes pour planifier une action robotique, tandis que Cosmos prend 4 minutes.
Innovations techniques et fonctionnalités clés
Ce modèle se caractérise par cinq avancées technologiques majeures :
- Apprentissage auto-supervisé : élimine le besoin de grandes quantités de données étiquetées
- Mécanisme de masquage : entraîne le modèle en prédisant les zones vidéo cachées
- Apprentissage de représentations abstraites : privilégier le sens sémantique aux détails des pixels
- Architecture du modèle du monde : Élaboration d'une compréhension interne des lois physiques
- Apprentissage par transfert efficace : Excellentes capacités d’apprentissage sans exemple préalable
De nouveaux tests de référence révèlent les limites de l'IA actuelle
Parallèlement à V-JEPA 2, Meta a publié trois nouveaux benchmarks qui testent la compréhension physique des systèmes d'IA :
IntPhys 2
Ce test évalue la capacité à distinguer les scénarios physiquement plausibles des scénarios impossibles. Même les modèles avancés restent proches du hasard à cet égard.
MVPBench
Il utilise des paires de vidéos visuellement similaires présentant des réponses opposées à une même question. V-JEPA 2 atteint une précision de 44,5 % – la meilleure performance parmi tous les systèmes testés.
CausalVQA
L'étude examine la compréhension causale et le raisonnement contrefactuel. Les résultats montrent que les systèmes d'IA actuels décrivent bien ce qu'ils voient, mais éprouvent des difficultés à prédire les résultats alternatifs.
L'IA sans avidité de données : comment V-JEPA 2 rend l'apprentissage automatique plus efficace
Yann LeCun considère les modèles du monde comme V-JEPA 2 comme la clé du développement de la prochaine génération d'IA. Ce modèle pourrait révolutionner de nombreux domaines d'application :
Robotique et assistants domestiques
Les modèles du monde sont destinés à inaugurer une nouvelle ère de la robotique, dans laquelle les agents d'IA seront capables de gérer des tâches du monde réel sans avoir besoin de quantités astronomiques de données d'entraînement.
véhicules autonomes
La compréhension spatiale en temps réel de V-JEPA 2 pourrait s'avérer cruciale pour les véhicules autonomes, les robots d'entrepôt et les systèmes de livraison par drones.
Réalité augmentée (RA) et assistants virtuels
Meta prévoit d'étendre les fonctionnalités de V-JEPA 2 en intégrant l'analyse audio et des capacités améliorées de compréhension vidéo pour les lunettes AR et les assistants virtuels.
Disponibilité des logiciels libres et financement de la recherche
Meta a publié V-JEPA 2 en open source sous licence CC-BY-NC afin de promouvoir la recherche mondiale en IA. Le code du modèle est disponible sur GitHub et peut être exécuté sur des plateformes telles que Google Colab et Kaggle. Cette ouverture contraste avec celle de nombreux autres grands modèles d'IA et vise à faire progresser le développement de modèles du monde en robotique et en IA incarnée.
Un changement de paradigme dans le développement de l'IA
V-JEPA 2 représente un changement de paradigme fondamental, passant du simple traitement du langage à une compréhension plus approfondie du monde physique. Alors que la plupart des entreprises d'IA s'appuient sur des modèles génératifs, Meta propose une vision alternative de l'avenir de l'intelligence artificielle grâce à son approche par modélisation du monde. La capacité d'apprendre à partir d'un minimum de données et de permettre le contrôle de robots sans exemple préalable pourrait ouvrir la voie à une nouvelle génération de systèmes intelligents capables non seulement de comprendre le monde réel, mais aussi d'y agir.
Convient à:
- Coup dur pour le secteur publicitaire : Zuckerberg veut automatiser entièrement la publicité grâce à l’IA via META – un investissement de 72 milliards de dollars
- Dites adieu à la barrière de la langue ! Ray-Ban Meta AI : la mise à jour IA est arrivée ! Traduction, recherche visuelle – tout ce que vous devez savoir !
Votre partenaire mondial de marketing et de développement commercial
☑️ Notre langue commerciale est l'anglais ou l'allemand
☑️ NOUVEAU : Correspondance dans votre langue nationale !
Je serais heureux de vous servir, vous et mon équipe, en tant que conseiller personnel.
Vous pouvez me contacter en remplissant le formulaire de contact ou simplement m'appeler au +49 89 89 674 804 (Munich) . Mon adresse e-mail est : wolfenstein ∂ xpert.digital
J'attends avec impatience notre projet commun.











