Icône du site Web Xpert.Digital

Pour les robots et autres agents de l'IA: le modèle AI V-Jepa 2 de Meta-the Ai qui comprend notre monde physique

Pour les robots et autres agents de l'IA: le modèle AI V-Jepa 2 de Meta-the Ai qui comprend notre monde physique

Pour les robots et autres agents de l'IA: le modèle AI V-Jepa 2 de Meta-the IA qui comprend notre image physique du monde: xpert.digital

Meta présente V-Jepa 2: le système AI apprend des prédictions sur le monde physique

Meta publie V-Jepa 2: un modèle révolutionnaire mondial de l'IA pour l'avenir de l'intelligence artificielle

Avec V-Jepa 2, META a présenté un système d'influence révolutionnaire qui poursuit une approche fondamentale que les modèles de grande voix conventionnels. Le modèle mondial fort de 1,2 milliard de paramètres a été développé pour aider les robots et autres agents de l'IA à comprendre le monde physique et à prédire comment il réagira à ses actions.

Qu'est-ce que V-Jepa 2 et en quoi diffère-t-il des modèles vocaux?

V-Jepa 2 représente «l'architecture prédictive de l'intégration vidéo 2» et est basé sur une architecture complètement différente de celle des modèles vocaux traditionnels. Alors que les modèles vocaux tels que ChatGPT ou GPT-4 font des prédictions probabilistes sur les séquences de texte, V-Jepa 2 fonctionne dans une salle de représentation abstraite et se concentre sur la compréhension des lois physiques.

La différence décisive réside dans la méthode d'apprentissage: les modèles de langue nécessitent de grandes quantités de données étiquetées et l'apprentissage par la formation surveillée. V-Jepa 2, en revanche, utilise l'apprentissage auto-surmonté et l'extraction des connaissances de vidéos non volontaires, ce qui réduit considérablement les coûts de préparation des données. Le modèle n'apprend pas par la reconstruction des pixels, mais par le biais de représentations abstraites du contenu vidéo.

L'architecture JEPA: apprentissage par prédiction

L'architecture prédictive de l'intégration conjointe (JEPA) a été développée par Yann LeCun, scientifique en chef de l'IA Metas et représente une alternative aux modèles d'IA génératifs. Contrairement aux approches génératives qui tentent de reconstruire chaque pixel manquant, V-Jepa 2 fonctionne avec des chênes vidéo masqués et apprend à prédire les concepts abstraits.

Le système utilise une approche de formation en deux étages:

Première phase: apprentissage auto-surmonté

  • Formation avec plus d'un million d'heures de matériel vidéo et un million de photos
  • Apprenez les modèles d'interaction physique sans annotation humaine
  • Développement d'un modèle interne du monde physique

Deuxième phase: adaptation liée à l'action

  • Réglage fin avec seulement 62 heures de données de contrôle du robot de l'ensemble de données DROID
  • Intégration des actions d'agent dans les compétences prédictives
  • Activation de la planification et du contrôle du circuit de contrôle fermé

Performance supérieure dans la pratique

V-Jepa 2 montre des performances impressionnantes dans différents domaines:

Compréhension vidéo et détection de mouvement

  • 77,3% Top 1 Précision dans quelque chose quelque chose de V2 Data Set
  • 39,7% Rappel-AT-5 pour les prévisions d'action Epic-Kitchens-100 (amélioration de 44% par rapport aux modèles précédents)
  • Performance de pointe dans diverses questions de questions vidéo Tâches de réponse

Contrôle des robots

  • Taux de réussite de 65 à 80% pour les tâches de pick-and-place dans des environnements inconnus
  • Contrôle des robots zéro-shot sans formation spécifique à l'ambiance
  • Utiliser dans deux laboratoires différents avec Franka Robot Arms

Efficacité par rapport à la concurrence

V-Jepa 2 est 30 fois plus rapide que le modèle COSMOS de Nvidia et n'a besoin que 16 secondes pour planifier une action de robot, tandis que le cosmos a besoin de 4 minutes.

Innovations techniques et caractéristiques clés

Le modèle se caractérise par cinq percées techniques centrales:

  1. Apprentissage auto-traité: élimine le besoin de grandes quantités de données étiquetées
  2. Mécanisme de masquage: entraîne le modèle en prédisant les zones vidéo cachées
  3. Résumé Apprentissage représentatif: Focus sur les significations sémantiques au lieu des détails des pixels
  4. Architecture mondiale du modèle: établissement d'une compréhension interne des lois physiques
  5. Apprentissage efficace du transfert: compétences d'apprentissage zéro exceptionnelles

Nouvelles références limites apparentes de l'IA actuelle

Meta a publié trois nouveaux repères en parallèle avec V-Jepa 2 qui testent la compréhension physique des systèmes d'IA:

Intphys 2

Teste la capacité de distinguer les scénarios physiquement plausibles et impossibles. Même les modèles avancés sont toujours proches du niveau aléatoire ici.

Mvpbench

Utilise visuellement des voitures vidéo similaires avec des réponses opposées à la même question. V-Jepa 2 atteint une précision appariée de 44,5% - les meilleures performances de tous les systèmes testés.

Causalvqa

Examine la compréhension causale et la pensée contre-actuelle. Les résultats montrent que les systèmes d'IA actuels peuvent bien décrire ce qu'ils voient mais ont du mal à prédire des cours alternatifs.

IA sans faim de données: comment le V-Jepa 2 Machine Learning rend plus efficace

Yann LeCun voit la clé de la prochaine génération de développement de l'IA dans des modèles mondiaux comme V-Jepa 2. Le modèle pourrait révolutionner différents domaines d'application:

Robotique et assistants budgétaires

Les modèles mondiaux sont censés annoncer une nouvelle ère de robotique dans laquelle les agents de l'IA peuvent gérer les tâches réelles sans quantités astronomiques de données de formation.

Véhicules autonomes

La compréhension spatiale du temps réel de V-Jepa 2 pourrait être cruciale pour les véhicules autonomes, les robots d'entrepôt et les systèmes de livraison de drones.

Réalité étendue (AR) et assistants virtuels

Meta prévoit d'étendre les fonctions de V-Jepa 2 en intégrant l'analyse audio et une compréhension vidéo élargie des lunettes AR et des assistants virtuels.

Disponibilité open source et promotion de la recherche

Meta a publié V-Jepa 2 sous la licence CC-BY-NC en tant que open source pour promouvoir la recherche mondiale sur l'IA. Le code du modèle est disponible sur GitHub et peut être exécuté sur des plates-formes telles que Google Colab et Kaggle. Cette ouverture contraste avec de nombreux autres grands modèles d'IA et vise à promouvoir le développement de modèles mondiaux en robotique et une IA incarnée.

Un changement de paradigme dans le développement de l'IA

V-Jepa 2 représente un passage de paradigme fondamental du traitement du langage pur à une compréhension plus profonde du monde physique. Alors que la plupart des sociétés d'IA s'appuient sur des modèles génératifs, Meta suit une vision alternative pour l'avenir de l'intelligence artificielle avec son approche du modèle mondial. La capacité d'apprendre des données minimales et d'activer le contrôle des robots zéro pourrait ouvrir la voie à une nouvelle génération de systèmes intelligents qui non seulement comprennent mais peuvent également agir dans le monde réel.

Convient à:

 

Votre partenaire mondial de marketing et de développement commercial

☑️ Notre langue commerciale est l'anglais ou l'allemand

☑️ NOUVEAU : Correspondance dans votre langue nationale !

 

Konrad Wolfenstein

Je serais heureux de vous servir, vous et mon équipe, en tant que conseiller personnel.

Vous pouvez me contacter en remplissant le formulaire de contact ou simplement m'appeler au +49 89 89 674 804 (Munich) . Mon adresse e-mail est : wolfenstein xpert.digital

J'attends avec impatience notre projet commun.

 

 

☑️ Accompagnement des PME en stratégie, conseil, planification et mise en œuvre

☑️ Création ou réalignement de la stratégie digitale et digitalisation

☑️ Expansion et optimisation des processus de vente à l'international

☑️ Plateformes de trading B2B mondiales et numériques

☑️ Pionnier Développement Commercial / Marketing / RP / Salons

Quitter la version mobile