
Voor robots en andere AI-agenten: Meta's AI-model V-JEPA 2 – De AI die onze fysieke wereld begrijpt – Afbeelding: Xpert.Digital
Meta presenteert V-JEPA 2: AI-systeem leert voorspellingen te doen over de fysieke wereld
Meta publiceert V-JEPA 2: een revolutionair AI-wereldmodel voor de toekomst van kunstmatige intelligentie
Meta heeft V-JEPA 2 onthuld, een baanbrekend AI-systeem met een fundamenteel andere aanpak dan conventionele Grand Language Models. Dit wereldmodel, met zijn 1,2 miljard parameters, is ontwikkeld om robots en andere AI-agenten te helpen de fysieke wereld te begrijpen en te voorspellen hoe deze op hun acties zal reageren.
Wat is V-JEPA 2 en hoe verschilt het van taalmodellen?
V-JEPA 2 staat voor "Video Joint Embedding Predictive Architecture 2" en is gebaseerd op een compleet andere architectuur dan traditionele taalmodellen. Terwijl taalmodellen zoals ChatGPT of GPT-4 probabilistische voorspellingen doen over tekstreeksen, opereert V-JEPA 2 in een abstracte representatieve ruimte en richt zich op het begrijpen van natuurkundige wetten.
Het cruciale verschil zit in de leermethode: taalmodellen hebben grote hoeveelheden gelabelde data nodig en leren door middel van gesuperviseerde training. V-JEPA 2 daarentegen maakt gebruik van zelfgesuperviseerd leren en extraheert kennis uit ongelabelde video's, waardoor de kosten voor datavoorbereiding aanzienlijk worden verlaagd. Het model leert niet door pixelreconstructie, maar door abstracte representaties van de videocontent.
De JEPA-architectuur: leren door voorspelling
De Joint Embedding Predictive Architecture (JEPA) is ontwikkeld door Yann LeCun, Chief AI Scientist bij Meta, en biedt een alternatief voor generatieve AI-modellen. In tegenstelling tot generatieve benaderingen, die proberen elke ontbrekende pixel te reconstrueren, werkt V-JEPA 2 met gemaskeerde videoregio's en leert het abstracte concepten te voorspellen.
Het systeem maakt gebruik van een tweefasen-trainingsaanpak:
Eerste fase: Zelfgemonitord leren
- Training met meer dan een miljoen uur aan videomateriaal en een miljoen afbeeldingen
- Het leren van fysieke interactiepatronen zonder menselijke annotatie
- Ontwikkeling van een intern model van de fysieke wereld
Tweede fase: Actie-geïnduceerde aanpassing
- Fine-tuning met slechts 62 uur aan robotbesturingsgegevens uit de DROID-dataset
- Integratie van agentacties in voorspellende mogelijkheden
- Planning en gesloten-lusregeling mogelijk maken
Superieure prestaties in de praktijk
V-JEPA 2 levert indrukwekkende prestaties op verschillende gebieden:
Videobegrip en bewegingsdetectie
- 77,3% Top 1 nauwkeurigheid in de Something-Something v2 dataset
- 39,7% Recall-at-5 in Epic-Kitchens-100 actievoorspelling (44% verbetering ten opzichte van eerdere modellen)
- State-of-the-art prestaties bij verschillende video-vraag-en-antwoordtaken
Robotbesturing
- 65-80% succespercentage bij pick-and-place-taken in onbekende omgevingen
- Zero-shot robotbesturing zonder omgevingsspecifieke training
- Inzet in twee verschillende laboratoria met Franka-robotarmen
Efficiëntie ten opzichte van de concurrentie
V-JEPA 2 is 30 keer sneller dan het Cosmos-model van NVIDIA en heeft slechts 16 seconden nodig om een robotactie te plannen, terwijl Cosmos daar 4 minuten voor nodig heeft.
Technische innovaties en belangrijkste kenmerken
Het model wordt gekenmerkt door vijf belangrijke technologische doorbraken:
- Zelfgestuurd leren: hierdoor is er geen behoefte meer aan grote hoeveelheden gelabelde data.
- Maskeringsmechanisme: traint het model door verborgen videogebieden te voorspellen
- Leren van abstracte representatie: focus op semantische betekenissen in plaats van pixeldetails
- Wereldmodelarchitectuur: een intern begrip van natuurkundige wetten opbouwen
- Efficiënt transferleren: uitstekende zero-shot leermogelijkheden
Nieuwe benchmarks onthullen de grenzen van huidige AI
Parallel aan V-JEPA 2 heeft Meta drie nieuwe benchmarks uitgebracht die het fysieke begrip van AI-systemen testen:
IntPhys 2
Het test het vermogen om onderscheid te maken tussen fysiek plausibele en onmogelijke scenario's. Zelfs geavanceerde modellen presteren in dit opzicht nog steeds bijna willekeurig.
MVPBench
Door visueel vergelijkbare videoparen met tegengestelde antwoorden op dezelfde vraag te gebruiken, behaalt V-JEPA 2 een gepaarde nauwkeurigheid van 44,5%. Dit is de beste prestatie van alle geteste systemen.
CausaalVQA
De studie onderzoekt causaal begrip en contrafactisch redeneren. De resultaten laten zien dat huidige AI-systemen goed kunnen beschrijven wat ze zien, maar moeite hebben met het voorspellen van alternatieve uitkomsten.
AI zonder datahonger: hoe V-JEPA 2 machine learning efficiënter maakt
Yann LeCun ziet wereldmodellen zoals V-JEPA 2 als de sleutel tot de volgende generatie AI-ontwikkeling. Het model zou verschillende toepassingsgebieden kunnen revolutioneren:
Robotica en huishoudelijke assistenten
Wereldmodellen moeten een nieuw tijdperk van robotica inluiden, waarin AI-agenten echte taken kunnen uitvoeren zonder astronomische hoeveelheden trainingsgegevens.
Autonome voertuigen
Het realtime ruimtelijk inzicht van V-JEPA 2 kan cruciaal zijn voor autonome voertuigen, magazijnrobots en dronebezorgsystemen.
Augmented Reality (AR) en virtuele assistenten
Meta is van plan de functionaliteit van V-JEPA 2 uit te breiden door audio-analyse en verbeterde videobegripmogelijkheden voor AR-brillen en virtuele assistenten te integreren.
Open-source beschikbaarheid en onderzoeksfinanciering
Meta heeft V-JEPA 2 als open source uitgebracht onder de CC-BY-NC-licentie om wereldwijd AI-onderzoek te bevorderen. De modelcode is beschikbaar op GitHub en kan worden uitgevoerd op platforms zoals Google Colab en Kaggle. Deze openheid contrasteert met veel andere grote AI-modellen en is bedoeld om de ontwikkeling van wereldmodellen in robotica en belichaamde AI te bevorderen.
Een paradigmaverschuiving in AI-ontwikkeling
V-JEPA 2 vertegenwoordigt een fundamentele paradigmaverschuiving van pure taalverwerking naar een dieper begrip van de fysieke wereld. Terwijl de meeste AI-bedrijven vertrouwen op generatieve modellen, streeft Meta met zijn wereldmodelbenadering een alternatieve visie op de toekomst van kunstmatige intelligentie na. De mogelijkheid om te leren van minimale data en zero-shot robotbesturing mogelijk te maken, zou de weg kunnen vrijmaken voor een nieuwe generatie intelligente systemen die de echte wereld niet alleen kunnen begrijpen, maar er ook in kunnen handelen.
Geschikt hiervoor:
Uw wereldwijde partner voor marketing en bedrijfsontwikkeling
☑️ onze zakelijke taal is Engels of Duits
☑️ Nieuw: correspondentie in uw nationale taal!
Ik ben blij dat ik beschikbaar ben voor jou en mijn team als een persoonlijk consultant.
U kunt contact met mij opnemen door het contactformulier hier in te vullen of u gewoon te bellen op +49 89 674 804 (München) . Mijn e -mailadres is: Wolfenstein ∂ Xpert.Digital
Ik kijk uit naar ons gezamenlijke project.

