
For robotter og andre AI-agenter: V-JEPA 2 AI-modellen fra Meta – AI'en, der forstår vores fysiske verden – Billede: Xpert.Digital
Meta præsenterer V-JEPA 2: AI-system lærer at lave forudsigelser om den fysiske verden
Meta udgiver V-JEPA 2: En revolutionerende AI-verdensmodel for fremtidens kunstige intelligens
Meta har afsløret V-JEPA 2, et banebrydende AI-system, der har en fundamentalt anderledes tilgang end konventionelle Grand Language Models. Denne verdensmodel, med sine 1,2 milliarder parametre, blev udviklet til at hjælpe robotter og andre AI-agenter med at forstå den fysiske verden og forudsige, hvordan den vil reagere på deres handlinger.
Hvad er V-JEPA 2, og hvordan adskiller det sig fra sprogmodeller?
V-JEPA 2 står for "Video Joint Embedding Predictive Architecture 2" og er baseret på en helt anden arkitektur end traditionelle sprogmodeller. Mens sprogmodeller som ChatGPT eller GPT-4 laver probabilistiske forudsigelser om tekstsekvenser, opererer V-JEPA 2 i et abstrakt repræsentationsrum og fokuserer på at forstå fysiske love.
Den afgørende forskel ligger i læringsmetoden: Sprogmodeller kræver store mængder mærkede data og lærer gennem superviseret træning. V-JEPA 2 bruger derimod selvsuperviseret læring og udtrækker viden fra umærkede videoer, hvorved omkostningerne til dataforberedelse reduceres betydeligt. Modellen lærer ikke gennem pixelrekonstruktion, men gennem abstrakte repræsentationer af videoindholdet.
JEPA-arkitekturen: Læring gennem forudsigelse
Joint Embedding Predictive Architecture (JEPA) blev udviklet af Yann LeCun, Metas chefforsker inden for AI, og repræsenterer et alternativ til generative AI-modeller. I modsætning til generative tilgange, som forsøger at rekonstruere hver eneste manglende pixel, arbejder V-JEPA 2 med maskerede videoregioner og lærer at forudsige abstrakte koncepter.
Systemet bruger en to-trins træningsmetode:
Første fase: Selvstyret læring
- Træning med over en million timers videomateriale og en million billeder
- Læring af fysiske interaktionsmønstre uden menneskelig annotation
- Udvikling af en intern model af den fysiske verden
Anden fase: Handlingsinduceret tilpasning
- Finjustering med kun 62 timers robotstyringsdata fra DROID-datasættet
- Integration af agenthandlinger i prædiktive funktioner
- Muliggør planlægning og lukket kredsløbsstyring
Overlegen præstation i praksis
V-JEPA 2 demonstrerer imponerende ydeevne på forskellige områder:
Videoforståelse og bevægelsesdetektion
- 77,3 % Top 1-nøjagtighed i Something-Something v2-datasættet
- 39,7% Recall-at-5 i Epic-Kitchens-100 handlingsforudsigelse (44% forbedring i forhold til tidligere modeller)
- Avanceret præstation i forskellige video-spørgsmål og -svar-opgaver
Robotstyring
- 65-80% succesrate i pick-and-place-opgaver i ukendte miljøer
- Zero-shot robotstyring uden miljøspecifik træning
- Implementering i to forskellige laboratorier med Franka robotarme
Effektivitet sammenlignet med konkurrenterne
V-JEPA 2 er 30 gange hurtigere end NVIDIAs Cosmos-model og behøver kun 16 sekunder til at planlægge en robothandling, mens Cosmos tager 4 minutter.
Tekniske innovationer og nøglefunktioner
Modellen er karakteriseret ved fem centrale teknologiske gennembrud:
- Selvovervåget læring: Eliminerer behovet for store mængder mærkede data
- Maskeringsmekanisme: Træner modellen ved at forudsige skjulte videoområder
- Læring af abstrakt repræsentation: Fokus på semantiske betydninger i stedet for pixeldetaljer
- Verdensmodelarkitektur: Opbygning af en intern forståelse af fysiske love
- Effektiv transferlæring: Enestående nulskudslæringsevner
Nye benchmarks afslører begrænsningerne ved den nuværende AI
Parallelt med V-JEPA 2 har Meta udgivet tre nye benchmarks, der tester den fysiske forståelse af AI-systemer:
IntPhys 2
Den tester evnen til at skelne mellem fysisk plausible og umulige scenarier. Selv avancerede modeller præsterer stadig tæt på tilfældighed i denne henseende.
MVPBænk
Den bruger visuelt lignende videopar med modsatrettede svar på det samme spørgsmål. V-JEPA 2 opnår en parret nøjagtighed på 44,5 % – den bedste ydeevne af alle testede systemer.
ÅrsagsVQA
Undersøgelsen undersøger årsagsforståelse og kontrafaktisk ræsonnement. Resultaterne viser, at nuværende AI-systemer kan beskrive, hvad de ser, godt, men har svært ved at forudsige alternative udfald.
AI uden datasult: Hvordan V-JEPA 2 gør maskinlæring mere effektiv
Yann LeCun ser verdensmodeller som V-JEPA 2 som nøglen til den næste generation af AI-udvikling. Modellen kan revolutionere forskellige anvendelsesområder:
Robotteknologi og husholdningsassistenter
Verdensmodeller har til formål at indlede en ny æra inden for robotteknologi, hvor AI-agenter vil være i stand til at håndtere opgaver i den virkelige verden uden astronomiske mængder træningsdata.
Autonome køretøjer
V-JEPA 2's realtidsforståelse af rumlige data kan være afgørende for autonome køretøjer, lagerrobotter og droneleveringssystemer.
Augmented Reality (AR) og virtuelle assistenter
Meta planlægger at udvide funktionaliteten af V-JEPA 2 ved at integrere lydanalyse og forbedrede videoforståelsesfunktioner til AR-briller og virtuelle assistenter.
Tilgængelighed af åben kildekode og forskningsfinansiering
Meta har udgivet V-JEPA 2 som open source under CC-BY-NC-licensen for at fremme global AI-forskning. Modelkoden er tilgængelig på GitHub og kan køres på platforme som Google Colab og Kaggle. Denne åbenhed står i kontrast til mange andre store AI-modeller og har til formål at fremme udviklingen af verdensmodeller inden for robotteknologi og kropsliggjort AI.
Et paradigmeskift i AI-udvikling
V-JEPA 2 repræsenterer et fundamentalt paradigmeskift fra ren sprogbehandling til en dybere forståelse af den fysiske verden. Mens de fleste AI-virksomheder er afhængige af generative modeller, forfølger Meta en alternativ vision for fremtiden for kunstig intelligens med sin verdensmodeltilgang. Evnen til at lære af minimale data og muliggøre nul-skuds robotstyring kan bane vejen for en ny generation af intelligente systemer, der ikke kun kan forstå, men også agere i den virkelige verden.
Relateret til dette:
Din globale marketing- og forretningsudviklingspartner
☑️ Vores forretningssprog er engelsk eller tysk
☑️ NYT: Korrespondance på dit modersmål!
Jeg og mit team er glade for at stå til rådighed for dig som din personlige rådgiver.
Du kan kontakte mig ved at udfylde kontaktformularen her blot ringe til mig på +49 7348 4088 965. Min e-mailadresse er wolfenstein@xpert.digital:eller
Jeg glæder mig til vores fælles projekt.

