For robotter og andre AI-agenter: Metas V-JEPA 2 AI-model – AI'en, der forstår vores fysiske verden

Konrad Wolfenstein

For 12 måneder siden

For robotter og andre AI-agenter: Metas V-JEPA 2 AI-model - Den AI, der forstår vores fysiske verden

For robotter og andre AI-agenter: V-JEPA 2 AI-modellen fra Meta – AI'en, der forstår vores fysiske verden – Billede: Xpert.Digital

Meta præsenterer V-JEPA 2: AI-system lærer at lave forudsigelser om den fysiske verden

Meta udgiver V-JEPA 2: En revolutionerende AI-verdensmodel for fremtidens kunstige intelligens

Meta har afsløret V-JEPA 2, et banebrydende AI-system, der har en fundamentalt anderledes tilgang end konventionelle Grand Language Models. Denne verdensmodel, med sine 1,2 milliarder parametre, blev udviklet til at hjælpe robotter og andre AI-agenter med at forstå den fysiske verden og forudsige, hvordan den vil reagere på deres handlinger.

Hvad er V-JEPA 2, og hvordan adskiller det sig fra sprogmodeller?

V-JEPA 2 står for "Video Joint Embedding Predictive Architecture 2" og er baseret på en helt anden arkitektur end traditionelle sprogmodeller. Mens sprogmodeller som ChatGPT eller GPT-4 laver probabilistiske forudsigelser om tekstsekvenser, opererer V-JEPA 2 i et abstrakt repræsentationsrum og fokuserer på at forstå fysiske love.

Den afgørende forskel ligger i læringsmetoden: Sprogmodeller kræver store mængder mærkede data og lærer gennem superviseret træning. V-JEPA 2 bruger derimod selvsuperviseret læring og udtrækker viden fra umærkede videoer, hvorved omkostningerne til dataforberedelse reduceres betydeligt. Modellen lærer ikke gennem pixelrekonstruktion, men gennem abstrakte repræsentationer af videoindholdet.

JEPA-arkitekturen: Læring gennem forudsigelse

Joint Embedding Predictive Architecture (JEPA) blev udviklet af Yann LeCun, Metas chefforsker inden for AI, og repræsenterer et alternativ til generative AI-modeller. I modsætning til generative tilgange, som forsøger at rekonstruere hver eneste manglende pixel, arbejder V-JEPA 2 med maskerede videoregioner og lærer at forudsige abstrakte koncepter.

Systemet bruger en to-trins træningsmetode:

Første fase: Selvstyret læring

Træning med over en million timers videomateriale og en million billeder
Læring af fysiske interaktionsmønstre uden menneskelig annotation
Udvikling af en intern model af den fysiske verden

Anden fase: Handlingsinduceret tilpasning

Finjustering med kun 62 timers robotstyringsdata fra DROID-datasættet
Integration af agenthandlinger i prædiktive funktioner
Muliggør planlægning og lukket kredsløbsstyring

Overlegen præstation i praksis

V-JEPA 2 demonstrerer imponerende ydeevne på forskellige områder:

Videoforståelse og bevægelsesdetektion

77,3 % Top 1-nøjagtighed i Something-Something v2-datasættet
39,7% Recall-at-5 i Epic-Kitchens-100 handlingsforudsigelse (44% forbedring i forhold til tidligere modeller)
Avanceret præstation i forskellige video-spørgsmål og -svar-opgaver

Robotstyring

65-80% succesrate i pick-and-place-opgaver i ukendte miljøer
Zero-shot robotstyring uden miljøspecifik træning
Implementering i to forskellige laboratorier med Franka robotarme

Effektivitet sammenlignet med konkurrenterne

V-JEPA 2 er 30 gange hurtigere end NVIDIAs Cosmos-model og behøver kun 16 sekunder til at planlægge en robothandling, mens Cosmos tager 4 minutter.

Tekniske innovationer og nøglefunktioner

Modellen er karakteriseret ved fem centrale teknologiske gennembrud:

Selvovervåget læring: Eliminerer behovet for store mængder mærkede data
Maskeringsmekanisme: Træner modellen ved at forudsige skjulte videoområder
Læring af abstrakt repræsentation: Fokus på semantiske betydninger i stedet for pixeldetaljer
Verdensmodelarkitektur: Opbygning af en intern forståelse af fysiske love
Effektiv transferlæring: Enestående nulskudslæringsevner

Nye benchmarks afslører begrænsningerne ved den nuværende AI

Parallelt med V-JEPA 2 har Meta udgivet tre nye benchmarks, der tester den fysiske forståelse af AI-systemer:

IntPhys 2

Den tester evnen til at skelne mellem fysisk plausible og umulige scenarier. Selv avancerede modeller præsterer stadig tæt på tilfældighed i denne henseende.

MVPBænk

Den bruger visuelt lignende videopar med modsatrettede svar på det samme spørgsmål. V-JEPA 2 opnår en parret nøjagtighed på 44,5 % – den bedste ydeevne af alle testede systemer.

ÅrsagsVQA

Undersøgelsen undersøger årsagsforståelse og kontrafaktisk ræsonnement. Resultaterne viser, at nuværende AI-systemer kan beskrive, hvad de ser, godt, men har svært ved at forudsige alternative udfald.

AI uden datasult: Hvordan V-JEPA 2 gør maskinlæring mere effektiv

Yann LeCun ser verdensmodeller som V-JEPA 2 som nøglen til den næste generation af AI-udvikling. Modellen kan revolutionere forskellige anvendelsesområder:

Robotteknologi og husholdningsassistenter

Verdensmodeller har til formål at indlede en ny æra inden for robotteknologi, hvor AI-agenter vil være i stand til at håndtere opgaver i den virkelige verden uden astronomiske mængder træningsdata.

Autonome køretøjer

V-JEPA 2's realtidsforståelse af rumlige data kan være afgørende for autonome køretøjer, lagerrobotter og droneleveringssystemer.

Augmented Reality (AR) og virtuelle assistenter

Meta planlægger at udvide funktionaliteten af V-JEPA 2 ved at integrere lydanalyse og forbedrede videoforståelsesfunktioner til AR-briller og virtuelle assistenter.

Tilgængelighed af åben kildekode og forskningsfinansiering

Meta har udgivet V-JEPA 2 som open source under CC-BY-NC-licensen for at fremme global AI-forskning. Modelkoden er tilgængelig på GitHub og kan køres på platforme som Google Colab og Kaggle. Denne åbenhed står i kontrast til mange andre store AI-modeller og har til formål at fremme udviklingen af verdensmodeller inden for robotteknologi og kropsliggjort AI.

Et paradigmeskift i AI-udvikling

V-JEPA 2 repræsenterer et fundamentalt paradigmeskift fra ren sprogbehandling til en dybere forståelse af den fysiske verden. Mens de fleste AI-virksomheder er afhængige af generative modeller, forfølger Meta en alternativ vision for fremtiden for kunstig intelligens med sin verdensmodeltilgang. Evnen til at lære af minimale data og muliggøre nul-skuds robotstyring kan bane vejen for en ny generation af intelligente systemer, der ikke kun kan forstå, men også agere i den virkelige verden.

Relateret til dette:

Din globale marketing- og forretningsudviklingspartner

☑️ Vores forretningssprog er engelsk eller tysk

☑️ NYT: Korrespondance på dit modersmål!

Konrad Wolfenstein

Jeg og mit team er glade for at stå til rådighed for dig som din personlige rådgiver.

Du kan kontakte mig ved at udfylde kontaktformularen her blot ringe til mig på +49 7348 4088 965. Min e-mailadresse er wolfenstein@xpert.digital:eller

Jeg glæder mig til vores fælles projekt.

For robotter og andre AI-agenter: Metas V-JEPA 2 AI-model – AI'en, der forstår vores fysiske verden

Meta præsenterer V-JEPA 2: AI-system lærer at lave forudsigelser om den fysiske verden

Meta udgiver V-JEPA 2: En revolutionerende AI-verdensmodel for fremtidens kunstige intelligens

Hvad er V-JEPA 2, og hvordan adskiller det sig fra sprogmodeller?