För robotar och andra AI-agenter: AI-modellen V-JEPA 2 från Meta-AI som förstår vår fysiska värld

Publicerad: 13 juni 2025 / UPDATE Från: 13 juni 2025 - Författare: Konrad Wolfenstein

För robotar och andra AI-agenter: AI-modellen V-JEPA 2 i Meta-AI som förstår vår fysiska världsbild: Xpert.Digital

Meta presenterar V-JEPA 2: AI-systemet lär sig förutsägelser om den fysiska världen

Meta publicerar V-JEPA 2: En revolutionär AI World Model för framtiden för konstgjord intelligens

Med V-JEPA 2 har Meta presenterat ett banbrytande AI-system som bedriver en grundläggande strategi än konventionella stora röstmodeller. Den 1,2 miljarder parametern Strong World -modellen utvecklades för att hjälpa robotar och andra AI -agenter att förstå den fysiska världen och för att förutsäga hur den kommer att reagera på dess handlingar.

Vad är V-JEPA 2 och hur skiljer det sig från röstmodeller?

V-JEPA 2 står för ”Video Joint Embedding Predictive Architecture 2” och är baserad på en helt annan arkitektur än traditionella röstmodeller. Medan röstmodeller som Chatgpt eller GPT-4 gör sannolikhetsförutsägelser om textsekvenser, fungerar V-JEPA 2 i ett abstrakt representationsrum och fokuserar på att förstå fysiska lagar.

Den avgörande skillnaden är i inlärningsmetoden: språkmodeller kräver stora mängder märkta data och lärande genom övervakad utbildning. V-JEPA 2, å andra sidan, använder självövervakad lärande och extrahering av kunskap från ovända videor, vilket avsevärt minskar kostnaderna för dataförberedelser. Modellen lär sig inte genom pixelrekonstruktion, utan genom abstrakta representationer av videoinnehållet.

JEPA -arkitekturen: Lärande efter förutsägelse

Den gemensamma inbäddade prediktiva arkitekturen (JEPA) utvecklades av Yann Lecun, Metas Chief AI -forskare och representerar ett alternativ till generativa AI -modeller. I motsats till generativa tillvägagångssätt som försöker rekonstruera alla saknade pixlar, fungerar V-Jepa 2 med maskerade videokor och lär sig att förutsäga abstrakta begrepp.

Systemet använder en tvåstegsutbildningsstrategi:

Första fasen: Självmoniterad lärande

Träning med över en miljon timmars videomaterial och en miljon bilder
Lär dig fysiska interaktionsmönster utan mänsklig kommentar
Utveckling av en intern modell av den fysiska världen

Andra fas: Action -relaterad anpassning

Finjustering med bara 62 timmars robotkontrolldata från Droid -datauppsättningen
Integration av agentåtgärder i de prediktiva färdigheterna
Aktivera planering och stängd kontrollkretsstyrning

Överlägsen prestanda i praktiken

V-JEPA 2 visar imponerande prestanda inom olika områden:

Videoförståelse och rörelseupptäckt

77,3% Topp 1 noggrannhet i något något V2 -datauppsättning
39,7% återkallande-AT-5 för Epic-Kitchens-100-åtgärdsprognos (44% förbättring jämfört med tidigare modeller)
Modernaste prestanda i olika videokretsuppgifter

Robotkontroll

65-80% framgångsgrad för pick-and-place-uppgifter i okända miljöer
Nollskottsrobotkontroll utan omgivningsspecifik träning
Använd i två olika laboratorier med Franka Robot Arms

Effektivitet jämfört med tävlingen

V-JEPA 2 är 30 gånger snabbare än Nvidias Cosmos-modell och behöver bara 16 sekunder för att planera en robotåtgärd, medan Cosmos behöver 4 minuter.

Tekniska innovationer och viktiga egenskaper

Modellen kännetecknas av fem centrala tekniska genombrott:

Självmoniterat lärande: Eliminerar behovet av stora mängder märkta data
Maskeringsmekanism: Tränar modellen genom att förutsäga dolda videoområden
Abstract Representative Learning: Fokusera på semantiska betydelser istället för pixelinformation
Världsmodellarkitektur: Upprättande av en intern förståelse av fysiska lagar
Effektivt överföringsinlärning: Enastående inlärningsförmåga

Nya riktmärken uppenbara gränser för nuvarande AI

Meta har släppt tre nya riktmärken parallellt med V-JEPA 2 som testar den fysiska förståelsen för AI-system:

Intphys 2

Testar förmågan att skilja mellan fysiskt rimliga och omöjliga scenarier. Även avancerade modeller är fortfarande nära slumpmässig nivå här.

Mvpbench

Visuellt använder liknande videobilar med motsatta svar på samma fråga. V-JEPA 2 når 44,5% parad noggrannhet-bästa prestanda för alla testade system.

Kausalvqa

Undersöker kausal förståelse och mot -aktivt tänkande. Resultaten visar att nuvarande AI -system väl kan beskriva vad de ser men har svårt att förutsäga alternativa kurser.

AI utan hunger efter data: Hur V-JEPA 2 maskininlärning gör effektivare

Yann Lecun ser nyckeln till nästa generation av AI-utveckling i världsmodeller som V-JEPA 2. Modellen kan revolutionera olika tillämpningsområden:

Robotik och budgetassistenter

Världsmodeller är tänkt att inleda en ny era av robotik där AI -agenter kan hantera verkliga uppgifter utan astronomiska mängder träningsdata.

Autonoma fordon

Den rumsliga förståelsen av realtid från V-JEPA 2 kan vara avgörande för autonoma fordon, lagerrobotar och drone-leveranssystem.

Utökad verklighet (AR) och virtuella assistenter

Meta planerar att utöka funktionerna i V-JEPA 2 genom att integrera ljudanalys och utvidgad videomelett för AR-glasögon och virtuella assistenter.

Open Source -tillgänglighet och forskningsfrämjande

Meta har släppt V-JEPA 2 under CC-BY-NC-licensen som en öppen källkod för att främja global AI-forskning. Modellkoden är tillgänglig på GitHub och kan köras på plattformar som Google Colab och Kaggle. Denna öppenhet är i motsats till många andra stora AI -modeller och är avsedd att främja utvecklingen av världsmodeller inom robotik och förkroppsligad AI.

Ett paradigmskifte i AI -utvecklingen

V-JEPA 2 representerar ett grundläggande paradigmskifte från ren språkbearbetning till en djupare förståelse av den fysiska världen. Medan de flesta AI -företag förlitar sig på generativa modeller följer Meta en alternativ vision för framtiden för konstgjord intelligens med sin världsmodellstrategi. Möjligheten att lära av minimal data och möjliggöra nollskottsrobotkontroll kan bana väg för en ny generation av intelligenta system som inte bara förstår utan också kan agera i den verkliga världen.

Lämplig för detta: