
För robotar och andra AI-agenter: V-JEPA 2 AI-modellen från Meta – AI:n som förstår vår fysiska värld – Bild: Xpert.Digital
Meta presenterar V-JEPA 2: AI-system lär sig att göra förutsägelser om den fysiska världen
Meta publicerar V-JEPA 2: En revolutionerande AI-världsmodell för framtidens artificiella intelligens
Meta har presenterat V-JEPA 2, ett banbrytande AI-system som har en fundamentalt annorlunda strategi än konventionella Grand Language Models. Denna världsmodell, med sina 1,2 miljarder parametrar, utvecklades för att hjälpa robotar och andra AI-agenter att förstå den fysiska världen och förutsäga hur den kommer att reagera på deras handlingar.
Vad är V-JEPA 2 och hur skiljer det sig från språkmodeller?
V-JEPA 2 står för ”Video Joint Embedding Predictive Architecture 2” och är baserad på en helt annan arkitektur än traditionella språkmodeller. Medan språkmodeller som ChatGPT eller GPT-4 gör probabilistiska förutsägelser om textsekvenser, arbetar V-JEPA 2 i ett abstrakt representationsutrymme och fokuserar på att förstå fysikaliska lagar.
Den avgörande skillnaden ligger i inlärningsmetoden: språkmodeller kräver stora mängder märkt data och lär sig genom övervakad träning. V-JEPA 2, å andra sidan, använder självövervakat lärande och extraherar kunskap från omärkta videor, vilket avsevärt minskar kostnaderna för dataförberedelse. Modellen lär sig inte genom pixelrekonstruktion, utan genom abstrakta representationer av videoinnehållet.
JEPA-arkitekturen: Lärande genom förutsägelse
Joint Embedding Predictive Architecture (JEPA) utvecklades av Yann LeCun, Metas chefsforskare inom AI, och representerar ett alternativ till generativa AI-modeller. Till skillnad från generativa metoder, som försöker rekonstruera varje saknad pixel, arbetar V-JEPA 2 med maskerade videoregioner och lär sig att förutsäga abstrakta koncept.
Systemet använder en tvåstegsutbildningsmetod:
Första fasen: Självövervakat lärande
- Träning med över en miljon timmar videomaterial och en miljon bilder
- Lära sig fysiska interaktionsmönster utan mänsklig annotering
- Utveckling av en intern modell av den fysiska världen
Andra fasen: Handlingsinducerad anpassning
- Finjustering med endast 62 timmars robotkontrolldata från DROID-datasetet
- Integrering av agentåtgärder i prediktiva funktioner
- Möjliggör planering och sluten styrning
Överlägsen prestation i praktiken
V-JEPA 2 uppvisar imponerande prestanda inom olika områden:
Videouppfattning och rörelsedetektering
- 77,3 % Topp 1-noggrannhet i Something-Something v2-datasetet
- 39,7 % Recall-at-5 i Epic-Kitchens-100 handlingsförutsägelse (44 % förbättring jämfört med tidigare modeller)
- Toppmodern prestanda i olika videofrågor och svar
Robotkontroll
- 65–80 % framgångsgrad i pick-and-place-uppgifter i okända miljöer
- Nollpunktsstyrning av robotar utan miljöspecifik utbildning
- Implementering i två olika laboratorier med Franka robotarmar
Effektivitet jämfört med konkurrenterna
V-JEPA 2 är 30 gånger snabbare än NVIDIAs Cosmos-modell och behöver bara 16 sekunder för att planera en robotåtgärd, medan Cosmos tar 4 minuter.
Tekniska innovationer och viktiga funktioner
Modellen kännetecknas av fem viktiga tekniska genombrott:
- Självövervakat lärande: Eliminerar behovet av stora mängder märkt data.
- Maskeringsmekanism: Tränar modellen genom att förutsäga dolda videoområden
- Abstrakt representationsinlärning: Fokusera på semantiska betydelser istället för pixeldetaljer
- Världsmodellarkitektur: Att bygga en intern förståelse av fysikaliska lagar
- Effektiv överföringsinlärning: Enastående inlärningsförmåga utan hinder
Nya riktmärken avslöjar begränsningarna för nuvarande AI
Parallellt med V-JEPA 2 har Meta släppt tre nya riktmärken som testar den fysiska förståelsen av AI-system:
IntPhys 2
Den testar förmågan att skilja mellan fysiskt rimliga och omöjliga scenarier. Även avancerade modeller presterar fortfarande nära slumpmässigt i detta avseende.
MVPBench
Den använder visuellt liknande videopar med motsatta svar på samma fråga. V-JEPA 2 uppnår 44,5 % parvis noggrannhet – den bästa prestandan av alla testade system.
KausalVQA
Studien undersöker kausal förståelse och kontrafaktiskt resonemang. Resultaten visar att nuvarande AI-system kan beskriva vad de ser väl, men har svårt att förutsäga alternativa utfall.
AI utan datahunger: Hur V-JEPA 2 effektiviserar maskininlärning
Yann LeCun ser världsmodeller som V-JEPA 2 som nyckeln till nästa generations AI-utveckling. Modellen skulle kunna revolutionera olika tillämpningsområden:
Robotik och hushållsassistenter
Världsmodeller är avsedda att inleda en ny era inom robotik, där AI-agenter kommer att kunna hantera verkliga uppgifter utan astronomiska mängder träningsdata.
Autonoma fordon
V-JEPA 2:s realtidsförståelse av rumsliga funktioner kan vara avgörande för autonoma fordon, lagerrobotar och drönarleveranssystem.
Augmented Reality (AR) och virtuella assistenter
Meta planerar att utöka funktionaliteten i V-JEPA 2 genom att integrera ljudanalys och förbättrade videoförståelsefunktioner för AR-glasögon och virtuella assistenter.
Tillgänglighet av öppen källkod och forskningsfinansiering
Meta har släppt V-JEPA 2 som öppen källkod under CC-BY-NC-licensen för att främja global AI-forskning. Modellkoden finns tillgänglig på GitHub och kan köras på plattformar som Google Colab och Kaggle. Denna öppenhet står i kontrast till många andra stora AI-modeller och är avsedd att främja utvecklingen av världsmodeller inom robotik och förkroppsligad AI.
Ett paradigmskifte inom AI-utveckling
V-JEPA 2 representerar ett grundläggande paradigmskifte från ren språkbehandling till en djupare förståelse av den fysiska världen. Medan de flesta AI-företag förlitar sig på generativa modeller, strävar Meta efter en alternativ vision för framtiden för artificiell intelligens med sin världsmodellbaserade strategi. Förmågan att lära av minimal data och möjliggöra noll-skotts robotstyrning skulle kunna bana väg för en ny generation intelligenta system som inte bara kan förstå utan också agera i den verkliga världen.
Lämplig för detta:
Din globala marknadsförings- och affärsutvecklingspartner
☑ Vårt affärsspråk är engelska eller tyska
☑ Nytt: korrespondens på ditt nationella språk!
Jag är glad att vara tillgänglig för dig och mitt team som personlig konsult.
Du kan kontakta mig genom att fylla i kontaktformuläret eller helt enkelt ringa mig på +49 89 674 804 (München) . Min e -postadress är: Wolfenstein ∂ xpert.digital
Jag ser fram emot vårt gemensamma projekt.

