Webbplatsikon Xpert.digital

För robotar och andra AI-agenter: AI-modellen V-JEPA 2 från Meta-AI som förstår vår fysiska värld

För robotar och andra AI-agenter: AI-modellen V-JEPA 2 från Meta-AI som förstår vår fysiska värld

För robotar och andra AI-agenter: V-JEPA 2 AI-modellen från Meta – AI:n som förstår vår fysiska värld – Bild: Xpert.Digital

Meta presenterar V-JEPA 2: AI-system lär sig att göra förutsägelser om den fysiska världen

Meta publicerar V-JEPA 2: En revolutionerande AI-världsmodell för framtidens artificiella intelligens

Meta har presenterat V-JEPA 2, ett banbrytande AI-system som har en fundamentalt annorlunda strategi än konventionella Grand Language Models. Denna världsmodell, med sina 1,2 miljarder parametrar, utvecklades för att hjälpa robotar och andra AI-agenter att förstå den fysiska världen och förutsäga hur den kommer att reagera på deras handlingar.

Vad är V-JEPA 2 och hur skiljer det sig från språkmodeller?

V-JEPA 2 står för ”Video Joint Embedding Predictive Architecture 2” och är baserad på en helt annan arkitektur än traditionella språkmodeller. Medan språkmodeller som ChatGPT eller GPT-4 gör probabilistiska förutsägelser om textsekvenser, arbetar V-JEPA 2 i ett abstrakt representationsutrymme och fokuserar på att förstå fysikaliska lagar.

Den avgörande skillnaden ligger i inlärningsmetoden: språkmodeller kräver stora mängder märkt data och lär sig genom övervakad träning. V-JEPA 2, å andra sidan, använder självövervakat lärande och extraherar kunskap från omärkta videor, vilket avsevärt minskar kostnaderna för dataförberedelse. Modellen lär sig inte genom pixelrekonstruktion, utan genom abstrakta representationer av videoinnehållet.

JEPA-arkitekturen: Lärande genom förutsägelse

Joint Embedding Predictive Architecture (JEPA) utvecklades av Yann LeCun, Metas chefsforskare inom AI, och representerar ett alternativ till generativa AI-modeller. Till skillnad från generativa metoder, som försöker rekonstruera varje saknad pixel, arbetar V-JEPA 2 med maskerade videoregioner och lär sig att förutsäga abstrakta koncept.

Systemet använder en tvåstegsutbildningsmetod:

Första fasen: Självövervakat lärande

  • Träning med över en miljon timmar videomaterial och en miljon bilder
  • Lära sig fysiska interaktionsmönster utan mänsklig annotering
  • Utveckling av en intern modell av den fysiska världen

Andra fasen: Handlingsinducerad anpassning

  • Finjustering med endast 62 timmars robotkontrolldata från DROID-datasetet
  • Integrering av agentåtgärder i prediktiva funktioner
  • Möjliggör planering och sluten styrning

Överlägsen prestation i praktiken

V-JEPA 2 uppvisar imponerande prestanda inom olika områden:

Videouppfattning och rörelsedetektering

  • 77,3 % Topp 1-noggrannhet i Something-Something v2-datasetet
  • 39,7 % Recall-at-5 i Epic-Kitchens-100 handlingsförutsägelse (44 % förbättring jämfört med tidigare modeller)
  • Toppmodern prestanda i olika videofrågor och svar

Robotkontroll

  • 65–80 % framgångsgrad i pick-and-place-uppgifter i okända miljöer
  • Nollpunktsstyrning av robotar utan miljöspecifik utbildning
  • Implementering i två olika laboratorier med Franka robotarmar

Effektivitet jämfört med konkurrenterna

V-JEPA 2 är 30 gånger snabbare än NVIDIAs Cosmos-modell och behöver bara 16 sekunder för att planera en robotåtgärd, medan Cosmos tar 4 minuter.

Tekniska innovationer och viktiga funktioner

Modellen kännetecknas av fem viktiga tekniska genombrott:

  1. Självövervakat lärande: Eliminerar behovet av stora mängder märkt data.
  2. Maskeringsmekanism: Tränar modellen genom att förutsäga dolda videoområden
  3. Abstrakt representationsinlärning: Fokusera på semantiska betydelser istället för pixeldetaljer
  4. Världsmodellarkitektur: Att bygga en intern förståelse av fysikaliska lagar
  5. Effektiv överföringsinlärning: Enastående inlärningsförmåga utan hinder

Nya riktmärken avslöjar begränsningarna för nuvarande AI

Parallellt med V-JEPA 2 har Meta släppt tre nya riktmärken som testar den fysiska förståelsen av AI-system:

IntPhys 2

Den testar förmågan att skilja mellan fysiskt rimliga och omöjliga scenarier. Även avancerade modeller presterar fortfarande nära slumpmässigt i detta avseende.

MVPBench

Den använder visuellt liknande videopar med motsatta svar på samma fråga. V-JEPA 2 uppnår 44,5 % parvis noggrannhet – den bästa prestandan av alla testade system.

KausalVQA

Studien undersöker kausal förståelse och kontrafaktiskt resonemang. Resultaten visar att nuvarande AI-system kan beskriva vad de ser väl, men har svårt att förutsäga alternativa utfall.

AI utan datahunger: Hur V-JEPA 2 effektiviserar maskininlärning

Yann LeCun ser världsmodeller som V-JEPA 2 som nyckeln till nästa generations AI-utveckling. Modellen skulle kunna revolutionera olika tillämpningsområden:

Robotik och hushållsassistenter

Världsmodeller är avsedda att inleda en ny era inom robotik, där AI-agenter kommer att kunna hantera verkliga uppgifter utan astronomiska mängder träningsdata.

Autonoma fordon

V-JEPA 2:s realtidsförståelse av rumsliga funktioner kan vara avgörande för autonoma fordon, lagerrobotar och drönarleveranssystem.

Augmented Reality (AR) och virtuella assistenter

Meta planerar att utöka funktionaliteten i V-JEPA 2 genom att integrera ljudanalys och förbättrade videoförståelsefunktioner för AR-glasögon och virtuella assistenter.

Tillgänglighet av öppen källkod och forskningsfinansiering

Meta har släppt V-JEPA 2 som öppen källkod under CC-BY-NC-licensen för att främja global AI-forskning. Modellkoden finns tillgänglig på GitHub och kan köras på plattformar som Google Colab och Kaggle. Denna öppenhet står i kontrast till många andra stora AI-modeller och är avsedd att främja utvecklingen av världsmodeller inom robotik och förkroppsligad AI.

Ett paradigmskifte inom AI-utveckling

V-JEPA 2 representerar ett grundläggande paradigmskifte från ren språkbehandling till en djupare förståelse av den fysiska världen. Medan de flesta AI-företag förlitar sig på generativa modeller, strävar Meta efter en alternativ vision för framtiden för artificiell intelligens med sin världsmodellbaserade strategi. Förmågan att lära av minimal data och möjliggöra noll-skotts robotstyrning skulle kunna bana väg för en ny generation intelligenta system som inte bara kan förstå utan också agera i den verkliga världen.

Lämplig för detta:

 

Din globala marknadsförings- och affärsutvecklingspartner

☑ Vårt affärsspråk är engelska eller tyska

☑ Nytt: korrespondens på ditt nationella språk!

 

Konrad Wolfenstein

Jag är glad att vara tillgänglig för dig och mitt team som personlig konsult.

Du kan kontakta mig genom att fylla i kontaktformuläret eller helt enkelt ringa mig på +49 89 674 804 (München) . Min e -postadress är: Wolfenstein xpert.digital

Jag ser fram emot vårt gemensamma projekt.

 

 

☑ SME -stöd i strategi, rådgivning, planering och implementering

☑ skapande eller omjustering av den digitala strategin och digitaliseringen

☑ Expansion och optimering av de internationella försäljningsprocesserna

☑ Globala och digitala B2B -handelsplattformar

☑ Pioneer Business Development / Marketing / PR / Measure

Lämna den mobila versionen