Röstval 📢


För robotar och andra AI-agenter: AI-modellen V-JEPA 2 från Meta-AI som förstår vår fysiska värld

Publicerad: 13 juni 2025 / UPDATE Från: 13 juni 2025 - Författare: Konrad Wolfenstein

För robotar och andra AI-agenter: AI-modellen V-JEPA 2 från Meta-AI som förstår vår fysiska värld

För robotar och andra AI-agenter: AI-modellen V-JEPA 2 i Meta-AI som förstår vår fysiska världsbild: Xpert.Digital

Meta presenterar V-JEPA 2: AI-systemet lär sig förutsägelser om den fysiska världen

Meta publicerar V-JEPA 2: En revolutionär AI World Model för framtiden för konstgjord intelligens

Med V-JEPA 2 har Meta presenterat ett banbrytande AI-system som bedriver en grundläggande strategi än konventionella stora röstmodeller. Den 1,2 miljarder parametern Strong World -modellen utvecklades för att hjälpa robotar och andra AI -agenter att förstå den fysiska världen och för att förutsäga hur den kommer att reagera på dess handlingar.

Vad är V-JEPA 2 och hur skiljer det sig från röstmodeller?

V-JEPA 2 står för ”Video Joint Embedding Predictive Architecture 2” och är baserad på en helt annan arkitektur än traditionella röstmodeller. Medan röstmodeller som Chatgpt eller GPT-4 gör sannolikhetsförutsägelser om textsekvenser, fungerar V-JEPA 2 i ett abstrakt representationsrum och fokuserar på att förstå fysiska lagar.

Den avgörande skillnaden är i inlärningsmetoden: språkmodeller kräver stora mängder märkta data och lärande genom övervakad utbildning. V-JEPA 2, å andra sidan, använder självövervakad lärande och extrahering av kunskap från ovända videor, vilket avsevärt minskar kostnaderna för dataförberedelser. Modellen lär sig inte genom pixelrekonstruktion, utan genom abstrakta representationer av videoinnehållet.

JEPA -arkitekturen: Lärande efter förutsägelse

Den gemensamma inbäddade prediktiva arkitekturen (JEPA) utvecklades av Yann Lecun, Metas Chief AI -forskare och representerar ett alternativ till generativa AI -modeller. I motsats till generativa tillvägagångssätt som försöker rekonstruera alla saknade pixlar, fungerar V-Jepa 2 med maskerade videokor och lär sig att förutsäga abstrakta begrepp.

Systemet använder en tvåstegsutbildningsstrategi:

Första fasen: Självmoniterad lärande

  • Träning med över en miljon timmars videomaterial och en miljon bilder
  • Lär dig fysiska interaktionsmönster utan mänsklig kommentar
  • Utveckling av en intern modell av den fysiska världen

Andra fas: Action -relaterad anpassning

  • Finjustering med bara 62 timmars robotkontrolldata från Droid -datauppsättningen
  • Integration av agentåtgärder i de prediktiva färdigheterna
  • Aktivera planering och stängd kontrollkretsstyrning

Överlägsen prestanda i praktiken

V-JEPA 2 visar imponerande prestanda inom olika områden:

Videoförståelse och rörelseupptäckt

  • 77,3% Topp 1 noggrannhet i något något V2 -datauppsättning
  • 39,7% återkallande-AT-5 för Epic-Kitchens-100-åtgärdsprognos (44% förbättring jämfört med tidigare modeller)
  • Modernaste prestanda i olika videokretsuppgifter

Robotkontroll

  • 65-80% framgångsgrad för pick-and-place-uppgifter i okända miljöer
  • Nollskottsrobotkontroll utan omgivningsspecifik träning
  • Använd i två olika laboratorier med Franka Robot Arms

Effektivitet jämfört med tävlingen

V-JEPA 2 är 30 gånger snabbare än Nvidias Cosmos-modell och behöver bara 16 sekunder för att planera en robotåtgärd, medan Cosmos behöver 4 minuter.

Tekniska innovationer och viktiga egenskaper

Modellen kännetecknas av fem centrala tekniska genombrott:

  1. Självmoniterat lärande: Eliminerar behovet av stora mängder märkta data
  2. Maskeringsmekanism: Tränar modellen genom att förutsäga dolda videoområden
  3. Abstract Representative Learning: Fokusera på semantiska betydelser istället för pixelinformation
  4. Världsmodellarkitektur: Upprättande av en intern förståelse av fysiska lagar
  5. Effektivt överföringsinlärning: Enastående inlärningsförmåga

Nya riktmärken uppenbara gränser för nuvarande AI

Meta har släppt tre nya riktmärken parallellt med V-JEPA 2 som testar den fysiska förståelsen för AI-system:

Intphys 2

Testar förmågan att skilja mellan fysiskt rimliga och omöjliga scenarier. Även avancerade modeller är fortfarande nära slumpmässig nivå här.

Mvpbench

Visuellt använder liknande videobilar med motsatta svar på samma fråga. V-JEPA 2 når 44,5% parad noggrannhet-bästa prestanda för alla testade system.

Kausalvqa

Undersöker kausal förståelse och mot -aktivt tänkande. Resultaten visar att nuvarande AI -system väl kan beskriva vad de ser men har svårt att förutsäga alternativa kurser.

AI utan hunger efter data: Hur V-JEPA 2 maskininlärning gör effektivare

Yann Lecun ser nyckeln till nästa generation av AI-utveckling i världsmodeller som V-JEPA 2. Modellen kan revolutionera olika tillämpningsområden:

Robotik och budgetassistenter

Världsmodeller är tänkt att inleda en ny era av robotik där AI -agenter kan hantera verkliga uppgifter utan astronomiska mängder träningsdata.

Autonoma fordon

Den rumsliga förståelsen av realtid från V-JEPA 2 kan vara avgörande för autonoma fordon, lagerrobotar och drone-leveranssystem.

Utökad verklighet (AR) och virtuella assistenter

Meta planerar att utöka funktionerna i V-JEPA 2 genom att integrera ljudanalys och utvidgad videomelett för AR-glasögon och virtuella assistenter.

Open Source -tillgänglighet och forskningsfrämjande

Meta har släppt V-JEPA 2 under CC-BY-NC-licensen som en öppen källkod för att främja global AI-forskning. Modellkoden är tillgänglig på GitHub och kan köras på plattformar som Google Colab och Kaggle. Denna öppenhet är i motsats till många andra stora AI -modeller och är avsedd att främja utvecklingen av världsmodeller inom robotik och förkroppsligad AI.

Ett paradigmskifte i AI -utvecklingen

V-JEPA 2 representerar ett grundläggande paradigmskifte från ren språkbearbetning till en djupare förståelse av den fysiska världen. Medan de flesta AI -företag förlitar sig på generativa modeller följer Meta en alternativ vision för framtiden för konstgjord intelligens med sin världsmodellstrategi. Möjligheten att lära av minimal data och möjliggöra nollskottsrobotkontroll kan bana väg för en ny generation av intelligenta system som inte bara förstår utan också kan agera i den verkliga världen.

Lämplig för detta:

 

Din globala marknadsförings- och affärsutvecklingspartner

☑ Vårt affärsspråk är engelska eller tyska

☑ Nytt: korrespondens på ditt nationella språk!

 

Digital Pioneer - Konrad Wolfenstein

Konrad Wolfenstein

Jag är glad att vara tillgänglig för dig och mitt team som personlig konsult.

Du kan kontakta mig genom att fylla i kontaktformuläret eller helt enkelt ringa mig på +49 89 674 804 (München) . Min e -postadress är: Wolfenstein xpert.digital

Jag ser fram emot vårt gemensamma projekt.

 

 

☑ SME -stöd i strategi, rådgivning, planering och implementering

☑ skapande eller omjustering av den digitala strategin och digitaliseringen

☑ Expansion och optimering av de internationella försäljningsprocesserna

☑ Globala och digitala B2B -handelsplattformar

☑ Pioneer Business Development / Marketing / PR / Measure


Artificial Intelligence (AI) -AI-blogg, hotspot och innehållsnavRobotik/robotikXpaper