Megjelent: 2025. június 13. / Frissítve: 2025. június 13. – Szerző: Konrad Wolfenstein

Robotoknak és más MI-ágenseknek: A Meta V-JEPA 2 MI-modellje – A MI, amely megérti a fizikai világunkat – Kép: Xpert.Digital
A Meta bemutatja a V-JEPA 2-t: A mesterséges intelligencia rendszer megtanul jóslatokat tenni a fizikai világról
A Meta kiadta a V-JEPA 2-t: egy forradalmian új MI világmodell a mesterséges intelligencia jövőjéhez
A Meta bemutatta a V-JEPA 2-t, egy úttörő mesterséges intelligencia rendszert, amely alapvetően eltér a hagyományos nagynyelvi modellektől. Ez az 1,2 milliárd paramétert tartalmazó világmodell azért készült, hogy segítsen a robotoknak és más mesterséges intelligencia által támogatott ügynököknek megérteni a fizikai világot, és megjósolni, hogyan fog reagálni a cselekedeteikre.
Mi a V-JEPA 2, és miben különbözik a nyelvi modellektől?
A V-JEPA 2 a „Video Joint Embedding Predictive Architecture 2” rövidítése, és a hagyományos nyelvi modellektől teljesen eltérő architektúrán alapul. Míg a ChatGPT vagy a GPT-4hez hasonló nyelvi modellek valószínűségi előrejelzéseket tesznek szövegszekvenciákról, a V-JEPA 2 egy absztrakt reprezentációs térben működik, és a fizikai törvények megértésére összpontosít.
A döntő különbség a tanulási módszerben rejlik: a nyelvi modellek nagy mennyiségű címkézett adatot igényelnek, és felügyelt képzéssel tanulnak. A V-JEPA 2 ezzel szemben önállóan felügyelt tanulást alkalmaz, és címkézetlen videókból nyeri ki a tudást, ezáltal jelentősen csökkentve az adat-előkészítési költségeket. A modell nem pixelrekonstrukcióval, hanem a videó tartalmának absztrakt reprezentációival tanul.
A JEPA architektúra: Tanulás predikción keresztül
A Joint Embedding Predictive Architecture (JEPA) módszert Yann LeCun, a Meta vezető mesterséges intelligencia-tudósa fejlesztette ki, és alternatívát jelent a generatív mesterséges intelligencia modellekhez képest. A generatív megközelítésekkel ellentétben, amelyek minden hiányzó pixelt megpróbálnak rekonstruálni, a V-JEPA 2 maszkolt videórégiókkal dolgozik, és megtanulja az absztrakt fogalmak előrejelzését.
A rendszer kétlépcsős betanítási megközelítést alkalmaz:
Első fázis: Önfelügyelt tanulás
- Több mint egymillió órányi videóanyaggal és egymillió képpel készült képzés
- Fizikai interakciós minták tanulása emberi annotáció nélkül
- A fizikai világ belső modelljének fejlesztése
Második fázis: Akció által kiváltott alkalmazkodás
- Finomhangolás mindössze 62 órányi robotvezérlési adattal a DROID adatkészletből
- Az ügynökműveletek integrálása a prediktív képességekbe
- Tervezés és zárt hurkú szabályozás lehetővé tétele
Kiváló teljesítmény a gyakorlatban
A V-JEPA 2 lenyűgöző teljesítményt nyújt számos területen:
Videó megértése és mozgásérzékelés
- 77,3%-os Top 1 pontosság a Something-Something v2 adatkészletben
- 39,7%-os visszahívási arány 5-nél az Epic-Kitchens-100 akcióelőrejelzésében (44%-os javulás a korábbi modellekhez képest)
- Kiemelkedő teljesítmény különféle videós kérdés-felelek feladatokban
Robotvezérlés
- 65-80%-os sikerarány az ismeretlen környezetben végzett „pick-and-place” feladatokban
- Nulla lövéses robotvezérlés környezetspecifikus képzés nélkül
- Franka robotkarok telepítése két különböző laboratóriumban
Hatékonyság a versenytársakhoz képest
A V-JEPA 2 30-szor gyorsabb, mint az NVIDIA Cosmos modellje, és mindössze 16 másodpercre van szüksége egy robotművelet megtervezéséhez, míg a Cosmosnak ez 4 percre van szüksége.
Műszaki újítások és főbb jellemzők
A modellt öt kulcsfontosságú technológiai áttörés jellemzi:
- Önfelügyelt tanulás: Kiküszöböli a nagy mennyiségű címkézett adat szükségességét
- Maszkolási mechanizmus: A modell betanítása a rejtett videoterületek előrejelzésével
- Absztrakt ábrázolás tanulása: A szemantikai jelentésekre való összpontosítás a pixelrészletek helyett
- Világmodell-architektúra: A fizikai törvények belső megértésének kiépítése
- Hatékony transzfertanulás: Kiemelkedő nullapontos tanulási képességek
Új referenciaértékek feltárják a jelenlegi mesterséges intelligencia korlátait
A V-JEPA 2-vel párhuzamosan a Meta három új benchmarkot adott ki, amelyek a mesterséges intelligenciarendszerek fizikai megértését tesztelik:
IntPhys 2
A fizikailag hihető és lehetetlen forgatókönyvek megkülönböztetésének képességét teszteli. Még a fejlett modellek is közel véletlenszerűek ebben a tekintetben.
MVP pad
Vizuálisan hasonló videópárokat használ, ellentétes válaszokkal ugyanarra a kérdésre. A V-JEPA 2 44,5%-os párosítási pontosságot ér el – ez az összes tesztelt rendszer közül a legjobb teljesítmény.
CausalVQA
A tanulmány az ok-okozati megértést és a kontrafaktuális érvelést vizsgálja. Az eredmények azt mutatják, hogy a jelenlegi mesterséges intelligencia rendszerek jól le tudják írni a látottakat, de nehezen tudják megjósolni az alternatív kimeneteleket.
MI adatéhség nélkül: Hogyan teszi hatékonyabbá a V-JEPA 2 a gépi tanulást?
Yann LeCun a V-JEPA 2-höz hasonló világmodelleket a mesterséges intelligencia fejlesztésének következő generációjának kulcsának tekinti. A modell forradalmasíthatja a különböző alkalmazási területeket:
Robotika és háztartási asszisztensek
A világmodellek célja a robotika egy új korszakának bevezetése, amelyben a mesterséges intelligencia által működtetett ügynökök csillagászati mennyiségű betanítási adat nélkül is képesek lesznek valós feladatokat kezelni.
Önvezető járművek
A V-JEPA 2 valós idejű térbeli megértése kulcsfontosságú lehet az önvezető járművek, a raktári robotok és a drónos szállítórendszerek számára.
Kiterjesztett valóság (AR) és virtuális asszisztensek
A Meta tervei szerint bővíti a V-JEPA 2 funkcionalitását az audioanalitika és a továbbfejlesztett videoértelmezési képességek integrálásával AR-szemüvegek és virtuális asszisztensek számára.
Nyílt forráskódú szoftverek elérhetősége és kutatási finanszírozás
A Meta nyílt forráskódúként, CC-BY-NC licenc alatt kiadta a V-JEPA 2-t a globális mesterséges intelligencia kutatásának előmozdítása érdekében. A modellkód elérhető a GitHubon, és olyan platformokon futtatható, mint a Google Colab és a Kaggle. Ez a nyíltság ellentétben áll számos más nagyméretű mesterséges intelligencia modellel, és célja a világmodellek fejlesztésének előmozdítása a robotikában és a megtestesült mesterséges intelligenciában.
Paradigmaváltás a mesterséges intelligencia fejlesztésében
A V-JEPA 2 alapvető paradigmaváltást jelent a tiszta nyelvi feldolgozástól a fizikai világ mélyebb megértése felé. Míg a legtöbb mesterséges intelligenciával foglalkozó vállalat generatív modellekre támaszkodik, a Meta a mesterséges intelligencia jövőjére vonatkozó alternatív víziót követ világmodell-megközelítésével. A minimális adatokból való tanulás és a nulla lövéses robotvezérlés lehetővé tétele utat nyithat az intelligens rendszerek új generációja előtt, amelyek nemcsak megértik, hanem cselekedni is képesek a valós világban.
Alkalmas:
- Sokkoló hír a reklámipar számára: Zuckerberg teljesen automatizálni akarja a hirdetéseket mesterséges intelligencia segítségével a META segítségével – ez egy 72 milliárd dolláros beruházás
- Viszlát nyelvi akadályok! Ray-Ban Meta AI: Megérkezett az AI frissítés! Nyelvfordítás, vizuális keresés – minden, amit tudnod kell!
Az Ön globális marketing- és üzletfejlesztési partnere
☑️ Üzleti nyelvünk angol vagy német
☑️ ÚJ: Levelezés az Ön nemzeti nyelvén!
Szívesen szolgálok Önt és csapatomat személyes tanácsadóként.
Felveheti velem a kapcsolatot az itt található kapcsolatfelvételi űrlap kitöltésével , vagy egyszerűen hívjon a +49 89 89 674 804 (München) . Az e-mail címem: wolfenstein ∂ xpert.digital
Nagyon várom a közös projektünket.











