Hangválasztás 📢


Robotoknak és más MI-ágenseknek: A Meta V-JEPA 2 MI-modellje – A MI, amely megérti a fizikai világunkat

Megjelent: 2025. június 13. / Frissítve: 2025. június 13. – Szerző: Konrad Wolfenstein

Robotoknak és más MI-ágenseknek: A Meta V-JEPA 2 MI-modellje – A MI, amely megérti a fizikai világunkat

Robotoknak és más MI-ágenseknek: A Meta V-JEPA 2 MI-modellje – A MI, amely megérti a fizikai világunkat – Kép: Xpert.Digital

A Meta bemutatja a V-JEPA 2-t: A mesterséges intelligencia rendszer megtanul jóslatokat tenni a fizikai világról

A Meta kiadta a V-JEPA 2-t: egy forradalmian új MI világmodell a mesterséges intelligencia jövőjéhez

A Meta bemutatta a V-JEPA 2-t, egy úttörő mesterséges intelligencia rendszert, amely alapvetően eltér a hagyományos nagynyelvi modellektől. Ez az 1,2 milliárd paramétert tartalmazó világmodell azért készült, hogy segítsen a robotoknak és más mesterséges intelligencia által támogatott ügynököknek megérteni a fizikai világot, és megjósolni, hogyan fog reagálni a cselekedeteikre.

Mi a V-JEPA 2, és miben különbözik a nyelvi modellektől?

A V-JEPA 2 a „Video Joint Embedding Predictive Architecture 2” rövidítése, és a hagyományos nyelvi modellektől teljesen eltérő architektúrán alapul. Míg a ChatGPT vagy a GPT-4hez hasonló nyelvi modellek valószínűségi előrejelzéseket tesznek szövegszekvenciákról, a V-JEPA 2 egy absztrakt reprezentációs térben működik, és a fizikai törvények megértésére összpontosít.

A döntő különbség a tanulási módszerben rejlik: a nyelvi modellek nagy mennyiségű címkézett adatot igényelnek, és felügyelt képzéssel tanulnak. A V-JEPA 2 ezzel szemben önállóan felügyelt tanulást alkalmaz, és címkézetlen videókból nyeri ki a tudást, ezáltal jelentősen csökkentve az adat-előkészítési költségeket. A modell nem pixelrekonstrukcióval, hanem a videó tartalmának absztrakt reprezentációival tanul.

A JEPA architektúra: Tanulás predikción keresztül

A Joint Embedding Predictive Architecture (JEPA) módszert Yann LeCun, a Meta vezető mesterséges intelligencia-tudósa fejlesztette ki, és alternatívát jelent a generatív mesterséges intelligencia modellekhez képest. A generatív megközelítésekkel ellentétben, amelyek minden hiányzó pixelt megpróbálnak rekonstruálni, a V-JEPA 2 maszkolt videórégiókkal dolgozik, és megtanulja az absztrakt fogalmak előrejelzését.

A rendszer kétlépcsős betanítási megközelítést alkalmaz:

Első fázis: Önfelügyelt tanulás

  • Több mint egymillió órányi videóanyaggal és egymillió képpel készült képzés
  • Fizikai interakciós minták tanulása emberi annotáció nélkül
  • A fizikai világ belső modelljének fejlesztése

Második fázis: Akció által kiváltott alkalmazkodás

  • Finomhangolás mindössze 62 órányi robotvezérlési adattal a DROID adatkészletből
  • Az ügynökműveletek integrálása a prediktív képességekbe
  • Tervezés és zárt hurkú szabályozás lehetővé tétele

Kiváló teljesítmény a gyakorlatban

A V-JEPA 2 lenyűgöző teljesítményt nyújt számos területen:

Videó megértése és mozgásérzékelés

  • 77,3%-os Top 1 pontosság a Something-Something v2 adatkészletben
  • 39,7%-os visszahívási arány 5-nél az Epic-Kitchens-100 akcióelőrejelzésében (44%-os javulás a korábbi modellekhez képest)
  • Kiemelkedő teljesítmény különféle videós kérdés-felelek feladatokban

Robotvezérlés

  • 65-80%-os sikerarány az ismeretlen környezetben végzett „pick-and-place” feladatokban
  • Nulla lövéses robotvezérlés környezetspecifikus képzés nélkül
  • Franka robotkarok telepítése két különböző laboratóriumban

Hatékonyság a versenytársakhoz képest

A V-JEPA 2 30-szor gyorsabb, mint az NVIDIA Cosmos modellje, és mindössze 16 másodpercre van szüksége egy robotművelet megtervezéséhez, míg a Cosmosnak ez 4 percre van szüksége.

Műszaki újítások és főbb jellemzők

A modellt öt kulcsfontosságú technológiai áttörés jellemzi:

  1. Önfelügyelt tanulás: Kiküszöböli a nagy mennyiségű címkézett adat szükségességét
  2. Maszkolási mechanizmus: A modell betanítása a rejtett videoterületek előrejelzésével
  3. Absztrakt ábrázolás tanulása: A szemantikai jelentésekre való összpontosítás a pixelrészletek helyett
  4. Világmodell-architektúra: A fizikai törvények belső megértésének kiépítése
  5. Hatékony transzfertanulás: Kiemelkedő nullapontos tanulási képességek

Új referenciaértékek feltárják a jelenlegi mesterséges intelligencia korlátait

A V-JEPA 2-vel párhuzamosan a Meta három új benchmarkot adott ki, amelyek a mesterséges intelligenciarendszerek fizikai megértését tesztelik:

IntPhys 2

A fizikailag hihető és lehetetlen forgatókönyvek megkülönböztetésének képességét teszteli. Még a fejlett modellek is közel véletlenszerűek ebben a tekintetben.

MVP pad

Vizuálisan hasonló videópárokat használ, ellentétes válaszokkal ugyanarra a kérdésre. A V-JEPA 2 44,5%-os párosítási pontosságot ér el – ez az összes tesztelt rendszer közül a legjobb teljesítmény.

CausalVQA

A tanulmány az ok-okozati megértést és a kontrafaktuális érvelést vizsgálja. Az eredmények azt mutatják, hogy a jelenlegi mesterséges intelligencia rendszerek jól le tudják írni a látottakat, de nehezen tudják megjósolni az alternatív kimeneteleket.

MI adatéhség nélkül: Hogyan teszi hatékonyabbá a V-JEPA 2 a gépi tanulást?

Yann LeCun a V-JEPA 2-höz hasonló világmodelleket a mesterséges intelligencia fejlesztésének következő generációjának kulcsának tekinti. A modell forradalmasíthatja a különböző alkalmazási területeket:

Robotika és háztartási asszisztensek

A világmodellek célja a robotika egy új korszakának bevezetése, amelyben a mesterséges intelligencia által működtetett ügynökök csillagászati ​​mennyiségű betanítási adat nélkül is képesek lesznek valós feladatokat kezelni.

Önvezető járművek

A V-JEPA 2 valós idejű térbeli megértése kulcsfontosságú lehet az önvezető járművek, a raktári robotok és a drónos szállítórendszerek számára.

Kiterjesztett valóság (AR) és virtuális asszisztensek

A Meta tervei szerint bővíti a V-JEPA 2 funkcionalitását az audioanalitika és a továbbfejlesztett videoértelmezési képességek integrálásával AR-szemüvegek és virtuális asszisztensek számára.

Nyílt forráskódú szoftverek elérhetősége és kutatási finanszírozás

A Meta nyílt forráskódúként, CC-BY-NC licenc alatt kiadta a V-JEPA 2-t a globális mesterséges intelligencia kutatásának előmozdítása érdekében. A modellkód elérhető a GitHubon, és olyan platformokon futtatható, mint a Google Colab és a Kaggle. Ez a nyíltság ellentétben áll számos más nagyméretű mesterséges intelligencia modellel, és célja a világmodellek fejlesztésének előmozdítása a robotikában és a megtestesült mesterséges intelligenciában.

Paradigmaváltás a mesterséges intelligencia fejlesztésében

A V-JEPA 2 alapvető paradigmaváltást jelent a tiszta nyelvi feldolgozástól a fizikai világ mélyebb megértése felé. Míg a legtöbb mesterséges intelligenciával foglalkozó vállalat generatív modellekre támaszkodik, a Meta a mesterséges intelligencia jövőjére vonatkozó alternatív víziót követ világmodell-megközelítésével. A minimális adatokból való tanulás és a nulla lövéses robotvezérlés lehetővé tétele utat nyithat az intelligens rendszerek új generációja előtt, amelyek nemcsak megértik, hanem cselekedni is képesek a valós világban.

Alkalmas:

 

Az Ön globális marketing- és üzletfejlesztési partnere

☑️ Üzleti nyelvünk angol vagy német

☑️ ÚJ: Levelezés az Ön nemzeti nyelvén!

 

Digitális úttörő - Konrad Wolfenstein

Konrad Wolfenstein

Szívesen szolgálok Önt és csapatomat személyes tanácsadóként.

Felveheti velem a kapcsolatot az itt található kapcsolatfelvételi űrlap kitöltésével , vagy egyszerűen hívjon a +49 89 89 674 804 (München) . Az e-mail címem: wolfenstein xpert.digital

Nagyon várom a közös projektünket.

 

 

☑️ KKV-k támogatása stratégiában, tanácsadásban, tervezésben és megvalósításban

☑️ Digitális stratégia és digitalizáció megalkotása vagy átrendezése

☑️ Nemzetközi értékesítési folyamatok bővítése, optimalizálása

☑️ Globális és digitális B2B kereskedési platformok

☑️ Úttörő üzletfejlesztés / Marketing / PR / Szakkiállítások


⭐️ Mesterséges Intelligencia (MI) - MI Blog, Hotspot és Tartalomközpont ⭐️ Robotika ⭐️ XPaper