Robotok és más AI-ágensek esetében: A V-JEPA 2 AI modell a Meta-AI-ből, amely megérti a fizikai világunkat

Megjelent: 2025. június 13. / Frissítés: 2025. június 13. - Szerző: Konrad Wolfenstein

Robotok és más AI-ágensek esetében: A Meta-AI AI modell V-jepa 2, amely megérti a fizikai világképünket: xpert.digital

A Meta bemutatja a V-Jepa 2-t: AI rendszer megismeri a fizikai világról szóló előrejelzéseket

A Meta közzéteszi a V-Jepa 2-et: Forradalmi AI világmodell a mesterséges intelligencia jövőjéhez

A V-Jepa 2-rel a Meta egy úttörő AI rendszert mutatott be, amely alapvető megközelítést alkalmaz, mint a hagyományos nagy hangmodellek. Az 1,2 milliárd paraméter erős világmodellt úgy fejlesztették ki, hogy segítse a robotokat és más AI -szereket a fizikai világ megértésében, és megjósolja, hogyan reagál a cselekedeteire.

Mi az a V-Jepa 2, és hogyan különbözik a hangmodellektől?

A V-JEPA 2 a „Video közös beágyazási prediktív architektúra 2” -t jelent, és teljesen más architektúrán alapul, mint a hagyományos hangmodellek. Míg a hangmodellek, mint például a CHATGPT vagy a GPT-4, valószínűségi előrejelzéseket készítenek a szöveges szekvenciákról, a V-JEPA 2 absztrakt reprezentációs helyiségben működik, és a fizikai törvények megértésére összpontosít.

A döntő különbség a tanulási módszerben van: a nyelvi modellek nagy mennyiségű címkézett adatot igényelnek, és a megfigyelt képzésen keresztül tanulnak. A V-Jepa 2 viszont az önmegfigyelésű tanulást és a tudás kinyerését használja a haversá váló videókból, ami jelentősen csökkenti az adatok előkészítésének költségeit. A modell nem a pixel rekonstrukción keresztül tanul, hanem a videotartalom absztrakt ábrázolása révén.

A JEPA architektúra: Tanulás előrejelzéssel

A közös beágyazó prediktív architektúrát (JEPA) Yann Lecun, az AI Metas főnöke fejlesztette ki, és alternatívát képvisel a generációs AI modellek számára. A generatív megközelítésekkel ellentétben, amelyek minden hiányzó pixel rekonstruálását próbálják rekonstruálni, a V-JEPA 2 maszkolt video tölgyekkel működik, és megtanulja megjósolni az absztrakt fogalmakat.

A rendszer kétlépcsős edzési megközelítést alkalmaz:

Első fázis: Önmonitorált tanulás

Edzés több mint egymillió órás videóanyaggal és egymillió képpel
Tanulja meg a fizikai interakciós mintákat emberi kommentár nélkül
A fizikai világ belső modelljének kidolgozása

Második fázis: Akcióval kapcsolatos adaptáció

Finomhangolás mindössze 62 órás robotvezérlő adatokkal a droid adatkészletből
Az ügynöki tevékenységek integrálása a prediktív készségekbe
A tervezés és a zárt vezérlő áramköri vezérlés engedélyezése

Kiváló teljesítmény a gyakorlatban

A V-Jepa 2 lenyűgöző teljesítményt mutat különböző területeken:

Video megértés és mozgás észlelése

77,3% Top 1 Pontos valami v2 adatkészletben
39,7% -os visszahívás az Epic-Knitchens-100 akció előrejelzésére (44% -os javulás a korábbi modellekhez képest)
A legkorszerűbb teljesítmény különböző video kérdésekben válaszadatokban

Robot vezérlés

65-80% -os sikerességi ráta a pick-and-elhelyezkedésű feladatokhoz ismeretlen környezetben
Nulla lövés robotvezérlés környezet-specifikus edzés nélkül
Használjon két különböző laboratóriumban Francia Robot Arms -szal

Hatékonyság a versenyhez képest

A V-Jepa 2 30-szor gyorsabb, mint az NVIDIA Cosmos modellje, és csak 16 másodpercre van szüksége a robot akció megtervezéséhez, míg a Cosmosnak 4 percre van szüksége.

Műszaki innovációk és kulcsfontosságú jellemzők

A modellt öt központi műszaki áttörés jellemzi:

Önmonitorált tanulás: kiküszöböli a nagy mennyiségű jelölt adat szükségességét
Maszkolási mechanizmus: A modellt a rejtett videofelületek előrejelzésével kiképzi
Absztrakt reprezentatív tanulás: összpontosítson a szemantikai jelentésekre a pixel részletek helyett
Világmodell -architektúra: A fizikai törvények belső megértésének létrehozása
Hatékony átadási tanulás: Kiemelkedő nulla lövés tanulási készségek

A jelenlegi AI új referenciaértékek látszólagos korlátai

A Meta három új referenciaértéket adott ki a V-JEPA 2-vel párhuzamosan, amelyek tesztelik az AI rendszerek fizikai megértését:

Intphys 2

Megvizsgálja annak a képességét, hogy megkülönböztesse a fizikailag hihető és lehetetlen forgatókönyveket. Még a fejlett modellek is itt vannak a véletlenszerű szinthez.

MVP -pad

Vizuálisan hasonló videoutókat használ, ellentétes válaszokkal ugyanazon kérdésre. A V-JEPA 2 eléri a 44,5% -os páros pontosságot-az összes tesztelt rendszer legjobb teljesítményét.

CaalVQa

Megvizsgálja az ok -okozati megértést és a gyakorlati gondolkodást. Az eredmények azt mutatják, hogy a jelenlegi AI rendszerek jól leírhatják, amit látnak, de nehezen tudják megjósolni az alternatív kurzusokat.

AI az adatok iránti éhség nélkül: Hogyan teszi a V-JEPA 2 A gépi tanulás hatékonyabbá válik

Yann Lecun látja az AI fejlesztés következő generációjának kulcsait olyan világmodellekben, mint a V-JEPA 2. A modell forradalmasíthatja az alkalmazások különböző területeit:

Robotika és költségvetési asszisztensek

A világmodelleknek állítólag a robotika új korszakát hirdetik, amelyben az AI ügynökök csillagászati mennyiségű képzési adatok nélkül képesek kezelni a valós feladatokat.

Autonóm járművek

A V-JEPA 2 valós idejének térbeli megértése döntő jelentőségű lehet az autonóm járművek, a raktár robotok és a drónszállítási rendszerek számára.

Bővített valóság (AR) és virtuális asszisztensek

A META azt tervezi, hogy kibővíti a V-JEPA 2 funkcióit az AR-elemzés integrálásával, valamint az AR szemüveg és a virtuális asszisztensek videofelvételének kibővítésével.

Nyílt forráskódú rendelkezésre állás és kutatási promóció

A META a CC-BY-NC licenc alatt kiadta a V-JEPA 2-et, mint nyílt forráskódú a globális AI kutatás előmozdítása érdekében. A modellkód elérhető a GitHub -on, és olyan platformon hajtható végre, mint a Google Colab és a Kaggle. Ez a nyitottság ellentétben áll sok más nagy AI modellel, és célja a világmodellek fejlesztésének előmozdítása a robotikában és az AI -ben.

Paradigmaváltás az AI fejlődésben

A V-Jepa 2 alapvető paradigmaváltást jelent a tiszta nyelvfeldolgozásról a fizikai világ mélyebb megértésére. Míg a legtöbb AI vállalat a generatív modellekre támaszkodik, a META a mesterséges intelligencia jövőjének alternatív jövőképét követi a világmodell megközelítésével. Az a képesség, hogy minimális adatokból tanuljon és lehetővé tegye a nulla lövés robotvezérlését, előkészítheti az utat az intelligens rendszerek új generációjához, amelyek nemcsak megértik, hanem a valós világban is működhetnek.

Alkalmas: