Megjelent: 2025. június 13. / Frissítés: 2025. június 13. - Szerző: Konrad Wolfenstein
Robotok és más AI-ágensek esetében: A Meta-AI AI modell V-jepa 2, amely megérti a fizikai világképünket: xpert.digital
A Meta bemutatja a V-Jepa 2-t: AI rendszer megismeri a fizikai világról szóló előrejelzéseket
A Meta közzéteszi a V-Jepa 2-et: Forradalmi AI világmodell a mesterséges intelligencia jövőjéhez
A V-Jepa 2-rel a Meta egy úttörő AI rendszert mutatott be, amely alapvető megközelítést alkalmaz, mint a hagyományos nagy hangmodellek. Az 1,2 milliárd paraméter erős világmodellt úgy fejlesztették ki, hogy segítse a robotokat és más AI -szereket a fizikai világ megértésében, és megjósolja, hogyan reagál a cselekedeteire.
Mi az a V-Jepa 2, és hogyan különbözik a hangmodellektől?
A V-JEPA 2 a „Video közös beágyazási prediktív architektúra 2” -t jelent, és teljesen más architektúrán alapul, mint a hagyományos hangmodellek. Míg a hangmodellek, mint például a CHATGPT vagy a GPT-4, valószínűségi előrejelzéseket készítenek a szöveges szekvenciákról, a V-JEPA 2 absztrakt reprezentációs helyiségben működik, és a fizikai törvények megértésére összpontosít.
A döntő különbség a tanulási módszerben van: a nyelvi modellek nagy mennyiségű címkézett adatot igényelnek, és a megfigyelt képzésen keresztül tanulnak. A V-Jepa 2 viszont az önmegfigyelésű tanulást és a tudás kinyerését használja a haversá váló videókból, ami jelentősen csökkenti az adatok előkészítésének költségeit. A modell nem a pixel rekonstrukción keresztül tanul, hanem a videotartalom absztrakt ábrázolása révén.
A JEPA architektúra: Tanulás előrejelzéssel
A közös beágyazó prediktív architektúrát (JEPA) Yann Lecun, az AI Metas főnöke fejlesztette ki, és alternatívát képvisel a generációs AI modellek számára. A generatív megközelítésekkel ellentétben, amelyek minden hiányzó pixel rekonstruálását próbálják rekonstruálni, a V-JEPA 2 maszkolt video tölgyekkel működik, és megtanulja megjósolni az absztrakt fogalmakat.
A rendszer kétlépcsős edzési megközelítést alkalmaz:
Első fázis: Önmonitorált tanulás
- Edzés több mint egymillió órás videóanyaggal és egymillió képpel
- Tanulja meg a fizikai interakciós mintákat emberi kommentár nélkül
- A fizikai világ belső modelljének kidolgozása
Második fázis: Akcióval kapcsolatos adaptáció
- Finomhangolás mindössze 62 órás robotvezérlő adatokkal a droid adatkészletből
- Az ügynöki tevékenységek integrálása a prediktív készségekbe
- A tervezés és a zárt vezérlő áramköri vezérlés engedélyezése
Kiváló teljesítmény a gyakorlatban
A V-Jepa 2 lenyűgöző teljesítményt mutat különböző területeken:
Video megértés és mozgás észlelése
- 77,3% Top 1 Pontos valami v2 adatkészletben
- 39,7% -os visszahívás az Epic-Knitchens-100 akció előrejelzésére (44% -os javulás a korábbi modellekhez képest)
- A legkorszerűbb teljesítmény különböző video kérdésekben válaszadatokban
Robot vezérlés
- 65-80% -os sikerességi ráta a pick-and-elhelyezkedésű feladatokhoz ismeretlen környezetben
- Nulla lövés robotvezérlés környezet-specifikus edzés nélkül
- Használjon két különböző laboratóriumban Francia Robot Arms -szal
Hatékonyság a versenyhez képest
A V-Jepa 2 30-szor gyorsabb, mint az NVIDIA Cosmos modellje, és csak 16 másodpercre van szüksége a robot akció megtervezéséhez, míg a Cosmosnak 4 percre van szüksége.
Műszaki innovációk és kulcsfontosságú jellemzők
A modellt öt központi műszaki áttörés jellemzi:
- Önmonitorált tanulás: kiküszöböli a nagy mennyiségű jelölt adat szükségességét
- Maszkolási mechanizmus: A modellt a rejtett videofelületek előrejelzésével kiképzi
- Absztrakt reprezentatív tanulás: összpontosítson a szemantikai jelentésekre a pixel részletek helyett
- Világmodell -architektúra: A fizikai törvények belső megértésének létrehozása
- Hatékony átadási tanulás: Kiemelkedő nulla lövés tanulási készségek
A jelenlegi AI új referenciaértékek látszólagos korlátai
A Meta három új referenciaértéket adott ki a V-JEPA 2-vel párhuzamosan, amelyek tesztelik az AI rendszerek fizikai megértését:
Intphys 2
Megvizsgálja annak a képességét, hogy megkülönböztesse a fizikailag hihető és lehetetlen forgatókönyveket. Még a fejlett modellek is itt vannak a véletlenszerű szinthez.
MVP -pad
Vizuálisan hasonló videoutókat használ, ellentétes válaszokkal ugyanazon kérdésre. A V-JEPA 2 eléri a 44,5% -os páros pontosságot-az összes tesztelt rendszer legjobb teljesítményét.
CaalVQa
Megvizsgálja az ok -okozati megértést és a gyakorlati gondolkodást. Az eredmények azt mutatják, hogy a jelenlegi AI rendszerek jól leírhatják, amit látnak, de nehezen tudják megjósolni az alternatív kurzusokat.
AI az adatok iránti éhség nélkül: Hogyan teszi a V-JEPA 2 A gépi tanulás hatékonyabbá válik
Yann Lecun látja az AI fejlesztés következő generációjának kulcsait olyan világmodellekben, mint a V-JEPA 2. A modell forradalmasíthatja az alkalmazások különböző területeit:
Robotika és költségvetési asszisztensek
A világmodelleknek állítólag a robotika új korszakát hirdetik, amelyben az AI ügynökök csillagászati mennyiségű képzési adatok nélkül képesek kezelni a valós feladatokat.
Autonóm járművek
A V-JEPA 2 valós idejének térbeli megértése döntő jelentőségű lehet az autonóm járművek, a raktár robotok és a drónszállítási rendszerek számára.
Bővített valóság (AR) és virtuális asszisztensek
A META azt tervezi, hogy kibővíti a V-JEPA 2 funkcióit az AR-elemzés integrálásával, valamint az AR szemüveg és a virtuális asszisztensek videofelvételének kibővítésével.
Nyílt forráskódú rendelkezésre állás és kutatási promóció
A META a CC-BY-NC licenc alatt kiadta a V-JEPA 2-et, mint nyílt forráskódú a globális AI kutatás előmozdítása érdekében. A modellkód elérhető a GitHub -on, és olyan platformon hajtható végre, mint a Google Colab és a Kaggle. Ez a nyitottság ellentétben áll sok más nagy AI modellel, és célja a világmodellek fejlesztésének előmozdítása a robotikában és az AI -ben.
Paradigmaváltás az AI fejlődésben
A V-Jepa 2 alapvető paradigmaváltást jelent a tiszta nyelvfeldolgozásról a fizikai világ mélyebb megértésére. Míg a legtöbb AI vállalat a generatív modellekre támaszkodik, a META a mesterséges intelligencia jövőjének alternatív jövőképét követi a világmodell megközelítésével. Az a képesség, hogy minimális adatokból tanuljon és lehetővé tegye a nulla lövés robotvezérlését, előkészítheti az utat az intelligens rendszerek új generációjához, amelyek nemcsak megértik, hanem a valós világban is működhetnek.
Alkalmas:
Az Ön globális marketing- és üzletfejlesztési partnere
☑️ Üzleti nyelvünk angol vagy német
☑️ ÚJ: Levelezés az Ön nemzeti nyelvén!
Szívesen szolgálok Önt és csapatomat személyes tanácsadóként.
Felveheti velem a kapcsolatot az itt található kapcsolatfelvételi űrlap kitöltésével , vagy egyszerűen hívjon a +49 89 89 674 804 (München) . Az e-mail címem: wolfenstein ∂ xpert.digital
Nagyon várom a közös projektünket.