Pro roboty a další agenty AI: Model AI V-Jepa 2 z meta-AI, který chápe náš fyzický svět

Publikováno dne: 13. června 2025 / Aktualizace od: 13. června 2025 - Autor: Konrad Wolfenstein

Pro roboty a další agenty AI: AI Model V-Jepa 2 z meta-AI, který chápe náš fyzický svět: xpert.digitální

Meta představuje V-Jepa 2: Systém AI se učí předpovědi o fyzickém světě

Meta publikuje V-JEPA 2: Revoluční model AI pro budoucnost umělé inteligence

S V-Jepa 2 představila Meta průkopnický systém AI, který sleduje základní přístup než konvenční velké hlasové modely. Byl vyvinut model 1,2 miliardy parametrů Strong World, který pomohl robotům a dalším agentům AI porozumět fyzickému světu a předpovídat, jak bude reagovat na jeho působení.

Co je V-Jepa 2 a jak se liší od hlasových modelů?

V-JEPA 2 je zkratka pro „vkládání videa vložení prediktivní architektury 2“ a je založeno na zcela jiné architektuře než tradiční hlasové modely. Zatímco hlasové modely, jako je chatgpt nebo GPT-4, vytvářejí pravděpodobnostní předpovědi o textových sekvencích, V-Jepa 2 pracuje v abstraktní reprezentační místnosti a zaměřuje se na porozumění fyzickým zákonům.

Rozhodující rozdíl je v metodě učení: jazykové modely vyžadují velké množství označených dat a učení prostřednictvím monitorovaného školení. Na druhé straně V-JEPA 2 používá učení a extrahování znalostí z neoceněných videí, což výrazně snižuje náklady na přípravu dat. Model se nenaučí prostřednictvím rekonstrukce pixelů, ale prostřednictvím abstraktních reprezentací videoobsahu.

Architektura JEPA: učení podle předpovědi

Společné vložení prediktivní architektury (JEPA) vyvinula Yann Lecun, šéf AI Metas, a představuje alternativu k generativním modelům AI. Na rozdíl od generativních přístupů, které se snaží rekonstruovat každý chybějící pixel, V-Jepa 2 pracuje s maskovanými video duby a učí se předpovídat abstraktní koncepty.

Systém používá dvoustupňový tréninkový přístup:

První fáze: Samofinitorované učení

Trénink s více než milionem hodin video materiálu a jedním milionem obrázků
Naučte se vzorce fyzické interakce bez anotace člověka
Vývoj vnitřního modelu fyzického světa

Druhá fáze: Adaptace související s akcí

Jemné ladění s pouhými 62 hodinami dat robota ze sady dat droidů
Integrace akcí agenta do prediktivních dovedností
Povolení plánování a ovládání uzavřeného řídicího obvodu

Vynikající výkon v praxi

V-JEPA 2 ukazuje působivý výkon v různých oblastech:

Porozumění videa a detekce pohybu

77,3% top 1 přesnost v něčem něco datového souboru V2
39,7% Recall-AT-5 pro prognózu akce Epic-Kitchens-100 (44% zlepšení ve srovnání s předchozími modely)
Nejmodernější výkon v různých úkolech odpovědí na video otázky

Ovládání robota

65-80% Míra úspěšnosti pro pick-and-place úkoly v neznámých prostředích
Ovládání robotů s nulovým výstřelem bez tréninku specifického pro okolí
Používejte ve dvou různých laboratořích s robotickými zbraněmi Franky

Účinnost ve srovnání s konkurencí

V-JEPA 2 je 30krát rychlejší než model kosmosu NVIDIA a potřebuje pouze 16 sekund, aby naplánoval robotickou akci, zatímco Cosmos potřebuje 4 minuty.

Technické inovace a klíčové vlastnosti

Model je charakterizován pěti centrálními technickými průlomy:

Samofinitorované učení: eliminuje potřebu velkého množství označených dat
Maskovací mechanismus: Trénuje model předpovídáním skrytých videoremisí
Abstraktní reprezentativní učení: Zaměřte se na sémantické významy místo detailů pixelů
Světový model architektura: Zřízení vnitřního porozumění fyzickým zákonům
Efektivní přenosové učení: Vynikající dovednosti učení

Nové benchmarky zjevné limity současné AI

Meta vydala tři nové benchmarky souběžně s V-Jepa 2, které testují fyzické porozumění systémů AI:

Intphys 2

Testuje schopnost rozlišovat mezi fyzicky věrohodnými a nemožnými scénáři. Dokonce i pokročilé modely jsou zde stále blízké náhodné úrovni.

MVPBench

Vizuálně používá podobné video automobily s protichůdnými odpověďmi na stejnou otázku. V-JEPA 2 dosahuje 44,5% párové přesnosti-nejlepší výkon všech testovaných systémů.

Cautalvqa

Zkoumá kauzální porozumění a protiútokové myšlení. Výsledky ukazují, že současné systémy AI mohou dobře popsat, co vidí, ale mají potíže s předpovídání alternativních kurzů.

AI bez hladu na data: Jak je strojové učení V-JEPA 2 efektivnější

Yann Lecun vidí klíč k další generaci vývoje AI ve světových modelech, jako je V-Jepa 2.. Model by mohl revoluci v různých oblastech aplikace:

Asistenti robotiky a rozpočtu

Světové modely mají ohlašovat novou éru robotiky, ve které mohou agenti AI spravovat skutečné úkoly bez astronomického množství školení.

Autonomní vozidla

Prostorové porozumění v reálném čase od V-Jepa 2 by mohlo být zásadní pro autonomní vozidla, skladové roboty a systémy dodávek dronů.

Rozšířená realita (AR) a virtuální asistenti

Meta plánuje rozšířit funkce V-JEPA 2 integrací zvukové analýzy a rozšířením porozumění videa pro brýle AR a virtuální asistenty.

Dostupnost otevřeného zdroje a propagace výzkumu

Meta vydala V-JEPA 2 v rámci licence CC-BY-NC jako otevřený zdroj pro podporu globálního výzkumu AI. Modelový kód je k dispozici na GitHubu a lze jej provádět na platformách, jako jsou Google Colab a Kaggle. Tato otevřenost je na rozdíl od mnoha jiných velkých modelů AI a má za cíl podpořit vývoj světových modelů v robotice a ztělesněné AI.

Posun paradigmatu ve vývoji AI

V-Jepa 2 představuje zásadní posun paradigmatu od čistého jazykového zpracování k hlubšímu pochopení fyzického světa. Zatímco většina společností AI se spoléhá na generativní modely, Meta se řídí alternativní vizí pro budoucnost umělé inteligence s přístupem světového modelu. Schopnost učit se z minimálních dat a umožnit ovládání robotů s nulovým výstřelem by mohla připravit cestu pro novou generaci inteligentních systémů, které nejen chápou, ale mohou také působit ve skutečném světě.

Vhodné pro: