Publikováno dne: 13. června 2025 / Aktualizace od: 13. června 2025 - Autor: Konrad Wolfenstein
Pro roboty a další agenty AI: AI Model V-Jepa 2 z meta-AI, který chápe náš fyzický svět: xpert.digitální
Meta představuje V-Jepa 2: Systém AI se učí předpovědi o fyzickém světě
Meta publikuje V-JEPA 2: Revoluční model AI pro budoucnost umělé inteligence
S V-Jepa 2 představila Meta průkopnický systém AI, který sleduje základní přístup než konvenční velké hlasové modely. Byl vyvinut model 1,2 miliardy parametrů Strong World, který pomohl robotům a dalším agentům AI porozumět fyzickému světu a předpovídat, jak bude reagovat na jeho působení.
Co je V-Jepa 2 a jak se liší od hlasových modelů?
V-JEPA 2 je zkratka pro „vkládání videa vložení prediktivní architektury 2“ a je založeno na zcela jiné architektuře než tradiční hlasové modely. Zatímco hlasové modely, jako je chatgpt nebo GPT-4, vytvářejí pravděpodobnostní předpovědi o textových sekvencích, V-Jepa 2 pracuje v abstraktní reprezentační místnosti a zaměřuje se na porozumění fyzickým zákonům.
Rozhodující rozdíl je v metodě učení: jazykové modely vyžadují velké množství označených dat a učení prostřednictvím monitorovaného školení. Na druhé straně V-JEPA 2 používá učení a extrahování znalostí z neoceněných videí, což výrazně snižuje náklady na přípravu dat. Model se nenaučí prostřednictvím rekonstrukce pixelů, ale prostřednictvím abstraktních reprezentací videoobsahu.
Architektura JEPA: učení podle předpovědi
Společné vložení prediktivní architektury (JEPA) vyvinula Yann Lecun, šéf AI Metas, a představuje alternativu k generativním modelům AI. Na rozdíl od generativních přístupů, které se snaží rekonstruovat každý chybějící pixel, V-Jepa 2 pracuje s maskovanými video duby a učí se předpovídat abstraktní koncepty.
Systém používá dvoustupňový tréninkový přístup:
První fáze: Samofinitorované učení
- Trénink s více než milionem hodin video materiálu a jedním milionem obrázků
- Naučte se vzorce fyzické interakce bez anotace člověka
- Vývoj vnitřního modelu fyzického světa
Druhá fáze: Adaptace související s akcí
- Jemné ladění s pouhými 62 hodinami dat robota ze sady dat droidů
- Integrace akcí agenta do prediktivních dovedností
- Povolení plánování a ovládání uzavřeného řídicího obvodu
Vynikající výkon v praxi
V-JEPA 2 ukazuje působivý výkon v různých oblastech:
Porozumění videa a detekce pohybu
- 77,3% top 1 přesnost v něčem něco datového souboru V2
- 39,7% Recall-AT-5 pro prognózu akce Epic-Kitchens-100 (44% zlepšení ve srovnání s předchozími modely)
- Nejmodernější výkon v různých úkolech odpovědí na video otázky
Ovládání robota
- 65-80% Míra úspěšnosti pro pick-and-place úkoly v neznámých prostředích
- Ovládání robotů s nulovým výstřelem bez tréninku specifického pro okolí
- Používejte ve dvou různých laboratořích s robotickými zbraněmi Franky
Účinnost ve srovnání s konkurencí
V-JEPA 2 je 30krát rychlejší než model kosmosu NVIDIA a potřebuje pouze 16 sekund, aby naplánoval robotickou akci, zatímco Cosmos potřebuje 4 minuty.
Technické inovace a klíčové vlastnosti
Model je charakterizován pěti centrálními technickými průlomy:
- Samofinitorované učení: eliminuje potřebu velkého množství označených dat
- Maskovací mechanismus: Trénuje model předpovídáním skrytých videoremisí
- Abstraktní reprezentativní učení: Zaměřte se na sémantické významy místo detailů pixelů
- Světový model architektura: Zřízení vnitřního porozumění fyzickým zákonům
- Efektivní přenosové učení: Vynikající dovednosti učení
Nové benchmarky zjevné limity současné AI
Meta vydala tři nové benchmarky souběžně s V-Jepa 2, které testují fyzické porozumění systémů AI:
Intphys 2
Testuje schopnost rozlišovat mezi fyzicky věrohodnými a nemožnými scénáři. Dokonce i pokročilé modely jsou zde stále blízké náhodné úrovni.
MVPBench
Vizuálně používá podobné video automobily s protichůdnými odpověďmi na stejnou otázku. V-JEPA 2 dosahuje 44,5% párové přesnosti-nejlepší výkon všech testovaných systémů.
Cautalvqa
Zkoumá kauzální porozumění a protiútokové myšlení. Výsledky ukazují, že současné systémy AI mohou dobře popsat, co vidí, ale mají potíže s předpovídání alternativních kurzů.
AI bez hladu na data: Jak je strojové učení V-JEPA 2 efektivnější
Yann Lecun vidí klíč k další generaci vývoje AI ve světových modelech, jako je V-Jepa 2.. Model by mohl revoluci v různých oblastech aplikace:
Asistenti robotiky a rozpočtu
Světové modely mají ohlašovat novou éru robotiky, ve které mohou agenti AI spravovat skutečné úkoly bez astronomického množství školení.
Autonomní vozidla
Prostorové porozumění v reálném čase od V-Jepa 2 by mohlo být zásadní pro autonomní vozidla, skladové roboty a systémy dodávek dronů.
Rozšířená realita (AR) a virtuální asistenti
Meta plánuje rozšířit funkce V-JEPA 2 integrací zvukové analýzy a rozšířením porozumění videa pro brýle AR a virtuální asistenty.
Dostupnost otevřeného zdroje a propagace výzkumu
Meta vydala V-JEPA 2 v rámci licence CC-BY-NC jako otevřený zdroj pro podporu globálního výzkumu AI. Modelový kód je k dispozici na GitHubu a lze jej provádět na platformách, jako jsou Google Colab a Kaggle. Tato otevřenost je na rozdíl od mnoha jiných velkých modelů AI a má za cíl podpořit vývoj světových modelů v robotice a ztělesněné AI.
Posun paradigmatu ve vývoji AI
V-Jepa 2 představuje zásadní posun paradigmatu od čistého jazykového zpracování k hlubšímu pochopení fyzického světa. Zatímco většina společností AI se spoléhá na generativní modely, Meta se řídí alternativní vizí pro budoucnost umělé inteligence s přístupem světového modelu. Schopnost učit se z minimálních dat a umožnit ovládání robotů s nulovým výstřelem by mohla připravit cestu pro novou generaci inteligentních systémů, které nejen chápou, ale mohou také působit ve skutečném světě.
Vhodné pro:
Váš globální partner pro marketing a rozvoj podnikání
☑️ Naším obchodním jazykem je angličtina nebo němčina
☑️ NOVINKA: Korespondence ve vašem národním jazyce!
Rád vám a mému týmu posloužím jako osobní poradce.
Kontaktovat mě můžete vyplněním kontaktního formuláře nebo mi jednoduše zavolejte na číslo +49 89 89 674 804 (Mnichov) . Moje e-mailová adresa je: wolfenstein ∂ xpert.digital
Těším se na náš společný projekt.