Ikona webové stránky Xpert.Digital

Pro roboty a další agenty AI: Model AI V-Jepa 2 z meta-AI, který chápe náš fyzický svět

Pro roboty a další agenty AI: Model AI V-Jepa 2 z meta-AI, který chápe náš fyzický svět

Pro roboty a další agenty AI: AI Model V-Jepa 2 z meta-AI, který chápe náš fyzický svět: xpert.digitální

Meta představuje V-Jepa 2: Systém AI se učí předpovědi o fyzickém světě

Meta publikuje V-JEPA 2: Revoluční model AI pro budoucnost umělé inteligence

S V-Jepa 2 představila Meta průkopnický systém AI, který sleduje základní přístup než konvenční velké hlasové modely. Byl vyvinut model 1,2 miliardy parametrů Strong World, který pomohl robotům a dalším agentům AI porozumět fyzickému světu a předpovídat, jak bude reagovat na jeho působení.

Co je V-Jepa 2 a jak se liší od hlasových modelů?

V-JEPA 2 je zkratka pro „vkládání videa vložení prediktivní architektury 2“ a je založeno na zcela jiné architektuře než tradiční hlasové modely. Zatímco hlasové modely, jako je chatgpt nebo GPT-4, vytvářejí pravděpodobnostní předpovědi o textových sekvencích, V-Jepa 2 pracuje v abstraktní reprezentační místnosti a zaměřuje se na porozumění fyzickým zákonům.

Rozhodující rozdíl je v metodě učení: jazykové modely vyžadují velké množství označených dat a učení prostřednictvím monitorovaného školení. Na druhé straně V-JEPA 2 používá učení a extrahování znalostí z neoceněných videí, což výrazně snižuje náklady na přípravu dat. Model se nenaučí prostřednictvím rekonstrukce pixelů, ale prostřednictvím abstraktních reprezentací videoobsahu.

Architektura JEPA: učení podle předpovědi

Společné vložení prediktivní architektury (JEPA) vyvinula Yann Lecun, šéf AI Metas, a představuje alternativu k generativním modelům AI. Na rozdíl od generativních přístupů, které se snaží rekonstruovat každý chybějící pixel, V-Jepa 2 pracuje s maskovanými video duby a učí se předpovídat abstraktní koncepty.

Systém používá dvoustupňový tréninkový přístup:

První fáze: Samofinitorované učení

  • Trénink s více než milionem hodin video materiálu a jedním milionem obrázků
  • Naučte se vzorce fyzické interakce bez anotace člověka
  • Vývoj vnitřního modelu fyzického světa

Druhá fáze: Adaptace související s akcí

  • Jemné ladění s pouhými 62 hodinami dat robota ze sady dat droidů
  • Integrace akcí agenta do prediktivních dovedností
  • Povolení plánování a ovládání uzavřeného řídicího obvodu

Vynikající výkon v praxi

V-JEPA 2 ukazuje působivý výkon v různých oblastech:

Porozumění videa a detekce pohybu

  • 77,3% top 1 přesnost v něčem něco datového souboru V2
  • 39,7% Recall-AT-5 pro prognózu akce Epic-Kitchens-100 (44% zlepšení ve srovnání s předchozími modely)
  • Nejmodernější výkon v různých úkolech odpovědí na video otázky

Ovládání robota

  • 65-80% Míra úspěšnosti pro pick-and-place úkoly v neznámých prostředích
  • Ovládání robotů s nulovým výstřelem bez tréninku specifického pro okolí
  • Používejte ve dvou různých laboratořích s robotickými zbraněmi Franky

Účinnost ve srovnání s konkurencí

V-JEPA 2 je 30krát rychlejší než model kosmosu NVIDIA a potřebuje pouze 16 sekund, aby naplánoval robotickou akci, zatímco Cosmos potřebuje 4 minuty.

Technické inovace a klíčové vlastnosti

Model je charakterizován pěti centrálními technickými průlomy:

  1. Samofinitorované učení: eliminuje potřebu velkého množství označených dat
  2. Maskovací mechanismus: Trénuje model předpovídáním skrytých videoremisí
  3. Abstraktní reprezentativní učení: Zaměřte se na sémantické významy místo detailů pixelů
  4. Světový model architektura: Zřízení vnitřního porozumění fyzickým zákonům
  5. Efektivní přenosové učení: Vynikající dovednosti učení

Nové benchmarky zjevné limity současné AI

Meta vydala tři nové benchmarky souběžně s V-Jepa 2, které testují fyzické porozumění systémů AI:

Intphys 2

Testuje schopnost rozlišovat mezi fyzicky věrohodnými a nemožnými scénáři. Dokonce i pokročilé modely jsou zde stále blízké náhodné úrovni.

MVPBench

Vizuálně používá podobné video automobily s protichůdnými odpověďmi na stejnou otázku. V-JEPA 2 dosahuje 44,5% párové přesnosti-nejlepší výkon všech testovaných systémů.

Cautalvqa

Zkoumá kauzální porozumění a protiútokové myšlení. Výsledky ukazují, že současné systémy AI mohou dobře popsat, co vidí, ale mají potíže s předpovídání alternativních kurzů.

AI bez hladu na data: Jak je strojové učení V-JEPA 2 efektivnější

Yann Lecun vidí klíč k další generaci vývoje AI ve světových modelech, jako je V-Jepa 2.. Model by mohl revoluci v různých oblastech aplikace:

Asistenti robotiky a rozpočtu

Světové modely mají ohlašovat novou éru robotiky, ve které mohou agenti AI spravovat skutečné úkoly bez astronomického množství školení.

Autonomní vozidla

Prostorové porozumění v reálném čase od V-Jepa 2 by mohlo být zásadní pro autonomní vozidla, skladové roboty a systémy dodávek dronů.

Rozšířená realita (AR) a virtuální asistenti

Meta plánuje rozšířit funkce V-JEPA 2 integrací zvukové analýzy a rozšířením porozumění videa pro brýle AR a virtuální asistenty.

Dostupnost otevřeného zdroje a propagace výzkumu

Meta vydala V-JEPA 2 v rámci licence CC-BY-NC jako otevřený zdroj pro podporu globálního výzkumu AI. Modelový kód je k dispozici na GitHubu a lze jej provádět na platformách, jako jsou Google Colab a Kaggle. Tato otevřenost je na rozdíl od mnoha jiných velkých modelů AI a má za cíl podpořit vývoj světových modelů v robotice a ztělesněné AI.

Posun paradigmatu ve vývoji AI

V-Jepa 2 představuje zásadní posun paradigmatu od čistého jazykového zpracování k hlubšímu pochopení fyzického světa. Zatímco většina společností AI se spoléhá na generativní modely, Meta se řídí alternativní vizí pro budoucnost umělé inteligence s přístupem světového modelu. Schopnost učit se z minimálních dat a umožnit ovládání robotů s nulovým výstřelem by mohla připravit cestu pro novou generaci inteligentních systémů, které nejen chápou, ale mohou také působit ve skutečném světě.

Vhodné pro:

 

Váš globální partner pro marketing a rozvoj podnikání

☑️ Naším obchodním jazykem je angličtina nebo němčina

☑️ NOVINKA: Korespondence ve vašem národním jazyce!

 

Konrad Wolfenstein

Rád vám a mému týmu posloužím jako osobní poradce.

Kontaktovat mě můžete vyplněním kontaktního formuláře nebo mi jednoduše zavolejte na číslo +49 89 89 674 804 (Mnichov) . Moje e-mailová adresa je: wolfenstein xpert.digital

Těším se na náš společný projekt.

 

 

☑️ Podpora MSP ve strategii, poradenství, plánování a implementaci

☑️ Vytvoření nebo přeladění digitální strategie a digitalizace

☑️ Rozšíření a optimalizace mezinárodních prodejních procesů

☑️ Globální a digitální obchodní platformy B2B

☑️ Pioneer Business Development / Marketing / PR / Veletrhy

Ukončete mobilní verzi