Pro roboty a další agenty s umělou inteligencí: Model umělé inteligence V-JEPA 2 od společnosti Meta – umělá inteligence, která rozumí našemu fyzickému světu

Publikováno: 13. června 2025 / Aktualizováno: 13. června 2025 – Autor: Konrad Wolfenstein

Pro roboty a další agenty s umělou inteligencí: Model umělé inteligence V-JEPA 2 od společnosti Meta – Umělá inteligence, která rozumí našemu fyzickému světu – Obrázek: Xpert.Digital

Meta představuje V-JEPA 2: Systém umělé inteligence se učí předpovídat informace o fyzickém světě

Meta publikuje V-JEPA 2: Revoluční model světa umělé inteligence pro budoucnost

Společnost Meta představila V-JEPA 2, průlomový systém umělé inteligence, který využívá zásadně odlišný přístup než konvenční modely velkého jazyka (Grand Language Models). Tento model světa s 1,2 miliardami parametrů byl vyvinut s cílem pomoci robotům a dalším agentům umělé inteligence porozumět fyzickému světu a předvídat, jak bude reagovat na jejich činy.

Co je V-JEPA 2 a jak se liší od jazykových modelů?

V-JEPA 2 je zkratka pro „Video Joint Embedding Predictive Architecture 2“ (Prediktivní architektura pro vkládání videí 2) a je založena na zcela odlišné architektuře než tradiční jazykové modely. Zatímco jazykové modely jako ChatGPT nebo GPT-4 provádějí pravděpodobnostní předpovědi textových sekvencí, V-JEPA 2 pracuje v abstraktním reprezentačním prostoru a zaměřuje se na pochopení fyzikálních zákonů.

Zásadní rozdíl spočívá v metodě učení: jazykové modely vyžadují velké množství označených dat a učí se prostřednictvím kontrolovaného učení. V-JEPA 2 naproti tomu využívá samoučení a extrahuje znalosti z neoznačených videí, čímž výrazně snižuje náklady na přípravu dat. Model se neučí rekonstrukcí pixelů, ale abstraktními reprezentacemi video obsahu.

Architektura JEPA: Učení prostřednictvím predikce

Architektura JEPA (Joint Embedding Predictive Architecture) byla vyvinuta Yannem LeCunem, hlavním vědcem pro umělou inteligenci ve společnosti Meta, a představuje alternativu ke generativním modelům umělé inteligence. Na rozdíl od generativních přístupů, které se snaží rekonstruovat každý chybějící pixel, V-JEPA 2 pracuje s maskovanými oblastmi videa a učí se predikovat abstraktní koncepty.

Systém používá dvoufázový přístup k tréninku:

První fáze: Samostudium

Školení s více než milionem hodin videomateriálů a milionem obrázků
Učení vzorců fyzické interakce bez lidské anotace
Vývoj interního modelu fyzického světa

Druhá fáze: Adaptace vyvolaná akcí

Jemné doladění s pouhými 62 hodinami dat o řízení robotů z datové sady DROID
Integrace akcí agentů do prediktivních schopností
Umožnění plánování a řízení v uzavřené smyčce

Vynikající výkon v praxi

V-JEPA 2 vykazuje působivý výkon v různých oblastech:

Rozpoznávání videa a detekce pohybu

77,3% přesnost v první řadě v datové sadě Something-Something v2
39,7% Removal-at-5 v predikci akcí Epic-Kitchens-100 (44% zlepšení oproti předchozím modelům)
Špičkový výkon v různých videoúkolech typu otázky a odpovědi

Ovládání robota

65–80% úspěšnost při úkolech typu „pick-and-place“ v neznámém prostředí
Řízení robota s nulovým výkonem bez školení specifického pro dané prostředí
Nasazení robotických ramen Franka ve dvou různých laboratořích

Efektivita ve srovnání s konkurencí

V-JEPA 2 je 30krát rychlejší než model Cosmos od NVIDIA a naplánování akce robota potřebuje pouze 16 sekund, zatímco Cosmos to trvá 4 minuty.

Technické inovace a klíčové vlastnosti

Model se vyznačuje pěti klíčovými technologickými průlomy:

Samostudium: Eliminuje potřebu velkého množství označených dat
Mechanismus maskování: Trénuje model predikcí skrytých oblastí videa
Učení abstraktní reprezentace: Zaměřte se na sémantické významy místo detailů pixelů
Architektura modelu světa: Budování vnitřního porozumění fyzikálním zákonům
Efektivní transferové učení: Vynikající schopnosti učení s nulovým počtem pokusů

Nové benchmarky odhalují limity současné umělé inteligence

Souběžně s testem V-JEPA 2 vydala společnost Meta tři nové benchmarky, které testují fyzické chápání systémů umělé inteligence:

IntPhys 2

Testuje schopnost rozlišovat mezi fyzikálně pravděpodobnými a nemožnými scénáři. I pokročilé modely se v tomto ohledu stále chovají blíže k náhodnosti.

MVPBench

Používá vizuálně podobné dvojice videí s protichůdnými odpověďmi na stejnou otázku. V-JEPA 2 dosahuje 44,5% párové přesnosti – nejlepšího výkonu ze všech testovaných systémů.

KauzálníVQA

Studie zkoumá kauzální porozumění a hypotetické uvažování. Výsledky ukazují, že současné systémy umělé inteligence dokáží dobře popsat to, co vidí, ale mají potíže s předpovídáním alternativních výsledků.

Umělá inteligence bez hladu po datech: Jak V-JEPA 2 zefektivňuje strojové učení

Yann LeCun považuje světové modely, jako je V-JEPA 2, za klíč k další generaci vývoje umělé inteligence. Tento model by mohl způsobit revoluci v různých oblastech použití:

Robotika a domácí asistenti

Modely světa mají zahájit novou éru robotiky, v níž budou agenti s umělou inteligencí schopni zvládat úkoly z reálného světa bez astronomického množství trénovacích dat.

Autonomní vozidla

Prostorové chápání v reálném čase pomocí V-JEPA 2 by mohlo být klíčové pro autonomní vozidla, skladové roboty a systémy doručování dronů.

Rozšířená realita (AR) a virtuální asistenti

Společnost Meta plánuje rozšířit funkčnost V-JEPA 2 integrací zvukové analýzy a vylepšených funkcí pro porozumění videu pro AR brýle a virtuální asistenty.

Dostupnost open source a financování výzkumu

Společnost Meta vydala model V-JEPA 2 jako open source pod licencí CC-BY-NC na podporu globálního výzkumu umělé inteligence. Kód modelu je k dispozici na GitHubu a lze jej spustit na platformách, jako jsou Google Colab a Kaggle. Tato otevřenost je v kontrastu s mnoha jinými velkými modely umělé inteligence a má za cíl podpořit vývoj světových modelů v robotice a ztělesněné umělé inteligenci.

Změna paradigmatu ve vývoji umělé inteligence

V-JEPA 2 představuje zásadní paradigmatický posun od čistého zpracování jazyka k hlubšímu porozumění fyzickému světu. Zatímco většina společností zabývajících se umělou inteligencí se spoléhá na generativní modely, Meta sleduje alternativní vizi budoucnosti umělé inteligence se svým přístupem založeným na modelu světa. Schopnost učit se z minimálních dat a umožnit řízení robotů s nulovým potenciálem by mohla připravit cestu pro novou generaci inteligentních systémů, které dokáží nejen rozumět reálnému světu, ale také v něm jednat.

Vhodné pro: