Publikováno: 13. června 2025 / Aktualizováno: 13. června 2025 – Autor: Konrad Wolfenstein

Pro roboty a další agenty s umělou inteligencí: Model umělé inteligence V-JEPA 2 od společnosti Meta – Umělá inteligence, která rozumí našemu fyzickému světu – Obrázek: Xpert.Digital
Meta představuje V-JEPA 2: Systém umělé inteligence se učí předpovídat informace o fyzickém světě
Meta publikuje V-JEPA 2: Revoluční model světa umělé inteligence pro budoucnost
Společnost Meta představila V-JEPA 2, průlomový systém umělé inteligence, který využívá zásadně odlišný přístup než konvenční modely velkého jazyka (Grand Language Models). Tento model světa s 1,2 miliardami parametrů byl vyvinut s cílem pomoci robotům a dalším agentům umělé inteligence porozumět fyzickému světu a předvídat, jak bude reagovat na jejich činy.
Co je V-JEPA 2 a jak se liší od jazykových modelů?
V-JEPA 2 je zkratka pro „Video Joint Embedding Predictive Architecture 2“ (Prediktivní architektura pro vkládání videí 2) a je založena na zcela odlišné architektuře než tradiční jazykové modely. Zatímco jazykové modely jako ChatGPT nebo GPT-4 provádějí pravděpodobnostní předpovědi textových sekvencí, V-JEPA 2 pracuje v abstraktním reprezentačním prostoru a zaměřuje se na pochopení fyzikálních zákonů.
Zásadní rozdíl spočívá v metodě učení: jazykové modely vyžadují velké množství označených dat a učí se prostřednictvím kontrolovaného učení. V-JEPA 2 naproti tomu využívá samoučení a extrahuje znalosti z neoznačených videí, čímž výrazně snižuje náklady na přípravu dat. Model se neučí rekonstrukcí pixelů, ale abstraktními reprezentacemi video obsahu.
Architektura JEPA: Učení prostřednictvím predikce
Architektura JEPA (Joint Embedding Predictive Architecture) byla vyvinuta Yannem LeCunem, hlavním vědcem pro umělou inteligenci ve společnosti Meta, a představuje alternativu ke generativním modelům umělé inteligence. Na rozdíl od generativních přístupů, které se snaží rekonstruovat každý chybějící pixel, V-JEPA 2 pracuje s maskovanými oblastmi videa a učí se predikovat abstraktní koncepty.
Systém používá dvoufázový přístup k tréninku:
První fáze: Samostudium
- Školení s více než milionem hodin videomateriálů a milionem obrázků
- Učení vzorců fyzické interakce bez lidské anotace
- Vývoj interního modelu fyzického světa
Druhá fáze: Adaptace vyvolaná akcí
- Jemné doladění s pouhými 62 hodinami dat o řízení robotů z datové sady DROID
- Integrace akcí agentů do prediktivních schopností
- Umožnění plánování a řízení v uzavřené smyčce
Vynikající výkon v praxi
V-JEPA 2 vykazuje působivý výkon v různých oblastech:
Rozpoznávání videa a detekce pohybu
- 77,3% přesnost v první řadě v datové sadě Something-Something v2
- 39,7% Removal-at-5 v predikci akcí Epic-Kitchens-100 (44% zlepšení oproti předchozím modelům)
- Špičkový výkon v různých videoúkolech typu otázky a odpovědi
Ovládání robota
- 65–80% úspěšnost při úkolech typu „pick-and-place“ v neznámém prostředí
- Řízení robota s nulovým výkonem bez školení specifického pro dané prostředí
- Nasazení robotických ramen Franka ve dvou různých laboratořích
Efektivita ve srovnání s konkurencí
V-JEPA 2 je 30krát rychlejší než model Cosmos od NVIDIA a naplánování akce robota potřebuje pouze 16 sekund, zatímco Cosmos to trvá 4 minuty.
Technické inovace a klíčové vlastnosti
Model se vyznačuje pěti klíčovými technologickými průlomy:
- Samostudium: Eliminuje potřebu velkého množství označených dat
- Mechanismus maskování: Trénuje model predikcí skrytých oblastí videa
- Učení abstraktní reprezentace: Zaměřte se na sémantické významy místo detailů pixelů
- Architektura modelu světa: Budování vnitřního porozumění fyzikálním zákonům
- Efektivní transferové učení: Vynikající schopnosti učení s nulovým počtem pokusů
Nové benchmarky odhalují limity současné umělé inteligence
Souběžně s testem V-JEPA 2 vydala společnost Meta tři nové benchmarky, které testují fyzické chápání systémů umělé inteligence:
IntPhys 2
Testuje schopnost rozlišovat mezi fyzikálně pravděpodobnými a nemožnými scénáři. I pokročilé modely se v tomto ohledu stále chovají blíže k náhodnosti.
MVPBench
Používá vizuálně podobné dvojice videí s protichůdnými odpověďmi na stejnou otázku. V-JEPA 2 dosahuje 44,5% párové přesnosti – nejlepšího výkonu ze všech testovaných systémů.
KauzálníVQA
Studie zkoumá kauzální porozumění a hypotetické uvažování. Výsledky ukazují, že současné systémy umělé inteligence dokáží dobře popsat to, co vidí, ale mají potíže s předpovídáním alternativních výsledků.
Umělá inteligence bez hladu po datech: Jak V-JEPA 2 zefektivňuje strojové učení
Yann LeCun považuje světové modely, jako je V-JEPA 2, za klíč k další generaci vývoje umělé inteligence. Tento model by mohl způsobit revoluci v různých oblastech použití:
Robotika a domácí asistenti
Modely světa mají zahájit novou éru robotiky, v níž budou agenti s umělou inteligencí schopni zvládat úkoly z reálného světa bez astronomického množství trénovacích dat.
Autonomní vozidla
Prostorové chápání v reálném čase pomocí V-JEPA 2 by mohlo být klíčové pro autonomní vozidla, skladové roboty a systémy doručování dronů.
Rozšířená realita (AR) a virtuální asistenti
Společnost Meta plánuje rozšířit funkčnost V-JEPA 2 integrací zvukové analýzy a vylepšených funkcí pro porozumění videu pro AR brýle a virtuální asistenty.
Dostupnost open source a financování výzkumu
Společnost Meta vydala model V-JEPA 2 jako open source pod licencí CC-BY-NC na podporu globálního výzkumu umělé inteligence. Kód modelu je k dispozici na GitHubu a lze jej spustit na platformách, jako jsou Google Colab a Kaggle. Tato otevřenost je v kontrastu s mnoha jinými velkými modely umělé inteligence a má za cíl podpořit vývoj světových modelů v robotice a ztělesněné umělé inteligenci.
Změna paradigmatu ve vývoji umělé inteligence
V-JEPA 2 představuje zásadní paradigmatický posun od čistého zpracování jazyka k hlubšímu porozumění fyzickému světu. Zatímco většina společností zabývajících se umělou inteligencí se spoléhá na generativní modely, Meta sleduje alternativní vizi budoucnosti umělé inteligence se svým přístupem založeným na modelu světa. Schopnost učit se z minimálních dat a umožnit řízení robotů s nulovým potenciálem by mohla připravit cestu pro novou generaci inteligentních systémů, které dokáží nejen rozumět reálnému světu, ale také v něm jednat.
Vhodné pro:
Váš globální partner pro marketing a rozvoj podnikání
☑️ Naším obchodním jazykem je angličtina nebo němčina
☑️ NOVINKA: Korespondence ve vašem národním jazyce!
Rád vám a mému týmu posloužím jako osobní poradce.
Kontaktovat mě můžete vyplněním kontaktního formuláře nebo mi jednoduše zavolejte na číslo +49 89 89 674 804 (Mnichov) . Moje e-mailová adresa je: wolfenstein ∂ xpert.digital
Těším se na náš společný projekt.











