
Dla robotów i innych agentów AI: model AI V-Jepa 2 Meta-the Ai, który rozumie nasz fizyczny obraz światowy: xpert.digital
Meta przedstawia V-Jepa 2: System AI uczy się prognoz na temat świata fizycznego
Meta publikuje V-JEPA 2: Rewolucyjny model świata AI dla przyszłości sztucznej inteligencji
Dzięki V-JEPA 2 Meta przedstawił przełomowy system AI, który stosuje fundamentalne podejście niż konwencjonalne modele dużych głosów. Opracowano silny model świata parametrów 1,2 miliarda, aby pomóc robotom i innym agentom AI w zrozumieniu świata fizycznego i przewidywania, jak zareaguje na jego działania.
Co to jest V-Jepa 2 i jak różni się od modeli głosowych?
V-JEPA 2 oznacza „Video Wspólne osadzanie architektury 2” i opiera się na zupełnie innej architekturze niż tradycyjne modele głosowe. Podczas gdy modele głosowe, takie jak CHATGPT lub GPT-4, dokonują probabilistycznych prognoz dotyczących sekwencji tekstowych, V-Jepa 2 działa w abstrakcyjnej sali reprezentacji i koncentruje się na zrozumieniu praw fizycznych.
Decydująca różnica polega na metodzie uczenia się: modele językowe wymagają dużych ilości oznaczonych danych i uczenia się poprzez monitorowane szkolenie. Z drugiej strony V-Jepa 2 wykorzystuje uczenie się i wyodrębnienie wiedzy z niewolnionych filmów, co znacznie zmniejsza koszty przygotowania danych. Model nie uczy się poprzez rekonstrukcję pikseli, ale poprzez abstrakcyjne reprezentacje treści wideo.
Architektura JEPA: uczenie się przez prognozę
Wspólna architektura predykcyjna osadzania (JEPA) została opracowana przez Yanna LeCuna, głównego naukowca AI Metas i stanowi alternatywę dla generatywnych modeli AI. W przeciwieństwie do podejść generatywnych, które próbują zrekonstruować każdy brakujący piksel, V-Jepa 2 współpracuje z maskowanymi dębami wideo i uczy się przewidywać abstrakcyjne koncepcje.
System wykorzystuje podejście szkoleniowe z dwustopowym:
Pierwsza faza: uczenie się samokontroli
- Trening z ponad milionami godzin materiału wideo i milion zdjęć
- Naucz się wzorców interakcji fizycznych bez adnotacji ludzkich
- Opracowanie wewnętrznego modelu świata fizycznego
Druga faza: adaptacja związana z działaniem
- Drobne strojenie z zaledwie 62 godzinami danych kontroli robota z zestawu danych Droid
- Integracja działań agentów z umiejętnościami predykcyjnymi
- Włączanie planowania i kontrolę zamkniętego obwodu kontrolnego
Doskonała wydajność w praktyce
V-Jepa 2 wykazuje imponującą wydajność w różnych obszarach:
Zrozumienie wideo i wykrywanie ruchu
- 77,3% Top 1 Dokładność czegoś czegoś V2 Zestaw danych V2
- 39,7% wycofania-AT-5 dla prognozy działania Epic-Kitchens-100 (44% poprawa w porównaniu z poprzednimi modelami)
- Najnowocześniejszy występ w różnych zadaniach dotyczących pytań wideo
Sterowanie robotem
- 65-80% wskaźnik sukcesu dla zadań typu pick-and-miejsca w nieznanych środowiskach
- Kontrola robota zerowego bez treningu specyficznego dla otoczenia
- Używaj w dwóch różnych laboratoriach z ramionami robota Franka
Wydajność w porównaniu z konkurencją
V-JEPA 2 jest 30 razy szybciej niż model kosmosu Nvidia i potrzebuje tylko 16 sekund, aby zaplanować akcję robota, podczas gdy Cosmos potrzebuje 4 minut.
Innowacje techniczne i kluczowe cechy
Model charakteryzuje się pięcioma centralnymi przełomami technicznymi:
- Self -Monitored Uczenie: eliminuje potrzebę dużych ilości oznaczonych danych
- Mechanizm maskowania: trenuje model, przewidując ukryte obszary wideo
- Streszczenie Reprezentatywne uczenie się: Skoncentruj się na znaczeniach semantycznych zamiast szczegółów pikseli
- Modelowa architektura: ustanowienie wewnętrznego zrozumienia praw fizycznych
- Skuteczne uczenie się transferu: Znakomite umiejętności uczenia się zerowego strzału
Nowe punkty odniesienia pozorne granice obecnej AI
Meta wydała trzy nowe badania równolegle z V-Jepa 2, które testują fizyczne zrozumienie systemów AI:
Intphys 2
Testuje zdolność rozróżniania fizycznie prawdopodobnych i niemożliwych scenariuszy. Nawet zaawansowane modele są tutaj nadal bliskie poziomu losowego.
MVPBENCH
Wizualnie używa podobnych samochodów wideo z przeciwnymi odpowiedziami na to samo pytanie. V-JEPA 2 osiąga 44,5% dokładność sparowanej-najlepszą wydajność wszystkich testowanych systemów.
Przyczynowy
Bada zrozumienie przyczynowe i przeciwne myślenie. Wyniki pokazują, że obecne systemy AI mogą opisać to, co widzą, ale mają trudności z przewidywaniem alternatywnych kursów.
AI bez głodu danych: w jaki sposób uczenie maszynowe V-Jepa 2 sprawia, że jest bardziej wydajna
Yann Lecun widzi klucz do następnej generacji rozwoju sztucznej inteligencji w modelach światowych, takich jak V-Jepa 2. Model może zrewolucjonizować różne obszary zastosowania:
Robotyka i asystenci budżetowi
Modele światowe mają zwiastować nową erę robotyki, w której agenci AI mogą zarządzać prawdziwymi zadaniami bez astronomicznych ilości danych szkoleniowych.
Pojazdy autonomiczne
Zrozumienie przestrzennego w czasie rzeczywistym z V-JEPA 2 może być kluczowe dla pojazdów autonomicznych, robotów magazynowych i systemów dostarczania dronów.
Rozszerzona rzeczywistość (AR) i wirtualni asystenci
Meta planuje rozszerzyć funkcje V-JEPA 2 poprzez zintegrowanie analizy audio i rozszerzone zrozumienie wideo dla okularów AR i wirtualnych asystentów.
Dostępność i promocja badań typu open source
Meta opublikowała V-JEPA 2 na licencji CC-BY-NC jako open source do promowania globalnych badań AI. Kod modelu jest dostępny na GitHub i może być wykonywany na platformach takich jak Google Colab i Kaggle. Ta otwartość jest sprzeczna z wieloma innymi dużymi modelami AI i ma na celu promowanie rozwoju światowych modeli w robotyce i wcielonej sztucznej inteligencji.
Zmiana paradygmatu w rozwoju AI
V-Jepa 2 stanowi fundamentalne przejście paradygmatu z czystego przetwarzania języka na głębsze zrozumienie świata fizycznego. Podczas gdy większość firm AI polega na modelach generatywnych, Meta podąża za alternatywną wizją przyszłości sztucznej inteligencji dzięki swojemu światowej modelowej podejściu. Możliwość uczenia się na podstawie minimalnych danych i umożliwienia kontroli robota zerowego strzału może utorować drogę nowej generacji inteligentnych systemów, które nie tylko rozumieją, ale mogą również działać w prawdziwym świecie.
Nadaje się do:
Twój globalny partner w zakresie marketingu i rozwoju biznesu
☑️Naszym językiem biznesowym jest angielski lub niemiecki
☑️ NOWOŚĆ: Korespondencja w Twoim języku narodowym!
Chętnie będę służyć Tobie i mojemu zespołowi jako osobisty doradca.
Możesz się ze mną skontaktować wypełniając formularz kontaktowy lub po prostu dzwoniąc pod numer +49 89 89 674 804 (Monachium) . Mój adres e-mail to: wolfenstein ∂ xpert.digital
Nie mogę się doczekać naszego wspólnego projektu.