Ikona strony internetowej Xpert.Cyfrowy

Dla robotów i innych agentów AI: Model AI V-Jepa 2 z Meta-the Ai, który rozumie nasz świat fizyczny

Dla robotów i innych agentów AI: Model AI V-Jepa 2 z Meta-the Ai, który rozumie nasz świat fizyczny

Dla robotów i innych agentów AI: Model AI V-JEPA 2 firmy Meta – sztuczna inteligencja, która rozumie nasz świat fizyczny – Zdjęcie: Xpert.Digital

Meta prezentuje V-JEPA 2: System sztucznej inteligencji uczy się formułować przewidywania dotyczące świata fizycznego

Meta publikuje V-JEPA 2: rewolucyjny model świata AI dla przyszłości sztucznej inteligencji

Firma Meta zaprezentowała V-JEPA 2, przełomowy system sztucznej inteligencji (AI), który stosuje fundamentalnie inne podejście niż konwencjonalne modele języków wielkich (Grand Language Models). Ten model świata, z 1,2 miliarda parametrów, został opracowany, aby pomóc robotom i innym agentom AI zrozumieć świat fizyczny i przewidywać, jak zareaguje on na ich działania.

Czym jest V-JEPA 2 i czym różni się od modeli językowych?

V-JEPA 2 to skrót od „Video Joint Embedding Predictive Architecture 2” i opiera się na zupełnie innej architekturze niż tradycyjne modele językowe. Podczas gdy modele językowe, takie jak ChatGPT czy GPT-4, formułują probabilistyczne przewidywania dotyczące sekwencji tekstowych, V-JEPA 2 działa w abstrakcyjnej przestrzeni reprezentacyjnej i koncentruje się na zrozumieniu praw fizyki.

Kluczowa różnica tkwi w metodzie uczenia się: modele językowe wymagają dużych ilości danych z etykietami i uczą się poprzez trening nadzorowany. Z kolei V-JEPA 2 wykorzystuje uczenie samonadzorowane i wyodrębnia wiedzę z nieoznakowanych filmów, co znacznie obniża koszty przygotowania danych. Model uczy się nie poprzez rekonstrukcję pikseli, lecz poprzez abstrakcyjne reprezentacje treści wideo.

Architektura JEPA: uczenie się poprzez przewidywanie

Architektura predykcyjna Joint Embedding Predictive Architecture (JEPA) została opracowana przez Yanna LeCuna, głównego naukowca ds. sztucznej inteligencji w Meta i stanowi alternatywę dla generatywnych modeli sztucznej inteligencji. W przeciwieństwie do podejść generatywnych, które próbują odtworzyć każdy brakujący piksel, V-JEPA 2 działa na zamaskowanych obszarach wideo i uczy się przewidywać abstrakcyjne koncepcje.

System wykorzystuje dwuetapowe podejście szkoleniowe:

Pierwsza faza: uczenie się pod nadzorem własnym

  • Szkolenie z ponad milionem godzin materiału wideo i milionem obrazów
  • Uczenie się wzorców interakcji fizycznych bez adnotacji ludzkich
  • Opracowanie wewnętrznego modelu świata fizycznego

Druga faza: Adaptacja wywołana działaniem

  • Dokładne dostrojenie przy użyciu zaledwie 62 godzin danych dotyczących sterowania robotem z zestawu danych DROID
  • Integracja działań agentów z możliwościami predykcyjnymi
  • Umożliwianie planowania i kontroli w obiegu zamkniętym

Wyższa wydajność w praktyce

V-JEPA 2 wykazuje imponujące osiągi w różnych obszarach:

Rozumienie wideo i wykrywanie ruchu

  • 77,3% Najlepsza dokładność w zestawie danych Something-Something v2
  • 39,7% wskaźnika „wspomnienia na poziomie 5” w prognozie działania Epic-Kitchens-100 (44% poprawa w porównaniu z poprzednimi modelami)
  • Najnowocześniejsza wydajność w różnorodnych zadaniach wideo z pytaniami i odpowiedziami

Sterowanie robotem

  • 65-80% skuteczności w zadaniach typu „podnieś i umieść” w nieznanym otoczeniu
  • Sterowanie robotem bezstratnym bez konieczności szkolenia w zakresie specyficznych warunków środowiskowych
  • Wdrożenie w dwóch różnych laboratoriach z wykorzystaniem ramion robota Franka

Wydajność w porównaniu z konkurencją

V-JEPA 2 jest 30 razy szybszy od modelu Cosmos firmy NVIDIA i potrzebuje zaledwie 16 sekund na zaplanowanie akcji robota, podczas gdy Cosmos potrzebuje na to 4 minuty.

Innowacje techniczne i kluczowe cechy

Model ten charakteryzuje się pięcioma kluczowymi przełomami technologicznymi:

  1. Uczenie się pod nadzorem: eliminuje potrzebę posiadania dużej ilości oznaczonych danych.
  2. Mechanizm maskowania: trenuje model, przewidując ukryte obszary wideo
  3. Nauka abstrakcyjnej reprezentacji: Skupienie się na znaczeniach semantycznych zamiast na szczegółach pikseli
  4. Architektura modelu świata: budowanie wewnętrznego zrozumienia praw fizyki
  5. Efektywne uczenie transferowe: Wyjątkowe zdolności uczenia się bezbłędnego

Nowe testy porównawcze ujawniają ograniczenia obecnej sztucznej inteligencji

Równolegle z V-JEPA 2 firma Meta opublikowała trzy nowe testy porównawcze testujące fizyczne rozumienie systemów AI:

IntPhys 2

Testuje zdolność rozróżniania scenariuszy fizycznie prawdopodobnych od niemożliwych. Nawet zaawansowane modele wciąż osiągają w tym zakresie wyniki bliskie losowości.

MVPBench

Wykorzystuje wizualnie podobne pary wideo z przeciwstawnymi odpowiedziami na to samo pytanie. V-JEPA 2 osiąga 44,5% dokładności parowania – najlepszy wynik spośród wszystkich przetestowanych systemów.

PrzyczynowyVQA

Badanie analizuje rozumienie przyczyn i wnioskowanie kontrfaktyczne. Wyniki pokazują, że obecne systemy sztucznej inteligencji potrafią dobrze opisywać to, co widzą, ale mają trudności z przewidywaniem alternatywnych rezultatów.

Sztuczna inteligencja bez głodu danych: w jaki sposób V-JEPA 2 zwiększa wydajność uczenia maszynowego

Yann LeCun uważa, że ​​modele świata takie jak V-JEPA 2 są kluczem do rozwoju sztucznej inteligencji nowej generacji. Model ten może zrewolucjonizować różne obszary zastosowań:

Robotyka i pomoc domowa

Modele świata mają zapoczątkować nową erę robotyki, w której agenci AI będą w stanie wykonywać zadania ze świata rzeczywistego bez konieczności wykorzystywania astronomicznych ilości danych szkoleniowych.

Pojazdy autonomiczne

Zdolność V-JEPA 2 do rozumienia przestrzeni w czasie rzeczywistym może okazać się kluczowa dla pojazdów autonomicznych, robotów magazynowych i systemów dostaw za pomocą dronów.

Rzeczywistość rozszerzona (AR) i asystenci wirtualni

Meta planuje rozszerzyć funkcjonalność V-JEPA 2 poprzez integrację analizy dźwięku i ulepszone możliwości rozumienia wideo dla okularów AR i asystentów wirtualnych.

Dostępność oprogramowania typu open source i finansowanie badań

Firma Meta udostępniła V-JEPA 2 jako oprogramowanie open source na licencji CC-BY-NC, aby promować globalne badania nad sztuczną inteligencją. Kod modelu jest dostępny na GitHubie i może być uruchamiany na platformach takich jak Google Colab i Kaggle. Ta otwartość kontrastuje z wieloma innymi dużymi modelami sztucznej inteligencji i ma na celu przyspieszenie rozwoju modeli świata w robotyce i ucieleśnionej sztucznej inteligencji.

Zmiana paradygmatu w rozwoju sztucznej inteligencji

V-JEPA 2 reprezentuje fundamentalną zmianę paradygmatu od czystego przetwarzania języka do głębszego zrozumienia świata fizycznego. Podczas gdy większość firm zajmujących się sztuczną inteligencją opiera się na modelach generatywnych, Meta realizuje alternatywną wizję przyszłości sztucznej inteligencji, stosując podejście oparte na modelu świata. Możliwość uczenia się na podstawie minimalnej ilości danych i umożliwienie bezbłędnego sterowania robotem może utorować drogę dla nowej generacji inteligentnych systemów, które nie tylko rozumieją, ale także działają w realnym świecie.

Nadaje się do:

 

Twój globalny partner w zakresie marketingu i rozwoju biznesu

☑️Naszym językiem biznesowym jest angielski lub niemiecki

☑️ NOWOŚĆ: Korespondencja w Twoim języku narodowym!

 

Konrad Wolfenstein

Chętnie będę służyć Tobie i mojemu zespołowi jako osobisty doradca.

Możesz się ze mną skontaktować wypełniając formularz kontaktowy lub po prostu dzwoniąc pod numer +49 89 89 674 804 (Monachium) . Mój adres e-mail to: wolfenstein xpert.digital

Nie mogę się doczekać naszego wspólnego projektu.

 

 

☑️ Wsparcie MŚP w zakresie strategii, doradztwa, planowania i wdrażania

☑️ Stworzenie lub dostosowanie strategii cyfrowej i cyfryzacji

☑️Rozbudowa i optymalizacja procesów sprzedaży międzynarodowej

☑️ Globalne i cyfrowe platformy handlowe B2B

☑️ Pionierski rozwój biznesu / marketing / PR / targi

Wyjdź z wersji mobilnej