Per robot e altri agenti di intelligenza artificiale: il modello di intelligenza artificiale V-JEPA 2 di Meta: l'intelligenza artificiale che comprende il nostro mondo fisico

Konrad Wolfenstein

12 mesi fa

Per robot e altri agenti di intelligenza artificiale: il modello di intelligenza artificiale V-JEPA 2 di Meta – L’intelligenza artificiale che comprende il nostro mondo fisico – Immagine: Xpert.Digital

Meta presenta V-JEPA 2: il sistema di intelligenza artificiale impara a fare previsioni sul mondo fisico

Meta pubblica V-JEPA 2: un modello mondiale di intelligenza artificiale rivoluzionario per il futuro dell'intelligenza artificiale

Meta ha presentato V-JEPA 2, un sistema di intelligenza artificiale rivoluzionario che adotta un approccio fondamentalmente diverso rispetto ai tradizionali modelli di linguaggio generale. Questo modello globale, con i suoi 1,2 miliardi di parametri, è stato sviluppato per aiutare robot e altri agenti di intelligenza artificiale a comprendere il mondo fisico e a prevedere come reagirà alle loro azioni.

Che cos'è V-JEPA 2 e in che cosa differisce dai modelli linguistici?

V-JEPA 2 è l'acronimo di "Video Joint Embedding Predictive Architecture 2" e si basa su un'architettura completamente diversa rispetto ai modelli linguistici tradizionali. Mentre modelli linguistici come ChatGPT o GPT-4 effettuano previsioni probabilistiche sulle sequenze di testo, V-JEPA 2 opera in uno spazio rappresentazionale astratto e si concentra sulla comprensione delle leggi fisiche.

La differenza cruciale risiede nel metodo di apprendimento: i modelli linguistici richiedono grandi quantità di dati etichettati e apprendono tramite addestramento supervisionato. V-JEPA 2, invece, utilizza l'apprendimento autosupervisionato ed estrae conoscenza da video non etichettati, riducendo così significativamente i costi di preparazione dei dati. Il modello apprende non attraverso la ricostruzione dei pixel, ma attraverso rappresentazioni astratte del contenuto video.

L'architettura JEPA: apprendimento attraverso la previsione

La Joint Embedding Predictive Architecture (JEPA) è stata sviluppata da Yann LeCun, Chief AI Scientist di Meta, e rappresenta un'alternativa ai modelli di intelligenza artificiale generativa. A differenza degli approcci generativi, che tentano di ricostruire ogni pixel mancante, V-JEPA 2 lavora con regioni video mascherate e impara a predire concetti astratti.

Il sistema utilizza un approccio formativo in due fasi:

Prima fase: apprendimento auto-supervisionato

Formazione con oltre un milione di ore di materiale video e un milione di immagini
Apprendimento di modelli di interazione fisica senza annotazione umana
Sviluppo di un modello interno del mondo fisico

Seconda fase: adattamento indotto dall'azione

Ottimizzazione con solo 62 ore di dati di controllo del robot dal set di dati DROID
Integrazione delle azioni degli agenti nelle capacità predittive
Abilitazione della pianificazione e del controllo a ciclo chiuso

Prestazioni superiori nella pratica

V-JEPA 2 dimostra prestazioni impressionanti in vari ambiti:

Comprensione video e rilevamento del movimento

Precisione Top 1 del 77,3% nel set di dati Something-Something v2
Previsione dell'azione Recall-at-5 del 39,7% in Epic-Kitchens-100 (miglioramento del 44% rispetto ai modelli precedenti)
Prestazioni all'avanguardia in vari compiti di domande e risposte video

Controllo del robot

Tasso di successo del 65-80% nelle attività di pick-and-place in ambienti non familiari
Controllo robot a colpo zero senza formazione specifica per l'ambiente
Impiego in due laboratori diversi con bracci robotici Franka

Efficienza rispetto alla concorrenza

V-JEPA 2 è 30 volte più veloce del modello Cosmos di NVIDIA e impiega solo 16 secondi per pianificare un'azione robotica, mentre Cosmos impiega 4 minuti.

Innovazioni tecniche e caratteristiche principali

Il modello è caratterizzato da cinque innovazioni tecnologiche chiave:

Apprendimento autosupervisionato: elimina la necessità di grandi quantità di dati etichettati
Meccanismo di mascheramento: addestra il modello prevedendo le aree video nascoste
Apprendimento della rappresentazione astratta: concentrarsi sui significati semantici anziché sui dettagli dei pixel
Architettura del modello mondiale: costruire una comprensione interna delle leggi fisiche
Apprendimento efficiente tramite trasferimento: eccezionali capacità di apprendimento zero-shot

Nuovi benchmark rivelano i limiti dell'IA attuale

Parallelamente a V-JEPA 2, Meta ha rilasciato tre nuovi benchmark che testano la comprensione fisica dei sistemi di intelligenza artificiale:

IntPhys 2

Mette alla prova la capacità di distinguere tra scenari fisicamente plausibili e impossibili. Anche i modelli più avanzati si avvicinano ancora alla casualità in questo senso.

MVPBench

Utilizza coppie di video visivamente simili con risposte opposte alla stessa domanda. V-JEPA 2 raggiunge il 44,5% di precisione in coppia, la migliore prestazione tra tutti i sistemi testati.

CausalVQA

Lo studio esamina la comprensione causale e il ragionamento controfattuale. I risultati mostrano che gli attuali sistemi di intelligenza artificiale riescono a descrivere bene ciò che vedono, ma hanno difficoltà a prevedere esiti alternativi.

Intelligenza artificiale senza fame di dati: come V-JEPA 2 rende l'apprendimento automatico più efficiente

Yann LeCun vede modelli globali come V-JEPA 2 come la chiave per lo sviluppo dell'intelligenza artificiale di prossima generazione. Il modello potrebbe rivoluzionare diversi ambiti applicativi:

Robotica e assistenti domestici

I modelli mondiali sono pensati per inaugurare una nuova era della robotica, in cui gli agenti di intelligenza artificiale saranno in grado di gestire compiti del mondo reale senza dover disporre di enormi quantità di dati di addestramento.

Veicoli autonomi

La comprensione spaziale in tempo reale di V-JEPA 2 potrebbe rivelarsi fondamentale per veicoli autonomi, robot da magazzino e sistemi di consegna tramite droni.

Realtà aumentata (AR) e assistenti virtuali

Meta prevede di ampliare le funzionalità di V-JEPA 2 integrando analisi audio e capacità di comprensione video avanzate per occhiali AR e assistenti virtuali.

Disponibilità open source e finanziamenti per la ricerca

Meta ha rilasciato V-JEPA 2 come open source con licenza CC-BY-NC per promuovere la ricerca globale sull'intelligenza artificiale. Il codice del modello è disponibile su GitHub e può essere eseguito su piattaforme come Google Colab e Kaggle. Questa apertura è in contrasto con molti altri grandi modelli di intelligenza artificiale e mira a promuovere lo sviluppo di modelli globali nella robotica e nell'intelligenza artificiale incarnata.

Un cambio di paradigma nello sviluppo dell’intelligenza artificiale

V-JEPA 2 rappresenta un cambiamento di paradigma fondamentale, passando dalla pura elaborazione del linguaggio a una comprensione più profonda del mondo fisico. Mentre la maggior parte delle aziende di intelligenza artificiale si affida a modelli generativi, Meta persegue una visione alternativa per il futuro dell'intelligenza artificiale con il suo approccio basato sul modello del mondo. La capacità di apprendere da dati minimi e di abilitare il controllo robotico "zero-shot" potrebbe aprire la strada a una nuova generazione di sistemi intelligenti in grado non solo di comprendere, ma anche di agire nel mondo reale.

Correlato a questo:

Il tuo partner globale per il marketing e lo sviluppo aziendale

☑️ La nostra lingua aziendale è l'inglese o il tedesco

☑️ NOVITÀ: Corrispondenza nella tua lingua madre!

Konrad Wolfenstein

Io e il mio team saremo lieti di essere a tua disposizione come tuo consulente personale.

Puoi contattarmi compilando il modulo di contatto qui wolfenstein@xpert.digital:o semplicemente chiamandomi al numero +49 7348 4088 965. Il mio indirizzo email è

Non vedo l'ora di iniziare il nostro progetto comune.

Per robot e altri agenti di intelligenza artificiale: il modello di intelligenza artificiale V-JEPA 2 di Meta: l'intelligenza artificiale che comprende il nostro mondo fisico

Meta presenta V-JEPA 2: il sistema di intelligenza artificiale impara a fare previsioni sul mondo fisico

Meta pubblica V-JEPA 2: un modello mondiale di intelligenza artificiale rivoluzionario per il futuro dell'intelligenza artificiale

Che cos'è V-JEPA 2 e in che cosa differisce dai modelli linguistici?