
Per robot e altri agenti di intelligenza artificiale: il modello di intelligenza artificiale V-JEPA 2 di Meta – L’intelligenza artificiale che comprende il nostro mondo fisico – Immagine: Xpert.Digital
Meta presenta V-JEPA 2: il sistema di intelligenza artificiale impara a fare previsioni sul mondo fisico
Meta pubblica V-JEPA 2: un modello mondiale di intelligenza artificiale rivoluzionario per il futuro dell'intelligenza artificiale
Meta ha presentato V-JEPA 2, un sistema di intelligenza artificiale rivoluzionario che adotta un approccio fondamentalmente diverso rispetto ai tradizionali modelli di linguaggio generale. Questo modello globale, con i suoi 1,2 miliardi di parametri, è stato sviluppato per aiutare robot e altri agenti di intelligenza artificiale a comprendere il mondo fisico e a prevedere come reagirà alle loro azioni.
Che cos'è V-JEPA 2 e in che cosa differisce dai modelli linguistici?
V-JEPA 2 è l'acronimo di "Video Joint Embedding Predictive Architecture 2" e si basa su un'architettura completamente diversa rispetto ai modelli linguistici tradizionali. Mentre modelli linguistici come ChatGPT o GPT-4 effettuano previsioni probabilistiche sulle sequenze di testo, V-JEPA 2 opera in uno spazio rappresentazionale astratto e si concentra sulla comprensione delle leggi fisiche.
La differenza cruciale risiede nel metodo di apprendimento: i modelli linguistici richiedono grandi quantità di dati etichettati e apprendono tramite addestramento supervisionato. V-JEPA 2, invece, utilizza l'apprendimento autosupervisionato ed estrae conoscenza da video non etichettati, riducendo così significativamente i costi di preparazione dei dati. Il modello apprende non attraverso la ricostruzione dei pixel, ma attraverso rappresentazioni astratte del contenuto video.
L'architettura JEPA: apprendimento attraverso la previsione
La Joint Embedding Predictive Architecture (JEPA) è stata sviluppata da Yann LeCun, Chief AI Scientist di Meta, e rappresenta un'alternativa ai modelli di intelligenza artificiale generativa. A differenza degli approcci generativi, che tentano di ricostruire ogni pixel mancante, V-JEPA 2 lavora con regioni video mascherate e impara a predire concetti astratti.
Il sistema utilizza un approccio formativo in due fasi:
Prima fase: apprendimento auto-supervisionato
- Formazione con oltre un milione di ore di materiale video e un milione di immagini
- Apprendimento di modelli di interazione fisica senza annotazione umana
- Sviluppo di un modello interno del mondo fisico
Seconda fase: adattamento indotto dall'azione
- Ottimizzazione con solo 62 ore di dati di controllo del robot dal set di dati DROID
- Integrazione delle azioni degli agenti nelle capacità predittive
- Abilitazione della pianificazione e del controllo a ciclo chiuso
Prestazioni superiori nella pratica
V-JEPA 2 dimostra prestazioni impressionanti in vari ambiti:
Comprensione video e rilevamento del movimento
- Precisione Top 1 del 77,3% nel set di dati Something-Something v2
- Previsione dell'azione Recall-at-5 del 39,7% in Epic-Kitchens-100 (miglioramento del 44% rispetto ai modelli precedenti)
- Prestazioni all'avanguardia in vari compiti di domande e risposte video
Controllo del robot
- Tasso di successo del 65-80% nelle attività di pick-and-place in ambienti non familiari
- Controllo robot a colpo zero senza formazione specifica per l'ambiente
- Impiego in due laboratori diversi con bracci robotici Franka
Efficienza rispetto alla concorrenza
V-JEPA 2 è 30 volte più veloce del modello Cosmos di NVIDIA e impiega solo 16 secondi per pianificare un'azione robotica, mentre Cosmos impiega 4 minuti.
Innovazioni tecniche e caratteristiche principali
Il modello è caratterizzato da cinque innovazioni tecnologiche chiave:
- Apprendimento autosupervisionato: elimina la necessità di grandi quantità di dati etichettati
- Meccanismo di mascheramento: addestra il modello prevedendo le aree video nascoste
- Apprendimento della rappresentazione astratta: concentrarsi sui significati semantici anziché sui dettagli dei pixel
- Architettura del modello mondiale: costruire una comprensione interna delle leggi fisiche
- Apprendimento efficiente tramite trasferimento: eccezionali capacità di apprendimento zero-shot
Nuovi benchmark rivelano i limiti dell'IA attuale
Parallelamente a V-JEPA 2, Meta ha rilasciato tre nuovi benchmark che testano la comprensione fisica dei sistemi di intelligenza artificiale:
IntPhys 2
Mette alla prova la capacità di distinguere tra scenari fisicamente plausibili e impossibili. Anche i modelli più avanzati si avvicinano ancora alla casualità in questo senso.
MVPBench
Utilizza coppie di video visivamente simili con risposte opposte alla stessa domanda. V-JEPA 2 raggiunge il 44,5% di precisione in coppia, la migliore prestazione tra tutti i sistemi testati.
CausalVQA
Lo studio esamina la comprensione causale e il ragionamento controfattuale. I risultati mostrano che gli attuali sistemi di intelligenza artificiale riescono a descrivere bene ciò che vedono, ma hanno difficoltà a prevedere esiti alternativi.
Intelligenza artificiale senza fame di dati: come V-JEPA 2 rende l'apprendimento automatico più efficiente
Yann LeCun vede modelli globali come V-JEPA 2 come la chiave per lo sviluppo dell'intelligenza artificiale di prossima generazione. Il modello potrebbe rivoluzionare diversi ambiti applicativi:
Robotica e assistenti domestici
I modelli mondiali sono pensati per inaugurare una nuova era della robotica, in cui gli agenti di intelligenza artificiale saranno in grado di gestire compiti del mondo reale senza dover disporre di enormi quantità di dati di addestramento.
Veicoli autonomi
La comprensione spaziale in tempo reale di V-JEPA 2 potrebbe rivelarsi fondamentale per veicoli autonomi, robot da magazzino e sistemi di consegna tramite droni.
Realtà aumentata (AR) e assistenti virtuali
Meta prevede di ampliare le funzionalità di V-JEPA 2 integrando analisi audio e capacità di comprensione video avanzate per occhiali AR e assistenti virtuali.
Disponibilità open source e finanziamenti per la ricerca
Meta ha rilasciato V-JEPA 2 come open source con licenza CC-BY-NC per promuovere la ricerca globale sull'intelligenza artificiale. Il codice del modello è disponibile su GitHub e può essere eseguito su piattaforme come Google Colab e Kaggle. Questa apertura è in contrasto con molti altri grandi modelli di intelligenza artificiale e mira a promuovere lo sviluppo di modelli globali nella robotica e nell'intelligenza artificiale incarnata.
Un cambio di paradigma nello sviluppo dell’intelligenza artificiale
V-JEPA 2 rappresenta un cambiamento di paradigma fondamentale, passando dalla pura elaborazione del linguaggio a una comprensione più profonda del mondo fisico. Mentre la maggior parte delle aziende di intelligenza artificiale si affida a modelli generativi, Meta persegue una visione alternativa per il futuro dell'intelligenza artificiale con il suo approccio basato sul modello del mondo. La capacità di apprendere da dati minimi e di abilitare il controllo robotico "zero-shot" potrebbe aprire la strada a una nuova generazione di sistemi intelligenti in grado non solo di comprendere, ma anche di agire nel mondo reale.
Correlato a questo:
- Shock per il settore pubblicitario: Zuckerberg vuole automatizzare completamente la pubblicità con l'intelligenza artificiale utilizzando META, un investimento da 72 miliardi di dollari
- Addio barriera linguistica! Ray-Ban Meta AI: l'aggiornamento dell'intelligenza artificiale è arrivato! Traduzione linguistica, ricerca visiva: tutto ciò che devi sapere!
Il tuo partner globale per il marketing e lo sviluppo aziendale
☑️ La nostra lingua aziendale è l'inglese o il tedesco
☑️ NOVITÀ: Corrispondenza nella tua lingua madre!
Io e il mio team saremo lieti di essere a tua disposizione come tuo consulente personale.
Puoi contattarmi compilando il modulo di contatto qui wolfenstein@xpert.digital:o semplicemente chiamandomi al numero +49 7348 4088 965. Il mio indirizzo email è
Non vedo l'ora di iniziare il nostro progetto comune.

