Pubblicato il: 13 giugno 2025 / Aggiornamento dal: 13 giugno 2025 - Autore: Konrad Wolfenstein
Per i robot e altri agenti AI: il modello AI V-Jepa 2 di Meta-the Ai che comprende la nostra immagine fisica del mondo: Xpert.Digital
Meta presenta v-jepa 2: il sistema AI apprende previsioni sul mondo fisico
Meta pubblica V-Jepa 2: A Revolutionary AI World Model per il futuro dell'intelligenza artificiale
Con V-JEPA 2, Meta ha presentato un rivoluzionario sistema di intelligenza artificiale che persegue un approccio fondamentale rispetto ai modelli di grandi dimensioni convenzionali. Il modello di 1,2 miliardi di parametri Strong World è stato sviluppato per aiutare i robot e altri agenti di intelligenza artificiale a comprendere il mondo fisico e per prevedere come reagirà alle sue azioni.
Cos'è V-Jepa 2 e in che modo differisce dai modelli vocali?
V-JEPA 2 sta per "Articolo video incorporare l'architettura predittiva 2" e si basa su un'architettura completamente diversa rispetto ai modelli vocali tradizionali. Mentre i modelli vocali come Chatgpt o GPT-4 fanno previsioni probabilistiche sulle sequenze di testo, V-JEPA 2 funziona in una sala di rappresentazione astratta e si concentra sulla comprensione delle leggi fisiche.
La differenza decisiva è nel metodo di apprendimento: i modelli di lingua richiedono grandi quantità di dati etichettati e apprendimento attraverso la formazione monitorata. V-JEPA 2, d'altra parte, utilizza l'apprendimento auto-monitorato e l'estrazione di conoscenze da video non riempiti, il che riduce significativamente i costi per la preparazione dei dati. Il modello non impara attraverso la ricostruzione dei pixel, ma attraverso rappresentazioni astratte del contenuto video.
L'architettura Jepa: apprendimento per previsione
L'architettura predittiva congiunta (JEPA) è stata sviluppata da Yann Lecun, capo scienziato di AI Metas e rappresenta un'alternativa ai modelli AI generativi. Contrariamente agli approcci generativi che cercano di ricostruire ogni pixel mancante, V-Jepa 2 funziona con querce video mascherate e impara a prevedere concetti astratti.
Il sistema utilizza un approccio di allenamento a due stadi:
Prima fase: apprendimento monitorato
- Allenamento con oltre un milione di ore di materiale video e un milione di immagini
- Impara i modelli di interazione fisica senza annotazione umana
- Sviluppo di un modello interno del mondo fisico
Seconda fase: adattamento correlato all'azione
- Sintesa fine con solo 62 ore di dati di controllo del robot dal set di dati droidi
- Integrazione delle azioni degli agenti nelle capacità predittive
- Abilitazione della pianificazione e controllo del circuito chiuso
Prestazioni superiori in pratica
V-JEPA 2 dimostra prestazioni impressionanti in diverse aree:
Comprensione video e rilevamento del movimento
- 77,3% di precisione top 1 in qualcosa di qualcosa V2 set di dati
- 39,7% di richiamo-AT-5 per previsioni di azione EPIC-Kitchens-100 (miglioramento del 44% rispetto ai modelli precedenti)
- Performance all'avanguardia in varie domande video Attività di risposta
Controllo robotico
- 65-80% di successo tasso di successo per le attività di pick-and-place in ambienti sconosciuti
- Controllo robot a colpo zero senza formazione specifica per ambiente
- Usa in due diversi laboratori con Franka Robot Arms
Efficienza rispetto alla concorrenza
V-JEPA 2 è 30 volte più veloce del modello Cosmos di Nvidia e necessita solo di 16 secondi per pianificare un'azione robot, mentre il cosmo ha bisogno di 4 minuti.
Innovazioni tecniche e caratteristiche chiave
Il modello è caratterizzato da cinque scoperte tecniche centrali:
- Apprendimento auto -monitorato: elimina la necessità di grandi quantità di dati etichettati
- Meccanismo di mascheramento: allena il modello prevedendo aree video nascoste
- Abstract Rappresentative Learning: Concentrati sui significati semantici anziché sui dettagli dei pixel
- Architettura del modello mondiale: istituzione di una comprensione interna delle leggi fisiche
- Apprendimento efficiente del trasferimento: capacità di apprendimento zero-shot
Nuovi parametri di riferimento apparenti limiti dell'attuale AI
Meta ha rilasciato tre nuovi benchmark in parallelo con V-JEPA 2 che testano la comprensione fisica dei sistemi di intelligenza artificiale:
Intphys 2
Mette alla prova la capacità di distinguere tra scenari fisicamente plausibili e impossibili. Anche i modelli avanzati sono ancora vicini al livello casuale qui.
Mvpbench
Utilizza visivamente auto video simili con risposte avversarie alla stessa domanda. V-JEPA 2 raggiunge il 44,5% di precisione accoppiata, le migliori prestazioni di tutti i sistemi testati.
Causalvqa
Esamina la comprensione causale e il pensiero contrattuale. I risultati mostrano che gli attuali sistemi di intelligenza artificiale possono descrivere ciò che vedono ma hanno difficoltà a prevedere corsi alternativi.
AI senza fame di dati: come l'apprendimento automatico V-JEPA 2 rende più efficiente
Yann Lecun vede la chiave per la prossima generazione di sviluppo dell'IA in modelli mondiali come V-JEPA 2. Il modello potrebbe rivoluzionare diverse aree di applicazione:
Robotica e assistenti di budget
I modelli mondiali dovrebbero annunciare una nuova era di robotica in cui gli agenti AI possono gestire compiti reali senza quantità astronomiche di dati di addestramento.
Veicoli autonomi
La comprensione spaziale del tempo reale di V-Jepa 2 potrebbe essere cruciale per veicoli autonomi, robot di magazzino e sistemi di consegna di droni.
Realtà estesa (AR) e assistenti virtuali
Meta prevede di espandere le funzioni di V-JEPA 2 integrando l'analisi audio e la comprensione video ampliata per gli occhiali AR e gli assistenti virtuali.
Disponibilità open source e promozione della ricerca
Meta ha rilasciato V-JEPA 2 con la licenza CC-BY-NC come open source per promuovere la ricerca sull'intelligenza artificiale globale. Il codice modello è disponibile su GitHub e può essere eseguito su piattaforme come Google Colab e Kaggle. Questa apertura è in contrasto con molti altri grandi modelli di intelligenza artificiale ed è destinata a promuovere lo sviluppo di modelli mondiali in robotica e intelligenza artificiale.
Un cambio di paradigma nello sviluppo dell'IA
V-JEPA 2 rappresenta un passaggio di paradigma fondamentale dall'elaborazione del linguaggio puro a una comprensione più profonda del mondo fisico. Mentre la maggior parte delle aziende di intelligenza artificiale si affidano a modelli generativi, Meta segue una visione alternativa per il futuro dell'intelligenza artificiale con il suo approccio del modello mondiale. La capacità di apprendere da dati minimi e abilitare il controllo robot a colpo zero potrebbe spianare la strada a una nuova generazione di sistemi intelligenti che non solo comprendono ma possono anche agire nel mondo reale.
Adatto a:
Il tuo partner globale per il marketing e lo sviluppo aziendale
☑️ La nostra lingua commerciale è l'inglese o il tedesco
☑️ NOVITÀ: corrispondenza nella tua lingua nazionale!
Sarei felice di servire te e il mio team come consulente personale.
Potete contattarmi compilando il modulo di contatto o semplicemente chiamandomi al numero +49 89 89 674 804 (Monaco) . Il mio indirizzo email è: wolfenstein ∂ xpert.digital
Non vedo l'ora di iniziare il nostro progetto comune.