⭐️ Inteligență Artificială (IA) - Blog, Hotspot și Hub de Conținut despre IA ⭐️ Robotică ⭐️ XPaper

Selectarea limbii 📢

Pentru roboți și alți agenți IA: Modelul IA V-JEPA 2 de la Meta – IA care înțelege lumea noastră fizică

Publicat pe: 13 iunie 2025 / Actualizat pe: 13 iunie 2025 – Autor: Konrad Wolfenstein

Pentru roboți și alți agenți IA: Modelul IA V-JEPA 2 de la Meta – IA care înțelege lumea noastră fizică – Imagine: Xpert.Digital

Meta prezintă V-JEPA 2: Sistemul de inteligență artificială învață să facă predicții despre lumea fizică

Meta publică V-JEPA 2: Un model revoluționar al lumii bazat pe inteligență artificială pentru viitorul acesteia

Meta a dezvăluit V-JEPA 2, un sistem de inteligență artificială revoluționar, care adoptă o abordare fundamental diferită de modelele convenționale ale Grand Language. Acest model al lumii, cu cei 1,2 miliarde de parametri ai săi, a fost dezvoltat pentru a ajuta roboții și alți agenți de inteligență artificială să înțeleagă lumea fizică și să prezică cum va reacționa aceasta la acțiunile lor.

Ce este V-JEPA 2 și cum diferă de modelele lingvistice?

V-JEPA 2 este prescurtarea de la „Video Joint Embedding Predictive Architecture 2” (Arhitectură predictivă de încorporare video cu componente comune 2) și se bazează pe o arhitectură complet diferită de modelele lingvistice tradiționale. În timp ce modele lingvistice precum ChatGPT sau GPT-4 fac predicții probabilistice despre secvențele de text, V-JEPA 2 operează într-un spațiu reprezentațional abstract și se concentrează pe înțelegerea legilor fizicii.

Diferența crucială constă în metoda de învățare: modelele lingvistice necesită cantități mari de date etichetate și învață prin antrenament supravegheat. V-JEPA 2, pe de altă parte, utilizează învățarea autosupervizată și extrage cunoștințe din videoclipuri neetichetate, reducând astfel semnificativ costurile de pregătire a datelor. Modelul învață nu prin reconstrucția pixelilor, ci prin reprezentări abstracte ale conținutului video.

Arhitectura JEPA: Învățare prin predicție

Arhitectura predictivă de integrare comună (JEPA) a fost dezvoltată de Yann LeCun, cercetătorul șef în domeniul inteligenței artificiale la Meta, și reprezintă o alternativă la modelele generative de inteligență artificială. Spre deosebire de abordările generative, care încearcă să reconstruiască fiecare pixel lipsă, V-JEPA 2 funcționează cu regiuni video mascate și învață să prezică concepte abstracte.

Sistemul folosește o abordare de instruire în două etape:

Prima fază: Învățare autosupervizată

Instruire cu peste un milion de ore de material video și un milion de imagini
Învățarea modelelor de interacțiune fizică fără adnotare umană
Dezvoltarea unui model intern al lumii fizice

A doua fază: Adaptare indusă de acțiune

Reglare fină cu doar 62 de ore de date de control al robotului din setul de date DROID
Integrarea acțiunilor agenților în capacitățile predictive
Activarea planificării și a controlului în buclă închisă

Performanță superioară în practică

V-JEPA 2 demonstrează performanțe impresionante în diverse domenii:

Înțelegerea videoclipurilor și detectarea mișcării

77,3% precizie de top 1 în setul de date Something-Something v2
39,7% Recall-at-5 în predicția acțiunii Epic-Kitchens-100 (îmbunătățire de 44% față de modelele anterioare)
Performanță de ultimă generație în diverse sarcini video cu întrebări și răspunsuri

Controlul robotului

Rată de succes de 65-80% în sarcinile de tip „pick-and-place” în medii nefamiliare
Controlul robotului cu punct zero fără instruire specifică mediului
Implementare în două laboratoare diferite cu brațe robotice Franka

Eficiență în comparație cu concurența

V-JEPA 2 este de 30 de ori mai rapid decât modelul Cosmos de la NVIDIA și are nevoie de doar 16 secunde pentru a planifica acțiunea unui robot, în timp ce Cosmos are nevoie de 4 minute.

Inovații tehnice și caracteristici cheie

Modelul este caracterizat de cinci descoperiri tehnologice cheie:

Învățare autosupervizată: Elimină nevoia de cantități mari de date etichetate
Mecanism de mascare: Antrenează modelul prin prezicerea zonelor video ascunse
Învățarea reprezentării abstracte: Concentrare pe semnificațiile semantice în loc de detaliile pixelilor
Arhitectura modelului mondial: Construirea unei înțelegeri interne a legilor fizicii
Învățare eficientă prin transfer: Abilități remarcabile de învățare cu impuls zero

Noi teste de performanță dezvăluie limitele IA actuală

În paralel cu V-JEPA 2, Meta a lansat trei noi teste de performanță care testează înțelegerea fizică a sistemelor de inteligență artificială:

IntPhys 2

Testează capacitatea de a distinge între scenarii plauzibile din punct de vedere fizic și scenarii imposibile. Chiar și modelele avansate au performanțe aproape aleatorii în această privință.

Banca MVP

Folosește perechi video similare din punct de vedere vizual, cu răspunsuri opuse la aceeași întrebare. V-JEPA 2 atinge o precizie de 44,5% în perechi – cea mai bună performanță dintre toate sistemele testate.

CauzalVQA

Studiul examinează înțelegerea cauzală și raționamentul contrafactual. Rezultatele arată că sistemele actuale de inteligență artificială pot descrie bine ceea ce văd, dar au dificultăți în a prezice rezultate alternative.

IA fără sete de date: Cum face V-JEPA 2 învățarea automată mai eficientă

Yann LeCun consideră modele globale precum V-JEPA 2 drept cheia dezvoltării inteligenței artificiale de următoare generație. Modelul ar putea revoluționa diverse domenii de aplicare:

Robotică și asistenți casnici

Modelele mondiale sunt menite să inaugureze o nouă eră a roboticii, în care agenții IA vor putea gestiona sarcini din lumea reală fără cantități astronomice de date de antrenament.

Vehicule autonome

Înțelegerea spațială în timp real a V-JEPA 2 ar putea fi crucială pentru vehiculele autonome, roboții de depozit și sistemele de livrare cu drone.

Realitate augmentată (RA) și asistenți virtuali

Meta intenționează să extindă funcționalitatea V-JEPA 2 prin integrarea analizei audio și a capacităților îmbunătățite de înțelegere video pentru ochelarii AR și asistenții virtuali.

Disponibilitatea sursei deschise și finanțarea cercetării

Meta a lansat V-JEPA 2 ca open source sub licența CC-BY-NC pentru a promova cercetarea globală în domeniul inteligenței artificiale. Codul modelului este disponibil pe GitHub și poate fi rulat pe platforme precum Google Colab și Kaggle. Această deschidere contrastează cu multe alte modele mari de inteligență artificială și are scopul de a avansa dezvoltarea de modele globale în robotică și inteligență artificială întrupată.

O schimbare de paradigmă în dezvoltarea inteligenței artificiale

V-JEPA 2 reprezintă o schimbare fundamentală de paradigmă de la procesarea pură a limbajului la o înțelegere mai profundă a lumii fizice. În timp ce majoritatea companiilor de inteligență artificială se bazează pe modele generative, Meta urmărește o viziune alternativă pentru viitorul inteligenței artificiale cu abordarea sa bazată pe modelul lumii. Capacitatea de a învăța din date minime și de a permite controlul robotului cu punct zero ar putea deschide calea pentru o nouă generație de sisteme inteligente care nu numai că pot înțelege, ci și pot acționa în lumea reală.

Legat de asta:

Partenerul dumneavoastră global de marketing și dezvoltare a afacerilor

☑️ Limba noastră de afaceri este engleza sau germana

☑️ NOU: Corespondență în limba ta maternă!

Konrad Wolfenstein

Eu și echipa mea suntem bucuroși să vă fim la dispoziție în calitate de consilier personal.

Mă puteți contacta completând formularul de contact de aici sau pur și simplu sunându-mă la +49 89 89 674 804 ( München) . Adresa mea de e-mail este: [email protected]

Aștept cu nerăbdare proiectul nostru comun.