
Robotitele ja teistele tehisintellekti agentidele: Meta V-JEPA 2 tehisintellekti mudel – tehisintellekt, mis mõistab meie füüsilist maailma – Pilt: Xpert.Digital
Meta esitleb V-JEPA 2: tehisintellekti süsteem õpib tegema ennustusi füüsilise maailma kohta
Meta avaldab V-JEPA 2: revolutsioonilise tehisintellekti maailmamudeli tehisintellekti tulevikuks
Meta avalikustas murrangulise tehisintellekti süsteemi V-JEPA 2, mis kasutab tavapärastest suurkeelemudelitest põhimõtteliselt erinevat lähenemisviisi. See 1,2 miljardi parameetriga maailmamudel töötati välja selleks, et aidata robotitel ja teistel tehisintellekti agentidel mõista füüsilist maailma ja ennustada, kuidas see nende tegevusele reageerib.
Mis on V-JEPA 2 ja mille poolest see erineb keelemudelitest?
V-JEPA 2 on lühend sõnadest „Video Joint Embedding Predictive Architecture 2” ja põhineb täiesti erineval arhitektuuril kui traditsioonilised keelemudelid. Kui keelemudelid nagu ChatGPT või GPT-4 teevad tekstijadade kohta tõenäosuslikke ennustusi, siis V-JEPA 2 tegutseb abstraktses esitusruumis ja keskendub füüsikaseaduste mõistmisele.
Oluline erinevus seisneb õppemeetodis: keelemudelid vajavad suures koguses sildistatud andmeid ja õpivad juhendatud treeningu abil. V-JEPA 2 seevastu kasutab iseseisevõpet ja ammutab teadmisi sildistamata videotest, vähendades seeläbi oluliselt andmete ettevalmistamise kulusid. Mudel ei õpi pikslite rekonstrueerimise, vaid videosisu abstraktsete esituste kaudu.
JEPA arhitektuur: õppimine ennustamise kaudu
Ühise manustamise ennustava arhitektuuri (JEPA) töötas välja Meta juhtiv tehisintellekti teadlane Yann LeCun ning see kujutab endast alternatiivi generatiivsetele tehisintellekti mudelitele. Erinevalt generatiivsetest lähenemisviisidest, mis püüavad rekonstrueerida iga puuduvat pikslit, töötab V-JEPA 2 maskeeritud videopiirkondadega ja õpib ennustama abstraktseid kontseptsioone.
Süsteem kasutab kaheastmelist koolitusmeetodit:
Esimene etapp: iseseisev õppimine
- Koolitus enam kui miljoni tunni videomaterjali ja miljoni pildi abil
- Füüsilise interaktsiooni mustrite õppimine ilma inimese märkusteta
- Füüsilise maailma sisemudeli väljatöötamine
Teine faas: tegevusest tingitud kohanemine
- Peenhäälestus DROID-andmestikust pärinevate vaid 62 tunni roboti juhtimisandmete abil
- Agentide tegevuste integreerimine ennustusvõimetesse
- Planeerimise ja suletud ahela juhtimise võimaldamine
Suurepärane sooritus praktikas
V-JEPA 2 demonstreerib muljetavaldavat jõudlust erinevates valdkondades:
Video mõistmine ja liikumistuvastus
- 77,3% esikoha täpsus Something-Something v2 andmekogumis
- 39,7% meeldetuletus 5. minutil Epic-Kitchens-100 tegevuste ennustamisel (44% parem kui eelmistel mudelitel)
- Tipptasemel sooritus erinevates videoküsimuste ja vastuste ülesannetes
Robotikontroll
- 65–80% edukuse määr ülesannete puhul, mis nõuavad esemete valimist ja paigutamist võõras keskkonnas
- Nullpunkti roboti juhtimine ilma keskkonnaspetsiifilise väljaõppeta
- Franka robotkäte kasutuselevõtt kahes erinevas laboris
Tõhusus võrreldes konkurentidega
V-JEPA 2 on 30 korda kiirem kui NVIDIA Cosmos mudel ja vajab roboti tegevuse planeerimiseks vaid 16 sekundit, samas kui Cosmosel kulub selleks 4 minutit.
Tehnilised uuendused ja põhijooned
Mudelit iseloomustavad viis peamist tehnoloogilist läbimurret:
- Ise juhendatud õpe: Kõrvaldab vajaduse suure hulga märgistatud andmete järele.
- Maskeerimismehhanism: treenib mudelit peidetud videoalade ennustamise teel
- Abstraktse kujutamise õppimine: keskenduge pikslidetailide asemel semantilistele tähendustele
- Maailmamudeli arhitektuur: füüsikaseaduste sisemise mõistmise loomine
- Tõhus ülekantav õpe: silmapaistvad nullist õppimise võimed
Uued võrdlusnäitajad paljastavad praeguse tehisintellekti piirid
Paralleelselt V-JEPA 2-ga on Meta avaldanud kolm uut võrdlusalust, mis testivad tehisintellekti süsteemide füüsilist mõistmist:
IntPhys 2
See testib võimet eristada füüsiliselt usutavaid ja võimatuid stsenaariume. Isegi täiustatud mudelid toimivad selles osas peaaegu juhuslikult.
MVP-pink
See kasutab visuaalselt sarnaseid videopaare, millel on samale küsimusele vastandlikud vastused. V-JEPA 2 saavutab 44,5% paarisotsuse täpsuse – see on kõigi testitud süsteemide parim tulemus.
PõhjuslikVQA
Uuring uurib põhjuslikku arusaamist ja faktidele vastupidist arutluskäiku. Tulemused näitavad, et praegused tehisintellekti süsteemid suudavad hästi kirjeldada seda, mida nad näevad, kuid neil on raskusi alternatiivsete tulemuste ennustamisega.
Tehisintellekt ilma andmenäljata: kuidas V-JEPA 2 muudab masinõppe tõhusamaks
Yann LeCun näeb maailmamudeleid nagu V-JEPA 2 tehisintellekti järgmise põlvkonna arendamise võtmena. See mudel võib revolutsiooniliselt muuta mitmesuguseid rakendusvaldkondi:
Robootika ja koduabilised
Maailmamudelite eesmärk on sisse juhatada uus robootika ajastu, kus tehisintellekti agendid suudavad reaalseid ülesandeid lahendada ilma astronoomiliste treeningandmete kogusteta.
Autonoomsed sõidukid
V-JEPA 2 reaalajas ruumiline arusaam võib olla autonoomsete sõidukite, laorobotite ja droonide kohaletoimetamise süsteemide jaoks ülioluline.
Liitreaalsus (AR) ja virtuaalsed assistendid
Meta plaanib laiendada V-JEPA 2 funktsionaalsust, integreerides AR-prillide ja virtuaalsete assistentide jaoks helianalüütika ja täiustatud video mõistmise võimalused.
Avatud lähtekoodi kättesaadavus ja teadustöö rahastamine
Meta on avaldanud V-JEPA 2 avatud lähtekoodiga litsentsi CC-BY-NC alusel, et edendada ülemaailmset tehisintellekti uurimistööd. Mudeli kood on saadaval GitHubis ja seda saab käitada platvormidel nagu Google Colab ja Kaggle. See avatus on vastuolus paljude teiste suurte tehisintellekti mudelitega ja selle eesmärk on edendada maailmamudelite arendamist robootikas ja kehastunud tehisintellektis.
Paradigma muutus tehisintellekti arendamisel
V-JEPA 2 kujutab endast põhimõttelist paradigma muutust puhtalt keele töötlemiselt füüsilise maailma sügavamale mõistmisele. Samal ajal kui enamik tehisintellekti ettevõtteid tugineb generatiivsetele mudelitele, taotleb Meta oma maailmamudeli lähenemisviisiga alternatiivset visiooni tehisintellekti tulevikust. Võimalus õppida minimaalsetest andmetest ja võimaldada robotite nullpunkti juhtimist võiks sillutada teed uue põlvkonna intelligentsetele süsteemidele, mis suudavad reaalses maailmas mitte ainult aru saada, vaid ka tegutseda.
Sobib selleks:
Teie ülemaailmne turundus- ja äriarenduspartner
☑️ Meie ärikeel on inglise või sakslane
☑️ Uus: kirjavahetus teie riigikeeles!
Mul on hea meel, et olete teile ja minu meeskonnale isikliku konsultandina kättesaadav.
Võite minuga ühendust võtta, täites siin kontaktvormi või helistage mulle lihtsalt telefonil +49 89 674 804 (München) . Minu e -posti aadress on: Wolfenstein ∂ xpert.digital
Ootan meie ühist projekti.

