Häälevalik 📢


Robotite ja muude AI esindajate jaoks: AI mudel V-JEPA 2 meta-AI-st, mis mõistab meie füüsilist maailma

Avaldatud: 13. juuni 2025 / Uuendus: 13. juuni 2025 - autor: Konrad Wolfenstein

Robotite ja muude AI esindajate jaoks: AI mudel V-JEPA 2 meta-AI-st, mis mõistab meie füüsilist maailma

Robotite ja muude AI esindajate jaoks: meta-AI AI mudel V-JEPA 2, mis mõistab meie füüsilist maailmapilti: xpert.digital

Meta esitleb V-JEPA 2: AI System õpib ennustusi füüsilise maailma kohta

Meta avaldab V-JEPA 2: tehisintellekti tuleviku revolutsiooniline AI maailmamudel

V-JEPA 2-ga on Meta esitanud murrangulise AI-süsteemi, mis jätkab põhimõttelist lähenemist kui tavalistel suurtel häälmudelitel. 1,2 miljardit parameetri tugevat maailmamudelit töötati välja selleks, et aidata robotitel ja teistel AI agentidel mõista füüsilist maailma ja ennustada, kuidas see oma tegevusele reageerib.

Mis on V-JEPA 2 ja kuidas see häälmudelitest erineb?

V-JEPA 2 tähistab „Videoühenduse manustamist ennustavat arhitektuuri 2” ja põhineb täiesti erineval arhitektuuril kui traditsioonilistel häälmudelitel. Kui sellised häälemudelid nagu ChatGPT või GPT-4 teevad tekstijärjestuste kohta tõenäolisi ennustusi, töötab V-JEPA 2 abstraktses esindusruumis ja keskendub füüsiliste seaduste mõistmisele.

Otsustav erinevus seisneb õppimismeetodis: keelemudelid nõuavad suures koguses märgistatud andmeid ja õppida jälgitava koolituse kaudu. V-JEPA 2 seevastu kasutab iseseisvat õppimist ja teadmiste väljavõtmist soovimatutest videotest, mis vähendavad märkimisväärselt andmete ettevalmistamise kulusid. Mudel ei õpi pikslite rekonstrueerimise kaudu, vaid videosisu abstraktsete esituste kaudu.

JEPA arhitektuur: õppimine ennustuse järgi

Ühise manustamise ennustava arhitektuuri (JEPA) töötas välja Metas AI teadlase Yann Lecun ja see esindab alternatiivi generatiivsetele AI -mudelitele. Vastupidiselt generatiivsetele lähenemisviisidele, mis üritavad rekonstrueerida iga puuduvat pikslit, töötab V-JEPA 2 maskeeritud video tammedega ja õpib ennustama abstraktseid mõisteid.

Süsteem kasutab kaheastmelist koolitusmeetodit:

Esimene etapp: isetäitnud õppimine

  • Koolitus üle miljoni tunni videomaterjali ja miljoni pildiga
  • Õppige füüsilisi interaktsioonimustreid ilma inimese märkusteta
  • Füüsilise maailma sisemudeli väljatöötamine

Teine etapp: tegevusega seotud kohanemine

  • Peenhäälestamine ainult 62 tunni pikkuse robotikontrolli andmetega droidiandmekomplektist
  • Agentide toimingute integreerimine ennustamisoskustesse
  • Planeerimise ja suletud juhtimisahela juhtimise võimaldamine

Parem jõudlus praktikas

V-JEPA 2 näitab muljetavaldavat jõudlust erinevates piirkondades:

Video mõistmine ja liikumise tuvastamine

  • 77,3% TOP 1 täpsus milleski V2 andmekogumis
  • Epic-Kitchens-100 tegevuse prognoosi jaoks 39,7% tagasikutsumine-5 (eelnevate mudelitega võrreldes 44%)
  • Kaasaegne jõudlus erinevates videoküsimuste vastuse ülesanded

Robotikontroll

  • 65–80% õnnestumise määr valitud ja kohapealsete ülesannete korral tundmatutes keskkondades
  • Null-laskude robotikontroll ilma ümbritseva keskkonnaspetsiifilise koolituseta
  • Kasutage kahes erinevas laboris koos Franca robotrelvadega

Tõhusus võrreldes konkurentsiga

V-JEPA 2 on 30 korda kiirem kui Nvidia Cosmose mudel ja vajab robotitegevuse kavandamiseks vaid 16 sekundit, samas kui Cosmos vajab 4 minutit.

Tehnilised uuendused ja võtmeomadused

Mudelit iseloomustab viis keskset tehnilist läbimurret:

  1. Isetäitnud õppimine: välistab vajaduse suures koguses märgistatud andmeid
  2. Maskeerimismehhanism: treenib mudelit, ennustades varjatud videoalasid
  3. Abstraktne esinduslik õppimine: keskenduge semantilistele tähendustele pikslite üksikasjade asemel
  4. Maailma mudeli arhitektuur: füüsiliste seaduste sisemise mõistmise loomine
  5. Tõhus ülekandeõpe: silmapaistvad null-laskumisoskused

Uued võrdlusalused näivad praeguse AI piirangud

Meta on välja andnud kolm uut võrdlusalust paralleelselt V-JEPA 2-ga, mis testivad AI-süsteemide füüsilist mõistmist:

Intphys 2

Testib võimet eristada füüsiliselt usutavaid ja võimatuid stsenaariume. Isegi arenenud mudelid on siin endiselt juhusliku taseme lähedal.

Mvpbench

Kasutab visuaalselt sarnaseid videoautosid, millel on sama küsimusele vastandlikud vastused. V-JEPA 2 jõuab 44,5% -lisele täpsusele-kõigi testitud süsteemide parim jõudlus.

Põhjus

Uurib põhjuslikku mõistmist ja vastupidavat mõtlemist. Tulemused näitavad, et praegused AI -süsteemid saavad hästi kirjeldada, mida nad näevad, kuid kellel on raskusi alternatiivsete kursuste ennustamisega.

AI ilma andmete näljata: kuidas V-JEPA 2 masinõpe muudab tõhusamaks

Yann Lecun näeb AI järgmise põlvkonna arengu võti sellistes maailmamudelites nagu V-JEPA 2. Mudel võiks revolutsiooniliselt muuta erinevad rakendusvaldkonnad:

Robootika- ja eelarveabilised

Maailmamudelid peaksid kuulutama uut robootika ajastut, kus AI esindajad saavad reaalseid ülesandeid hallata ilma treeningandmete astronoomiliste kogusteta.

Autonoomsed sõidukid

V-JEPA 2 reaalajas olev ruumiline mõistmine võib olla autonoomsete sõidukite, laorobotite ja droonide kohaletoimetamise süsteemide jaoks ülioluline.

Laiendatud reaalsus (AR) ja virtuaalsed assistendid

Meta plaanib laiendada V-JEPA 2 funktsioone, integreerides helianalüüsi ja laiendades AR-klaaside ja virtuaalsete abiliste video mõistmist.

Avatud lähtekoodiga saadavus ja uurimistöö edendamine

Meta on V-JEPA 2 välja andnud CC-BY-NC litsentsi alusel avatud lähtekoodiga globaalse AI-uuringute edendamiseks. Mudeli kood on saadaval GitHubis ja seda saab teostada sellistel platvormidel nagu Google Colab ja Kaggle. See avatus on vastupidiselt paljudele teistele suurtele AI -mudelitele ja selle eesmärk on edendada maailmamudelite arengut robootika ja kehastas AI -d.

Paradigma nihe AI ​​arengus

V-JEPA 2 esindab põhjalikku paradigma nihkumist puhtalt keeletöötluselt füüsilise maailma sügavama mõistmiseni. Kuigi enamik AI -ettevõtteid tugineb generatiivsetele mudelitele, järgib Meta oma maailmamudeli lähenemisviisiga alternatiivset visiooni tehisintellekti tulevikust. Võimalus minimaalsetest andmetest õppida ja võimaldada null-laskuga robotikontrolli võimaldada teed uue põlvkonna intelligentsete süsteemide jaoks, mis mitte ainult ei mõista, vaid ka reaalses maailmas.

Sobib selleks:

 

Teie ülemaailmne turundus- ja äriarenduspartner

☑️ Meie ärikeel on inglise või sakslane

☑️ Uus: kirjavahetus teie riigikeeles!

 

Digitaalne teerajaja - Konrad Wolfenstein

Konrad Wolfenstein

Mul on hea meel, et olete teile ja minu meeskonnale isikliku konsultandina kättesaadav.

Võite minuga ühendust võtta, täites siin kontaktvormi või helistage mulle lihtsalt telefonil +49 89 674 804 (München) . Minu e -posti aadress on: Wolfenstein xpert.digital

Ootan meie ühist projekti.

 

 

☑️ VKE tugi strateegia, nõuannete, planeerimise ja rakendamise alal

☑️ digitaalse strateegia loomine või ümberpaigutamine ja digiteerimine

☑️ Rahvusvaheliste müügiprotsesside laiendamine ja optimeerimine

☑️ Globaalsed ja digitaalsed B2B kauplemisplatvormid

☑️ teerajajate äriarendus / turundus / PR / mõõde


⭐️ tehisintellekt (AI) -Ai ajaveeb, leviala ja sisukeskus ⭐️ robootika/robootika ⭐️ XPaper