Gepubliseer op: 13 Junie 2025 / Update van: 13 Junie 2025 - Skrywer: Konrad Wolfenstein
Vir robotte en ander AI-agente: die AI-model V-JEPA 2 van Meta-die AI wat ons fisiese wêreldbeeld verstaan: Xpert.digital
Meta bied V-JEPA 2: AI-stelsel leer voorspellings oor die fisiese wêreld
Meta publiseer V-JEPA 2: 'n Revolusionêre AI-wêreldmodel vir die toekoms van kunsmatige intelligensie
Met V-JEPA 2 het Meta 'n baanbrekende AI-stelsel aangebied wat 'n fundamentele benadering nastreef as konvensionele groot stemmodelle. Die 1,2 miljard -parameter -sterk wêreldmodel is ontwikkel om robotte en ander AI -agente te help om die fisiese wêreld te verstaan en om te voorspel hoe dit op sy optrede sal reageer.
Wat is V-JEPA 2 en hoe verskil dit van stemmodelle?
V-JEPA 2 staan vir “Video-gesamentlike inbedding van voorspellende argitektuur 2” en is gebaseer op 'n heeltemal ander argitektuur as tradisionele stemmodelle. Terwyl stemmodelle soos ChatGPT of GPT-4 waarskynlike voorspellings oor teksreekse maak, werk V-JEPA 2 in 'n abstrakte voorstellingskamer en fokus dit op die verstaan van fisiese wette.
Die deurslaggewende verskil is in die leermetode: taalmodelle benodig groot hoeveelhede gemerkte data en leer deur gemonitorde opleiding. V-JEPA 2, daarenteen, gebruik selfgemoniteerde leer en onttrek kennis uit onwillige video's, wat die koste vir die voorbereiding van data aansienlik verlaag. Die model leer nie deur middel van pixel -rekonstruksie nie, maar deur abstrakte voorstellings van die video -inhoud.
Die Jepa -argitektuur: leer deur voorspelling
Die gesamentlike inbedding van voorspellende argitektuur (JEPA) is ontwikkel deur Yann Lecun, metashoof AI -wetenskaplike en is 'n alternatief vir generatiewe AI -modelle. In teenstelling met generatiewe benaderings wat probeer om elke ontbrekende pixel te rekonstrueer, werk V-JEPA 2 met gemaskerde video-eike en leer om abstrakte konsepte te voorspel.
Die stelsel gebruik 'n opleidingsbenadering met twee fase:
Eerste fase: selfgemonitoreerde leer
- Opleiding met meer as 'n miljoen uur videomateriaal en een miljoen foto's
- Leer fisiese interaksiepatrone sonder menslike aantekening
- Ontwikkeling van 'n interne model van die fisiese wêreld
Tweede fase: aksie -verwante aanpassing
- Fyn instelling met slegs 62 uur robotbeheerdata van die Droid -datastel
- Integrasie van agentaksies in die voorspellingsvaardighede
- Aktiveer beplanning en geslote beheerskringbeheer
Superieure prestasie in die praktyk
V-JEPA 2 demonstreer indrukwekkende prestasie op verskillende gebiede:
Video -begrip en bewegingsopsporing
- 77,3% top 1 akkuraatheid in iets iets V2 datastel
- 39,7% herroep-by-5 vir Epic-Kitchens-100-aksievoorspelling (44% verbetering in vergelyking met vorige modelle)
- Moderne opvoering in verskillende videovrae-reaksietake
Robotbeheer
- 65-80% Suksessyfer vir kies-en-plek-take in onbekende omgewings
- Nul-skoot robotbeheer sonder omgewingsspesifieke opleiding
- Gebruik in twee verskillende laboratoriums met Franka Robot Arms
Doeltreffendheid in vergelyking met die kompetisie
V-JEPA 2 is 30 keer vinniger as die Cosmos-model van NVIDIA en het slegs 16 sekondes nodig om 'n robotaksie te beplan, terwyl Cosmos 4 minute nodig het.
Tegniese innovasies en sleutelkenmerke
Die model word gekenmerk deur vyf sentrale tegniese deurbrake:
- Selfmonitêre leer: skakel die behoefte aan groot hoeveelhede gemerkte data uit
- Maskermeganisme: lei die model op deur verborge video -gebiede te voorspel
- Samevatting verteenwoordigende leer: fokus op semantiese betekenisse in plaas van pixelbesonderhede
- Wêreldmodelargitektuur: vestiging van 'n interne begrip van fisiese wette
- Doeltreffende oordragleer: Uitstaande leervaardighede nulskoot
Nuwe maatstawwe skynbaar grense van huidige AI
Meta het drie nuwe maatstawwe vrygestel parallel met V-JEPA 2 wat die fisiese begrip van AI-stelsels toets:
Intphys 2
Toets die vermoë om te onderskei tussen fisies aanneemlike en onmoontlike scenario's. Selfs gevorderde modelle is hier steeds naby aan ewekansige vlak.
MVPBench
Visueel gebruik soortgelyke videokarre met opponerende antwoorde op dieselfde vraag. V-JEPA 2 bereik 44,5% gepaarde akkuraatheid-die beste prestasie van alle getoetsde stelsels.
Causalvqa
Ondersoek oorsaaklike begrip en teenaktuele denke. Die resultate toon dat huidige AI -stelsels goed kan beskryf wat hulle sien, maar probleme ondervind om alternatiewe kursusse te voorspel.
AI sonder honger na data: hoe V-JEPA 2 masjienleer doeltreffender maak
Yann Lecun sien die sleutel tot die volgende generasie AI-ontwikkeling in wêreldmodelle soos V-JEPA 2. Die model kan 'n omwenteling in verskillende toepassingsareas maak:
Robotika en begrotingsassistente
Wêreldmodelle is veronderstel om 'n nuwe era van robotika waarin AI -agente werklike take kan bestuur sonder astronomiese hoeveelhede opleidingsdata, in te stel.
Outonome voertuie
Die ruimtelike begrip van intydse tyd van V-JEPA 2 kan van kardinale belang wees vir outonome voertuie, pakhuisrobotte en drone-afleweringstelsels.
Uitgebreide werklikheid (AR) en virtuele assistente
Meta beplan om die funksies van V-JEPA 2 uit te brei deur klankanalise te integreer en video-begrip vir AR-bril en virtuele assistente uit te brei.
Open source beskikbaarheid en navorsingsbevordering
Meta het V-JEPA 2 vrygestel onder die CC-by-NC-lisensie as 'n open source om globale AI-navorsing te bevorder. Die modelkode is beskikbaar op GitHub en kan op platforms soos Google Colab en Kaggle uitgevoer word. Hierdie openheid is in teenstelling met baie ander groot AI -modelle en is bedoel om die ontwikkeling van wêreldmodelle in robotika en beliggaming AI te bevorder.
'N Paradigmaverskuiwing in AI -ontwikkeling
V-JEPA 2 verteenwoordig 'n fundamentele paradigmaskuif van suiwer taalverwerking na 'n dieper begrip van die fisiese wêreld. Terwyl die meeste AI -ondernemings op generatiewe modelle staatmaak, volg Meta 'n alternatiewe visie vir die toekoms van kunsmatige intelligensie met sy wêreldmodelbenadering. Die vermoë om uit minimale gegewens te leer en nul-skoot-robotbeheer moontlik te maak, kan die weg baan vir 'n nuwe generasie intelligente stelsels wat nie net verstaan nie, maar ook in die regte wêreld kan optree.
Geskik vir:
Jou globale bemarkings- en besigheidsontwikkelingsvennoot
☑️ Ons besigheidstaal is Engels of Duits
☑️ NUUT: Korrespondensie in jou landstaal!
Ek sal graag jou en my span as 'n persoonlike adviseur dien.
Jy kan my kontak deur die kontakvorm hier in te vul of bel my eenvoudig by +49 89 89 674 804 (München) . My e-posadres is: wolfenstein ∂ xpert.digital
Ek sien uit na ons gesamentlike projek.