Vir robotte en ander AI-agente: die AI-model V-JEPA 2 van meta-die AI wat ons fisiese wêreld verstaan

Gepubliseer op: 13 Junie 2025 / Update van: 13 Junie 2025 - Skrywer: Konrad Wolfenstein

Vir robotte en ander AI-agente: die AI-model V-JEPA 2 van Meta-die AI wat ons fisiese wêreldbeeld verstaan: Xpert.digital

Meta bied V-JEPA 2: AI-stelsel leer voorspellings oor die fisiese wêreld

Meta publiseer V-JEPA 2: 'n Revolusionêre AI-wêreldmodel vir die toekoms van kunsmatige intelligensie

Met V-JEPA 2 het Meta 'n baanbrekende AI-stelsel aangebied wat 'n fundamentele benadering nastreef as konvensionele groot stemmodelle. Die 1,2 miljard -parameter -sterk wêreldmodel is ontwikkel om robotte en ander AI -agente te help om die fisiese wêreld te verstaan en om te voorspel hoe dit op sy optrede sal reageer.

Wat is V-JEPA 2 en hoe verskil dit van stemmodelle?

V-JEPA 2 staan vir “Video-gesamentlike inbedding van voorspellende argitektuur 2” en is gebaseer op 'n heeltemal ander argitektuur as tradisionele stemmodelle. Terwyl stemmodelle soos ChatGPT of GPT-4 waarskynlike voorspellings oor teksreekse maak, werk V-JEPA 2 in 'n abstrakte voorstellingskamer en fokus dit op die verstaan van fisiese wette.

Die deurslaggewende verskil is in die leermetode: taalmodelle benodig groot hoeveelhede gemerkte data en leer deur gemonitorde opleiding. V-JEPA 2, daarenteen, gebruik selfgemoniteerde leer en onttrek kennis uit onwillige video's, wat die koste vir die voorbereiding van data aansienlik verlaag. Die model leer nie deur middel van pixel -rekonstruksie nie, maar deur abstrakte voorstellings van die video -inhoud.

Die Jepa -argitektuur: leer deur voorspelling

Die gesamentlike inbedding van voorspellende argitektuur (JEPA) is ontwikkel deur Yann Lecun, metashoof AI -wetenskaplike en is 'n alternatief vir generatiewe AI -modelle. In teenstelling met generatiewe benaderings wat probeer om elke ontbrekende pixel te rekonstrueer, werk V-JEPA 2 met gemaskerde video-eike en leer om abstrakte konsepte te voorspel.

Die stelsel gebruik 'n opleidingsbenadering met twee fase:

Eerste fase: selfgemonitoreerde leer

Opleiding met meer as 'n miljoen uur videomateriaal en een miljoen foto's
Leer fisiese interaksiepatrone sonder menslike aantekening
Ontwikkeling van 'n interne model van die fisiese wêreld

Tweede fase: aksie -verwante aanpassing

Fyn instelling met slegs 62 uur robotbeheerdata van die Droid -datastel
Integrasie van agentaksies in die voorspellingsvaardighede
Aktiveer beplanning en geslote beheerskringbeheer

Superieure prestasie in die praktyk

V-JEPA 2 demonstreer indrukwekkende prestasie op verskillende gebiede:

Video -begrip en bewegingsopsporing

77,3% top 1 akkuraatheid in iets iets V2 datastel
39,7% herroep-by-5 vir Epic-Kitchens-100-aksievoorspelling (44% verbetering in vergelyking met vorige modelle)
Moderne opvoering in verskillende videovrae-reaksietake

Robotbeheer

65-80% Suksessyfer vir kies-en-plek-take in onbekende omgewings
Nul-skoot robotbeheer sonder omgewingsspesifieke opleiding
Gebruik in twee verskillende laboratoriums met Franka Robot Arms

Doeltreffendheid in vergelyking met die kompetisie

V-JEPA 2 is 30 keer vinniger as die Cosmos-model van NVIDIA en het slegs 16 sekondes nodig om 'n robotaksie te beplan, terwyl Cosmos 4 minute nodig het.

Tegniese innovasies en sleutelkenmerke

Die model word gekenmerk deur vyf sentrale tegniese deurbrake:

Selfmonitêre leer: skakel die behoefte aan groot hoeveelhede gemerkte data uit
Maskermeganisme: lei die model op deur verborge video -gebiede te voorspel
Samevatting verteenwoordigende leer: fokus op semantiese betekenisse in plaas van pixelbesonderhede
Wêreldmodelargitektuur: vestiging van 'n interne begrip van fisiese wette
Doeltreffende oordragleer: Uitstaande leervaardighede nulskoot

Nuwe maatstawwe skynbaar grense van huidige AI

Meta het drie nuwe maatstawwe vrygestel parallel met V-JEPA 2 wat die fisiese begrip van AI-stelsels toets:

Intphys 2

Toets die vermoë om te onderskei tussen fisies aanneemlike en onmoontlike scenario's. Selfs gevorderde modelle is hier steeds naby aan ewekansige vlak.

MVPBench

Visueel gebruik soortgelyke videokarre met opponerende antwoorde op dieselfde vraag. V-JEPA 2 bereik 44,5% gepaarde akkuraatheid-die beste prestasie van alle getoetsde stelsels.

Causalvqa

Ondersoek oorsaaklike begrip en teenaktuele denke. Die resultate toon dat huidige AI -stelsels goed kan beskryf wat hulle sien, maar probleme ondervind om alternatiewe kursusse te voorspel.

AI sonder honger na data: hoe V-JEPA 2 masjienleer doeltreffender maak

Yann Lecun sien die sleutel tot die volgende generasie AI-ontwikkeling in wêreldmodelle soos V-JEPA 2. Die model kan 'n omwenteling in verskillende toepassingsareas maak:

Robotika en begrotingsassistente

Wêreldmodelle is veronderstel om 'n nuwe era van robotika waarin AI -agente werklike take kan bestuur sonder astronomiese hoeveelhede opleidingsdata, in te stel.

Outonome voertuie

Die ruimtelike begrip van intydse tyd van V-JEPA 2 kan van kardinale belang wees vir outonome voertuie, pakhuisrobotte en drone-afleweringstelsels.

Uitgebreide werklikheid (AR) en virtuele assistente

Meta beplan om die funksies van V-JEPA 2 uit te brei deur klankanalise te integreer en video-begrip vir AR-bril en virtuele assistente uit te brei.

Open source beskikbaarheid en navorsingsbevordering

Meta het V-JEPA 2 vrygestel onder die CC-by-NC-lisensie as 'n open source om globale AI-navorsing te bevorder. Die modelkode is beskikbaar op GitHub en kan op platforms soos Google Colab en Kaggle uitgevoer word. Hierdie openheid is in teenstelling met baie ander groot AI -modelle en is bedoel om die ontwikkeling van wêreldmodelle in robotika en beliggaming AI te bevorder.

'N Paradigmaverskuiwing in AI -ontwikkeling

V-JEPA 2 verteenwoordig 'n fundamentele paradigmaskuif van suiwer taalverwerking na 'n dieper begrip van die fisiese wêreld. Terwyl die meeste AI -ondernemings op generatiewe modelle staatmaak, volg Meta 'n alternatiewe visie vir die toekoms van kunsmatige intelligensie met sy wêreldmodelbenadering. Die vermoë om uit minimale gegewens te leer en nul-skoot-robotbeheer moontlik te maak, kan die weg baan vir 'n nuwe generasie intelligente stelsels wat nie net verstaan nie, maar ook in die regte wêreld kan optree.

Geskik vir: