
Vir robotte en ander KI-agente: Die V-JEPA 2 KI-model van Meta – Die KI wat ons fisiese wêreld verstaan – Beeld: Xpert.Digital
Meta bied V-JEPA 2 aan: KI-stelsel leer om voorspellings oor die fisiese wêreld te maak
Meta publiseer V-JEPA 2: 'n Revolusionêre KI-wêreldmodel vir die toekoms van kunsmatige intelligensie
Meta het V-JEPA 2 onthul, 'n baanbrekende KI-stelsel wat 'n fundamenteel ander benadering as konvensionele Grand Language Models volg. Hierdie wêreldmodel, met sy 1.2 miljard parameters, is ontwikkel om robotte en ander KI-agente te help om die fisiese wêreld te verstaan en te voorspel hoe dit op hul aksies sal reageer.
Wat is V-JEPA 2 en hoe verskil dit van taalmodelle?
V-JEPA 2 staan vir “Video Joint Embedding Predictive Architecture 2” en is gebaseer op 'n heeltemal ander argitektuur as tradisionele taalmodelle. Terwyl taalmodelle soos ChatGPT of GPT-4 waarskynlikheidsvoorspellings oor teksreekse maak, werk V-JEPA 2 in 'n abstrakte verteenwoordigende ruimte en fokus op die begrip van fisiese wette.
Die deurslaggewende verskil lê in die leermetode: taalmodelle benodig groot hoeveelhede geëtiketteerde data en leer deur middel van toesighoudende opleiding. V-JEPA 2, aan die ander kant, gebruik selftoesighoudende leer en onttrek kennis uit ongeëtiketteerde video's, waardeur die datavoorbereidingskoste aansienlik verminder word. Die model leer nie deur pixelrekonstruksie nie, maar deur abstrakte voorstellings van die video-inhoud.
Die JEPA-argitektuur: Leer deur voorspelling
Die Gesamentlike Inbedding Voorspellende Argitektuur (JEPA) is ontwikkel deur Yann LeCun, Meta se Hoof KI Wetenskaplike, en verteenwoordig 'n alternatief vir generatiewe KI-modelle. Anders as generatiewe benaderings, wat poog om elke ontbrekende pixel te rekonstrueer, werk V-JEPA 2 met gemaskerde videostreke en leer om abstrakte konsepte te voorspel.
Die stelsel gebruik 'n tweefase-opleidingsbenadering:
Eerste fase: Selftoesighoudende leer
- Opleiding met meer as een miljoen uur videomateriaal en een miljoen beelde
- Leer fisiese interaksiepatrone sonder menslike aantekening
- Ontwikkeling van 'n interne model van die fisiese wêreld
Tweede fase: Aksie-geïnduseerde aanpassing
- Fyn afstemming met slegs 62 uur se robotbeheerdata van die DROID-datastel
- Integrasie van agentaksies in voorspellende vermoëns
- Beplanning en geslote-lus beheer moontlik maak
Uitmuntende prestasie in die praktyk
V-JEPA 2 demonstreer indrukwekkende prestasie op verskeie gebiede:
Video-begrip en bewegingsopsporing
- 77.3% Top 1 akkuraatheid in Something-Something v2 datastel
- 39.7% Herroeping-by-5 in Epic-Kitchens-100 aksievoorspelling (44% verbetering teenoor vorige modelle)
- Uitstekende prestasie in verskeie video-vraag-en-antwoord-take
Robotbeheer
- 65-80% sukseskoers in optel-en-plaas take in onbekende omgewings
- Nul-skoot robotbeheer sonder omgewingspesifieke opleiding
- Ontplooiing in twee verskillende laboratoriums met Franka-robotarms
Doeltreffendheid in vergelyking met die kompetisie
V-JEPA 2 is 30 keer vinniger as NVIDIA se Cosmos-model en benodig slegs 16 sekondes om 'n robotaksie te beplan, terwyl Cosmos 4 minute neem.
Tegniese innovasies en belangrike kenmerke
Die model word gekenmerk deur vyf belangrike tegnologiese deurbrake:
- Selftoesighoudende leer: Elimineer die behoefte aan groot hoeveelhede geëtiketteerde data.
- Maskeringsmeganisme: Lei die model op deur verborge videogebiede te voorspel
- Leer van abstrakte voorstelling: Fokus op semantiese betekenisse in plaas van pixelbesonderhede
- Wêreldmodelargitektuur: Die bou van 'n interne begrip van fisiese wette
- Doeltreffende oordragleer: Uitstaande nul-skoot leervermoëns
Nuwe maatstawwe onthul die beperkings van huidige KI
Parallel met V-JEPA 2 het Meta drie nuwe maatstawwe vrygestel wat die fisiese begrip van KI-stelsels toets:
IntFis 2
Dit toets die vermoë om te onderskei tussen fisies aanneemlike en onmoontlike scenario's. Selfs gevorderde modelle presteer steeds amper willekeurig in hierdie opsig.
MVPBench
Dit gebruik visueel soortgelyke videopare met teenoorgestelde antwoorde op dieselfde vraag. V-JEPA 2 behaal 44.5% Gepaarde Akkuraatheid – die beste werkverrigting van alle stelsels wat getoets is.
OorsaaklikeVQA
Die studie ondersoek oorsaaklike begrip en kontrafaktuele redenasie. Die resultate toon dat huidige KI-stelsels goed kan beskryf wat hulle sien, maar dit moeilik vind om alternatiewe uitkomste te voorspel.
KI sonder datahonger: Hoe V-JEPA 2 masjienleer meer doeltreffend maak
Yann LeCun sien wêreldmodelle soos V-JEPA 2 as die sleutel tot die volgende generasie van KI-ontwikkeling. Die model kan verskeie toepassingsgebiede revolusioneer:
Robotika en huishoudelike assistente
Wêreldmodelle is bedoel om 'n nuwe era van robotika in te lui, waarin KI-agente werklike take sal kan hanteer sonder astronomiese hoeveelhede opleidingsdata.
Outonome voertuie
V-JEPA 2 se intydse ruimtelike begrip kan van kritieke belang wees vir outonome voertuie, pakhuisrobotte en hommeltuig-afleweringstelsels.
Aangevulde Realiteit (AR) en virtuele assistente
Meta beplan om die funksionaliteit van V-JEPA 2 uit te brei deur oudio-analise en verbeterde video-begripvermoëns vir AR-brille en virtuele assistente te integreer.
Beskikbaarheid van oopbron en navorsingsbefondsing
Meta het V-JEPA 2 as oopbron vrygestel onder die CC-BY-NC-lisensie om globale KI-navorsing te bevorder. Die modelkode is beskikbaar op GitHub en kan op platforms soos Google Colab en Kaggle uitgevoer word. Hierdie oopheid kontrasteer met baie ander groot KI-modelle en is bedoel om die ontwikkeling van wêreldmodelle in robotika en beliggaamde KI te bevorder.
'n Paradigmaskuif in KI-ontwikkeling
V-JEPA 2 verteenwoordig 'n fundamentele paradigmaverskuiwing van suiwer taalverwerking na 'n dieper begrip van die fisiese wêreld. Terwyl die meeste KI-maatskappye op generatiewe modelle staatmaak, streef Meta 'n alternatiewe visie vir die toekoms van kunsmatige intelligensie na met sy wêreldmodelbenadering. Die vermoë om uit minimale data te leer en nul-skoot robotbeheer moontlik te maak, kan die weg baan vir 'n nuwe generasie intelligente stelsels wat nie net die werklike wêreld kan verstaan nie, maar ook daarin kan optree.
Geskik vir:
Jou globale bemarkings- en besigheidsontwikkelingsvennoot
☑️ Ons besigheidstaal is Engels of Duits
☑️ NUUT: Korrespondensie in jou landstaal!
Ek sal graag jou en my span as 'n persoonlike adviseur dien.
Jy kan my kontak deur die kontakvorm hier in te vul of bel my eenvoudig by +49 89 89 674 804 (München) . My e-posadres is: wolfenstein ∂ xpert.digital
Ek sien uit na ons gesamentlike projek.

