Vir robotte en ander AI-agente: die AI-model V-JEPA 2 van meta-die AI wat ons fisiese wêreld verstaan

Konrad Wolfenstein

6 maande gelede

Vir robotte en ander AI-agente: die AI-model V-JEPA 2 van meta-die AI wat ons fisiese wêreld verstaan

Vir robotte en ander KI-agente: Die V-JEPA 2 KI-model van Meta – Die KI wat ons fisiese wêreld verstaan – Beeld: Xpert.Digital

Meta bied V-JEPA 2 aan: KI-stelsel leer om voorspellings oor die fisiese wêreld te maak

Meta publiseer V-JEPA 2: 'n Revolusionêre KI-wêreldmodel vir die toekoms van kunsmatige intelligensie

Meta het V-JEPA 2 onthul, 'n baanbrekende KI-stelsel wat 'n fundamenteel ander benadering as konvensionele Grand Language Models volg. Hierdie wêreldmodel, met sy 1.2 miljard parameters, is ontwikkel om robotte en ander KI-agente te help om die fisiese wêreld te verstaan en te voorspel hoe dit op hul aksies sal reageer.

Wat is V-JEPA 2 en hoe verskil dit van taalmodelle?

V-JEPA 2 staan vir “Video Joint Embedding Predictive Architecture 2” en is gebaseer op 'n heeltemal ander argitektuur as tradisionele taalmodelle. Terwyl taalmodelle soos ChatGPT of GPT-4 waarskynlikheidsvoorspellings oor teksreekse maak, werk V-JEPA 2 in 'n abstrakte verteenwoordigende ruimte en fokus op die begrip van fisiese wette.

Die deurslaggewende verskil lê in die leermetode: taalmodelle benodig groot hoeveelhede geëtiketteerde data en leer deur middel van toesighoudende opleiding. V-JEPA 2, aan die ander kant, gebruik selftoesighoudende leer en onttrek kennis uit ongeëtiketteerde video's, waardeur die datavoorbereidingskoste aansienlik verminder word. Die model leer nie deur pixelrekonstruksie nie, maar deur abstrakte voorstellings van die video-inhoud.

Die JEPA-argitektuur: Leer deur voorspelling

Die Gesamentlike Inbedding Voorspellende Argitektuur (JEPA) is ontwikkel deur Yann LeCun, Meta se Hoof KI Wetenskaplike, en verteenwoordig 'n alternatief vir generatiewe KI-modelle. Anders as generatiewe benaderings, wat poog om elke ontbrekende pixel te rekonstrueer, werk V-JEPA 2 met gemaskerde videostreke en leer om abstrakte konsepte te voorspel.

Die stelsel gebruik 'n tweefase-opleidingsbenadering:

Eerste fase: Selftoesighoudende leer

Opleiding met meer as een miljoen uur videomateriaal en een miljoen beelde
Leer fisiese interaksiepatrone sonder menslike aantekening
Ontwikkeling van 'n interne model van die fisiese wêreld

Tweede fase: Aksie-geïnduseerde aanpassing

Fyn afstemming met slegs 62 uur se robotbeheerdata van die DROID-datastel
Integrasie van agentaksies in voorspellende vermoëns
Beplanning en geslote-lus beheer moontlik maak

Uitmuntende prestasie in die praktyk

V-JEPA 2 demonstreer indrukwekkende prestasie op verskeie gebiede:

Video-begrip en bewegingsopsporing

77.3% Top 1 akkuraatheid in Something-Something v2 datastel
39.7% Herroeping-by-5 in Epic-Kitchens-100 aksievoorspelling (44% verbetering teenoor vorige modelle)
Uitstekende prestasie in verskeie video-vraag-en-antwoord-take

Robotbeheer

65-80% sukseskoers in optel-en-plaas take in onbekende omgewings
Nul-skoot robotbeheer sonder omgewingspesifieke opleiding
Ontplooiing in twee verskillende laboratoriums met Franka-robotarms

Doeltreffendheid in vergelyking met die kompetisie

V-JEPA 2 is 30 keer vinniger as NVIDIA se Cosmos-model en benodig slegs 16 sekondes om 'n robotaksie te beplan, terwyl Cosmos 4 minute neem.

Tegniese innovasies en belangrike kenmerke

Die model word gekenmerk deur vyf belangrike tegnologiese deurbrake:

Selftoesighoudende leer: Elimineer die behoefte aan groot hoeveelhede geëtiketteerde data.
Maskeringsmeganisme: Lei die model op deur verborge videogebiede te voorspel
Leer van abstrakte voorstelling: Fokus op semantiese betekenisse in plaas van pixelbesonderhede
Wêreldmodelargitektuur: Die bou van 'n interne begrip van fisiese wette
Doeltreffende oordragleer: Uitstaande nul-skoot leervermoëns

Nuwe maatstawwe onthul die beperkings van huidige KI

Parallel met V-JEPA 2 het Meta drie nuwe maatstawwe vrygestel wat die fisiese begrip van KI-stelsels toets:

IntFis 2

Dit toets die vermoë om te onderskei tussen fisies aanneemlike en onmoontlike scenario's. Selfs gevorderde modelle presteer steeds amper willekeurig in hierdie opsig.

MVPBench

Dit gebruik visueel soortgelyke videopare met teenoorgestelde antwoorde op dieselfde vraag. V-JEPA 2 behaal 44.5% Gepaarde Akkuraatheid – die beste werkverrigting van alle stelsels wat getoets is.

OorsaaklikeVQA

Die studie ondersoek oorsaaklike begrip en kontrafaktuele redenasie. Die resultate toon dat huidige KI-stelsels goed kan beskryf wat hulle sien, maar dit moeilik vind om alternatiewe uitkomste te voorspel.

KI sonder datahonger: Hoe V-JEPA 2 masjienleer meer doeltreffend maak

Yann LeCun sien wêreldmodelle soos V-JEPA 2 as die sleutel tot die volgende generasie van KI-ontwikkeling. Die model kan verskeie toepassingsgebiede revolusioneer:

Robotika en huishoudelike assistente

Wêreldmodelle is bedoel om 'n nuwe era van robotika in te lui, waarin KI-agente werklike take sal kan hanteer sonder astronomiese hoeveelhede opleidingsdata.

Outonome voertuie

V-JEPA 2 se intydse ruimtelike begrip kan van kritieke belang wees vir outonome voertuie, pakhuisrobotte en hommeltuig-afleweringstelsels.

Aangevulde Realiteit (AR) en virtuele assistente

Meta beplan om die funksionaliteit van V-JEPA 2 uit te brei deur oudio-analise en verbeterde video-begripvermoëns vir AR-brille en virtuele assistente te integreer.

Beskikbaarheid van oopbron en navorsingsbefondsing

Meta het V-JEPA 2 as oopbron vrygestel onder die CC-BY-NC-lisensie om globale KI-navorsing te bevorder. Die modelkode is beskikbaar op GitHub en kan op platforms soos Google Colab en Kaggle uitgevoer word. Hierdie oopheid kontrasteer met baie ander groot KI-modelle en is bedoel om die ontwikkeling van wêreldmodelle in robotika en beliggaamde KI te bevorder.

'n Paradigmaskuif in KI-ontwikkeling

V-JEPA 2 verteenwoordig 'n fundamentele paradigmaverskuiwing van suiwer taalverwerking na 'n dieper begrip van die fisiese wêreld. Terwyl die meeste KI-maatskappye op generatiewe modelle staatmaak, streef Meta 'n alternatiewe visie vir die toekoms van kunsmatige intelligensie na met sy wêreldmodelbenadering. Die vermoë om uit minimale data te leer en nul-skoot robotbeheer moontlik te maak, kan die weg baan vir 'n nuwe generasie intelligente stelsels wat nie net die werklike wêreld kan verstaan nie, maar ook daarin kan optree.

Geskik vir:

Jou globale bemarkings- en besigheidsontwikkelingsvennoot

☑️ Ons besigheidstaal is Engels of Duits

☑️ NUUT: Korrespondensie in jou landstaal!

Konrad Wolfenstein

Ek sal graag jou en my span as 'n persoonlike adviseur dien.

Jy kan my kontak deur die kontakvorm hier in te vul of bel my eenvoudig by +49 89 89 674 804 (München) . My e-posadres is: wolfenstein ∂ xpert.digital

Ek sien uit na ons gesamentlike projek.

Vir robotte en ander AI-agente: die AI-model V-JEPA 2 van meta-die AI wat ons fisiese wêreld verstaan

Meta bied V-JEPA 2 aan: KI-stelsel leer om voorspellings oor die fisiese wêreld te maak

Meta publiseer V-JEPA 2: 'n Revolusionêre KI-wêreldmodel vir die toekoms van kunsmatige intelligensie

Wat is V-JEPA 2 en hoe verskil dit van taalmodelle?