Website -pictogram Xpert.Digital

Voor robots en andere AI-agenten: Meta's V-JEPA 2 AI-model – De AI die onze fysieke wereld begrijpt

Voor robots en andere AI-agenten: Meta's V-JEPA 2 AI-model - De AI die onze fysieke wereld begrijpt

Voor robots en andere AI-agenten: Het V-JEPA 2 AI-model van Meta – De AI die onze fysieke wereld begrijpt – Afbeelding: Xpert.Digital

Meta presenteert V-JEPA 2: een AI-systeem dat leert voorspellingen te doen over de fysieke wereld

Meta publiceert V-JEPA 2: een revolutionair AI-wereldmodel voor de toekomst van kunstmatige intelligentie

Meta heeft V-JEPA 2 onthuld, een baanbrekend AI-systeem dat een fundamenteel andere aanpak hanteert dan conventionele Grand Language Models. Dit wereldmodel, met zijn 1,2 miljard parameters, is ontwikkeld om robots en andere AI-agenten te helpen de fysieke wereld te begrijpen en te voorspellen hoe deze op hun acties zal reageren.

Wat is V-JEPA 2 en waarin verschilt het van taalmodellen?

V-JEPA 2 staat voor "Video Joint Embedding Predictive Architecture 2" en is gebaseerd op een compleet andere architectuur dan traditionele taalmodellen. Waar taalmodellen zoals ChatGPT of GPT-4 probabilistische voorspellingen doen over tekstsequenties, werkt V-JEPA 2 in een abstracte representatieruimte en richt zich op het begrijpen van natuurkundige wetten.

Het cruciale verschil zit hem in de leermethode: taalmodellen vereisen grote hoeveelheden gelabelde data en leren via supervised training. V-JEPA 2 daarentegen gebruikt self-supervised learning en haalt kennis uit ongelabelde video's, waardoor de kosten voor datavoorbereiding aanzienlijk worden verlaagd. Het model leert niet door pixelreconstructie, maar door abstracte representaties van de video-inhoud.

De JEPA-architectuur: leren door middel van voorspellingen

De Joint Embedding Predictive Architecture (JEPA) is ontwikkeld door Yann LeCun, Chief AI Scientist bij Meta, en vormt een alternatief voor generatieve AI-modellen. In tegenstelling tot generatieve benaderingen, die proberen elke ontbrekende pixel te reconstrueren, werkt V-JEPA 2 met gemaskeerde videoregio's en leert het abstracte concepten te voorspellen.

Het systeem maakt gebruik van een tweefasige trainingsaanpak:

Eerste fase: Zelfgestuurd leren

  • Training met meer dan een miljoen uur aan videomateriaal en een miljoen afbeeldingen
  • Het leren van fysieke interactiepatronen zonder menselijke annotatie
  • Ontwikkeling van een intern model van de fysieke wereld

Tweede fase: Actie-geïnduceerde adaptatie

  • Fijn afstellen met slechts 62 uur aan robotbesturingsgegevens uit de DROID-dataset
  • Integratie van agentacties in voorspellende mogelijkheden
  • Planning en gesloten-lusregeling mogelijk maken

Uitstekende prestaties in de praktijk

V-JEPA 2 laat op diverse gebieden indrukwekkende prestaties zien:

Videoanalyse en bewegingsdetectie

  • 77,3% Top 1-nauwkeurigheid in de Something-Something v2-dataset
  • 39,7% Recall-at-5 in Epic-Kitchens-100 actievoorspelling (44% verbetering ten opzichte van eerdere modellen)
  • Uitstekende prestaties bij diverse vraag-en-antwoordopdrachten met video's

Robotbesturing

  • Een succespercentage van 65-80% bij pick-and-place-taken in onbekende omgevingen
  • Zero-shot robotbesturing zonder omgevingsspecifieke training
  • Inzet in twee verschillende laboratoria met Franka-robotarmen

Efficiëntie in vergelijking met de concurrentie

V-JEPA 2 is 30 keer sneller dan NVIDIA's Cosmos-model en heeft slechts 16 seconden nodig om een ​​robotactie te plannen, terwijl Cosmos daar 4 minuten voor nodig heeft.

Technische innovaties en belangrijkste kenmerken

Het model wordt gekenmerkt door vijf belangrijke technologische doorbraken:

  1. Zelfgestuurd leren: Elimineert de behoefte aan grote hoeveelheden gelabelde data
  2. Maskeringsmechanisme: Traint het model door verborgen videogebieden te voorspellen
  3. Abstracte representatieleer: focus op semantische betekenissen in plaats van pixeldetails
  4. Wereldmodelarchitectuur: Het ontwikkelen van een innerlijk begrip van natuurwetten
  5. Efficiënt transferleren: Uitstekende vaardigheden op het gebied van zero-shot learning

Nieuwe benchmarks onthullen de beperkingen van de huidige AI

Parallel aan V-JEPA 2 heeft Meta drie nieuwe benchmarks uitgebracht die het fysieke begrip van AI-systemen testen:

IntPhys 2

Het test het vermogen om onderscheid te maken tussen fysiek plausibele en onmogelijke scenario's. Zelfs geavanceerde modellen presteren in dit opzicht nog steeds bijna willekeurig.

MVPBench

Het maakt gebruik van visueel vergelijkbare videoparen met tegenstrijdige antwoorden op dezelfde vraag. V-JEPA 2 behaalt een gepaarde nauwkeurigheid van 44,5% – de beste prestatie van alle geteste systemen.

CausalVQA

De studie onderzoekt causaal begrip en contrafeitelijk redeneren. De resultaten laten zien dat huidige AI-systemen goed kunnen beschrijven wat ze zien, maar moeite hebben met het voorspellen van alternatieve uitkomsten.

AI zonder datahonger: hoe V-JEPA 2 machine learning efficiënter maakt

Yann LeCun ziet wereldmodellen zoals V-JEPA 2 als de sleutel tot de volgende generatie AI-ontwikkeling. Het model zou een revolutie teweeg kunnen brengen in diverse toepassingsgebieden:

Robotica en huishoudelijke assistenten

Wereldmodellen zijn bedoeld om een ​​nieuw tijdperk van robotica in te luiden, waarin AI-agenten in staat zullen zijn om taken uit de echte wereld uit te voeren zonder astronomische hoeveelheden trainingsdata.

Autonome voertuigen

Het realtime ruimtelijk inzicht van V-JEPA 2 zou cruciaal kunnen zijn voor autonome voertuigen, magazijnrobots en dronebezorgsystemen.

Augmented Reality (AR) en virtuele assistenten

Meta is van plan de functionaliteit van V-JEPA 2 uit te breiden door audioanalyse en verbeterde mogelijkheden voor video-interpretatie te integreren voor AR-brillen en virtuele assistenten.

Beschikbaarheid van open source-bronnen en onderzoeksfinanciering

Meta heeft V-JEPA 2 als open source uitgebracht onder de CC-BY-NC-licentie om wereldwijd AI-onderzoek te bevorderen. De modelcode is beschikbaar op GitHub en kan worden uitgevoerd op platforms zoals Google Colab en Kaggle. Deze openheid contrasteert met veel andere grote AI-modellen en is bedoeld om de ontwikkeling van wereldmodellen in robotica en belichaamde AI te stimuleren.

Een paradigmaverschuiving in de ontwikkeling van AI

V-JEPA 2 vertegenwoordigt een fundamentele paradigmaverschuiving van pure taalverwerking naar een dieper begrip van de fysieke wereld. Terwijl de meeste AI-bedrijven vertrouwen op generatieve modellen, streeft Meta een alternatieve visie na voor de toekomst van kunstmatige intelligentie met zijn wereldmodelbenadering. De mogelijkheid om te leren met minimale data en zero-shot robotbesturing mogelijk te maken, zou de weg kunnen vrijmaken voor een nieuwe generatie intelligente systemen die niet alleen de echte wereld kunnen begrijpen, maar er ook naar kunnen handelen.

Geschikt hiervoor:

 

Uw wereldwijde partner voor marketing en bedrijfsontwikkeling

☑️ onze zakelijke taal is Engels of Duits

☑️ Nieuw: correspondentie in uw nationale taal!

 

Konrad Wolfenstein

Ik ben blij dat ik beschikbaar ben voor jou en mijn team als een persoonlijk consultant.

U kunt contact met mij opnemen door het contactformulier hier in te vullen of u gewoon te bellen op +49 89 674 804 (München) . Mijn e -mailadres is: Wolfenstein Xpert.Digital

Ik kijk uit naar ons gezamenlijke project.

 

 

☑️ MKB -ondersteuning in strategie, advies, planning en implementatie

☑️ Creatie of herschikking van de digitale strategie en digitalisering

☑️ Uitbreiding en optimalisatie van de internationale verkoopprocessen

☑️ Wereldwijde en digitale B2B -handelsplatforms

☑️ Pioneer Business Development / Marketing / PR / Maatregel

Verlaat de mobiele versie