Spraakselectie 📢


Voor robots en andere AI-agenten: het AI Model V-Jepa 2 van Meta-The AI ​​die onze fysieke wereld begrijpt

Gepubliceerd op: 13 juni 2025 / UPDATE VAN: 13 juni 2025 - Auteur: Konrad Wolfenstein

Voor robots en andere AI-agenten: het AI Model V-Jepa 2 van Meta-The AI ​​die onze fysieke wereld begrijpt

Voor robots en andere AI-agenten: de AI Model V-Jepa 2 van Meta-The AI ​​die ons fysieke wereldbeeld begrijpt: Xpert.Digital

Meta presenteert V-JEPA 2: AI System leert voorspellingen over de fysieke wereld

Meta publiceert V-JEPA 2: een revolutionair AI-wereldmodel voor de toekomst van kunstmatige intelligentie

Met V-JEPA 2 heeft Meta een baanbrekend AI-systeem gepresenteerd dat een fundamentele aanpak volgt dan conventionele grote stemmodellen. Het Strong World -model van 1,2 miljard is ontwikkeld om robots en andere AI -agenten te helpen de fysieke wereld te begrijpen en te voorspellen hoe het zal reageren op zijn acties.

Wat is V-JEPA 2 en hoe verschilt het van spraakmodellen?

V-JEPA 2 staat voor "Video Joint Inbedding Predictive Architecture 2" en is gebaseerd op een compleet andere architectuur dan traditionele spraakmodellen. Terwijl spraakmodellen zoals Chatgpt of GPT-4 probabilistische voorspellingen doen over tekstsequenties, werkt V-JEPA 2 in een abstracte representatieruimte en richt zich op het begrijpen van fysieke wetten.

Het beslissende verschil ligt in de leermethode: taalmodellen vereisen grote hoeveelheden gelabelde gegevens en leren door middel van gecontroleerde training. V-JEPA 2 daarentegen maakt gebruik van zelfgemaakte leren en het extraheren van kennis van onvoltooide video's, wat de kosten voor gegevensvoorbereiding aanzienlijk verlaagt. Het model leert niet door pixelreconstructie, maar door abstracte representaties van de video -inhoud.

The Jepa Architecture: Learning by Prediction

De gezamenlijke inbedding voorspellende architectuur (JEPA) is ontwikkeld door Yann Lecun, metas Chief AI -wetenschapper en vertegenwoordigt een alternatief voor generatieve AI -modellen. In tegenstelling tot generatieve benaderingen die proberen elke ontbrekende pixel te reconstrueren, werkt V-JEPA 2 met gemaskerde video-eiken en leert abstracte concepten te voorspellen.

Het systeem gebruikt een trainingsaanpak met twee fasen:

Eerste fase: zelfgemonteerd leren

  • Trainen met meer dan een miljoen uur videomateriaal en een miljoen foto's
  • Leer fysieke interactiepatronen zonder menselijke annotatie
  • Ontwikkeling van een intern model van de fysieke wereld

Tweede fase: actie -gerelateerde aanpassing

  • Fijn afstemming met slechts 62 uur robotbesturingsgegevens uit de Droid -gegevensset
  • Integratie van agentacties in de voorspellende vaardigheden
  • Het inschakelen van planning en gesloten besturingscircuitbesturing

Superieure prestaties in de praktijk

V-JEPA 2 toont indrukwekkende prestaties in verschillende gebieden:

Video -begrip en bewegingsdetectie

  • 77,3% top 1 nauwkeurigheid in iets iets V2 -gegevensset
  • 39,7% terugroepen-5 voor Epic-Kitchens-100-actievoorspelling (44% verbetering in vergelijking met eerdere modellen)
  • State-of-the-art prestaties in verschillende videotragen Responstaken

Robotbesturing

  • 65-80% slagingspercentage voor pick-and-place-taken in onbekende omgevingen
  • Zero-shot robotbesturing zonder omgevingspecifieke training
  • Gebruik in twee verschillende laboratoria met Franka Robot Arms

Efficiëntie vergeleken met de concurrentie

V-JEPA 2 is 30 keer sneller dan het Cosmos-model van Nvidia en heeft slechts 16 seconden nodig om een ​​robotactie te plannen, terwijl Cosmos 4 minuten nodig heeft.

Technische innovaties en belangrijke kenmerken

Het model wordt gekenmerkt door vijf centrale technische doorbraken:

  1. Zelfgemonteerd leren: elimineert de behoefte aan grote hoeveelheden gelabelde gegevens
  2. Maskeermechanisme: traint het model door verborgen videogebieden te voorspellen
  3. Abstract representatief leren: focus op semantische betekenissen in plaats van pixeldetails
  4. Wereldmodelarchitectuur: oprichting van een intern begrip van fysieke wetten
  5. Efficiënt overdracht leren: uitstekende nul-shot leervaardigheden

Nieuwe benchmarks schijnbare grenzen van huidige AI

Meta heeft drie nieuwe benchmarks vrijgegeven parallel met V-JEPA 2 die het fysieke begrip van AI-systemen testen:

Intphys 2

Tests het vermogen om onderscheid te maken tussen fysiek plausibele en onmogelijke scenario's. Zelfs geavanceerde modellen zijn hier nog steeds dicht bij willekeurig niveau.

MVPBench

Gebruikt visueel vergelijkbare video -auto's met tegengestelde antwoorden op dezelfde vraag. V-JEPA 2 bereikt 44,5% gepaarde nauwkeurigheid-de beste prestaties van alle geteste systemen.

Causalvqa

Onderzoekt causaal begrip en tegen -actueel denken. De resultaten laten zien dat huidige AI -systemen goed kunnen beschrijven wat ze zien, maar moeite hebben met het voorspellen van alternatieve cursussen.

AI zonder honger naar gegevens: hoe V-Jepa 2 machine learning efficiënter maakt

Yann Lecun ziet de sleutel tot de volgende generatie AI-ontwikkeling in wereldmodellen zoals V-Jepa 2. Het model kan een revolutie teweegbrengen in verschillende toepassingsgebieden:

Robotica en budgetassistenten

Wereldmodellen worden verondersteld een nieuw tijdperk van robotica in te luiden waarin AI -agenten echte taken kunnen beheren zonder astronomische hoeveelheden trainingsgegevens.

Autonome voertuigen

Het ruimtelijke begrip van realtime van V-JEPA 2 kan cruciaal zijn voor autonome voertuigen, magazijnrobots en drone-leveringssystemen.

Extended Reality (AR) en virtuele assistenten

Meta is van plan de functies van V-JEPA 2 uit te breiden door audio-analyse en uitgebreide video-begrip voor AR-bril en virtuele assistenten te integreren.

Open source beschikbaarheid en onderzoekspromotie

Meta heeft V-JEPA 2 uitgebracht onder de CC-BY-NC-licentie als een open source om Global AI-onderzoek te promoten. De modelcode is beschikbaar op GitHub en kan worden uitgevoerd op platforms zoals Google Colab en Kaggle. Deze openheid staat in tegenstelling tot veel andere grote AI -modellen en is bedoeld om de ontwikkeling van wereldmodellen in robotica te bevorderen en AI te belichaamd.

Een paradigmaverschuiving in AI -ontwikkeling

V-JEPA 2 vertegenwoordigt een fundamentele paradigmaverschuiving van pure taalverwerking naar een dieper begrip van de fysieke wereld. Terwijl de meeste AI -bedrijven vertrouwen op generatieve modellen, volgt Meta een alternatieve visie op de toekomst van kunstmatige intelligentie met zijn wereldmodelbenadering. De mogelijkheid om te leren van minimale gegevens en nul-shot robotbesturing mogelijk te maken, kan de weg vrijmaken voor een nieuwe generatie intelligente systemen die niet alleen begrijpen maar ook in de echte wereld kunnen handelen.

Geschikt hiervoor:

 

Uw wereldwijde partner voor marketing en bedrijfsontwikkeling

☑️ onze zakelijke taal is Engels of Duits

☑️ Nieuw: correspondentie in uw nationale taal!

 

Digital Pioneer - Konrad Wolfenstein

Konrad Wolfenstein

Ik ben blij dat ik beschikbaar ben voor jou en mijn team als een persoonlijk consultant.

U kunt contact met mij opnemen door het contactformulier hier in te vullen of u gewoon te bellen op +49 89 674 804 (München) . Mijn e -mailadres is: Wolfenstein Xpert.Digital

Ik kijk uit naar ons gezamenlijke project.

 

 

☑️ MKB -ondersteuning in strategie, advies, planning en implementatie

☑️ Creatie of herschikking van de digitale strategie en digitalisering

☑️ Uitbreiding en optimalisatie van de internationale verkoopprocessen

☑️ Wereldwijde en digitale B2B -handelsplatforms

☑️ Pioneer Business Development / Marketing / PR / Maatregel


⭐️ Artificial Intelligence (AI) -AI Blog, hotspot en content hub ⭐️ Robotica/robotica ⭐️ XPaper