⭐️ Künstliche Intelligenz (KI) - AI-Blog, Hotspot und Content-Hub ⭐️ Robotics/Robotik ⭐️ XPaper

Available in 27 languages 📢

Für Roboter und andere KI-Agenten: Das KI-Modell V-JEPA 2 von Meta – Die KI, die unsere physische Welt versteht

Veröffentlicht am: 13. Juni 2025 / Update vom: 13. Juni 2025 – Verfasser: Konrad Wolfenstein

Für Roboter und andere KI-Agenten: Das KI-Modell V-JEPA 2 von Meta – Die KI, die unsere physische Welt versteht – Bild: Xpert.Digital

Meta stellt V-JEPA 2 vor: KI-System lernt Vorhersagen über die physische Welt

Meta veröffentlicht V-JEPA 2: Ein revolutionäres KI-Weltmodell für die Zukunft der Künstlichen Intelligenz

Meta hat mit V-JEPA 2 ein bahnbrechendes KI-System vorgestellt, das einen grundlegend anderen Ansatz als herkömmliche Große Sprachmodelle verfolgt. Das 1,2 Milliarden Parameter starke Weltmodell wurde entwickelt, um Robotern und anderen KI-Agenten zu helfen, die physische Welt zu verstehen und vorherzusagen, wie sie auf ihre Handlungen reagieren wird.

Was ist V-JEPA 2 und wie unterscheidet es sich von Sprachmodellen?

V-JEPA 2 steht für „Video Joint Embedding Predictive Architecture 2“ und basiert auf einer völlig anderen Architektur als traditionelle Sprachmodelle. Während Sprachmodelle wie ChatGPT oder GPT-4 probabilistische Vorhersagen über Textsequenzen treffen, arbeitet V-JEPA 2 in einem abstrakten Repräsentationsraum und fokussiert sich auf das Verständnis physikalischer Gesetzmäßigkeiten.

Der entscheidende Unterschied liegt in der Lernmethode: Sprachmodelle benötigen große Mengen an gelabelten Daten und lernen durch überwachtes Training. V-JEPA 2 hingegen nutzt selbstüberwachtes Lernen und extrahiert Wissen aus unlabeled Videos, wodurch die Kosten für Datenvorbereitung erheblich gesenkt werden. Das Modell lernt dabei nicht durch Pixelrekonstruktion, sondern durch abstrakte Repräsentationen der Videoinhalte.

Die JEPA-Architektur: Lernen durch Vorhersage

Die Joint Embedding Predictive Architecture (JEPA) wurde von Yann LeCun, Metas Chief AI Scientist, entwickelt und stellt eine Alternative zu generativen KI-Modellen dar. Im Gegensatz zu generativen Ansätzen, die versuchen, jeden fehlenden Pixel zu rekonstruieren, arbeitet V-JEPA 2 mit maskierten Videobereichen und lernt dabei, abstrakte Konzepte vorherzusagen.

Das System nutzt einen zweistufigen Trainingsansatz:

Erste Phase: Selbstüberwachtes Lernen

Training mit über einer Million Stunden Videomaterial und einer Million Bildern
Lernen physikalischer Interaktionsmuster ohne menschliche Annotation
Entwicklung eines internen Modells der physischen Welt

Zweite Phase: Aktionsbedingte Anpassung

Feinabstimmung mit nur 62 Stunden Roboter-Kontrolldaten aus dem DROID-Datensatz
Integration von Agentenaktionen in die Vorhersagefähigkeiten
Ermöglichung von Planung und geschlossener Regelkreissteuerung

Überlegene Leistung in der Praxis

V-JEPA 2 demonstriert beeindruckende Leistungen in verschiedenen Bereichen:

Videoverständnis und Bewegungserkennung

77,3% Top-1-Genauigkeit bei Something-Something v2-Datensatz
39,7% Recall-at-5 bei Epic-Kitchens-100 Aktionsvorhersage (44% Verbesserung gegenüber vorherigen Modellen)
State-of-the-art Performance bei verschiedenen Video-Frage-Antwort-Aufgaben

Robotersteuerung

65-80% Erfolgsrate bei Pick-and-Place-Aufgaben in unbekannten Umgebungen
Zero-Shot-Robotersteuerung ohne umgebungsspezifisches Training
Einsatz in zwei verschiedenen Laboren mit Franka-Roboterarmen

Effizienz im Vergleich zur Konkurrenz

V-JEPA 2 ist 30-mal schneller als NVIDIAs Cosmos-Modell und benötigt nur 16 Sekunden für die Planung einer Roboteraktion, während Cosmos 4 Minuten benötigt.

Technische Innovationen und Kernmerkmale

Das Modell zeichnet sich durch fünf zentrale technische Durchbrüche aus:

Selbstüberwachtes Lernen: Eliminiert den Bedarf an großen Mengen gelabelter Daten
Maskierungsmechanismus: Trainiert das Modell durch Vorhersage verdeckter Videobereiche
Abstraktes Repräsentationslernen: Fokus auf semantische Bedeutungen statt Pixeldetails
Weltmodell-Architektur: Aufbau eines internen Verständnisses physikalischer Gesetze
Effizientes Transferlernen: Herausragende Zero-Shot-Lernfähigkeiten

Neue Benchmarks offenbaren Grenzen aktueller KI

Meta hat parallel zu V-JEPA 2 drei neue Benchmarks veröffentlicht, die das physikalische Verständnis von KI-Systemen testen:

IntPhys 2

Testet die Fähigkeit, zwischen physikalisch plausiblen und unmöglichen Szenarien zu unterscheiden. Hier liegen selbst fortgeschrittene Modelle noch nahe dem Zufallsniveau.

MVPBench

Verwendet visuell ähnliche Videopaare mit gegensätzlichen Antworten auf dieselbe Frage. V-JEPA 2 erreicht 44,5% Paired Accuracy – die beste Leistung aller getesteten Systeme.

CausalVQA

Untersucht kausales Verständnis und kontrafaktisches Denken. Die Ergebnisse zeigen, dass aktuelle KI-Systeme gut beschreiben können, was sie sehen, aber Schwierigkeiten bei der Vorhersage alternativer Verläufe haben.

KI ohne Datenhunger: Wie V-JEPA 2 maschinelles Lernen effizienter macht

Yann LeCun sieht in Weltmodellen wie V-JEPA 2 den Schlüssel zur nächsten Generation der KI-Entwicklung. Das Modell könnte verschiedene Anwendungsbereiche revolutionieren:

Robotik und Haushaltsassistenten

Weltmodelle sollen eine neue Ära der Robotik einläuten, in der KI-Agenten reale Aufgaben ohne astronomische Mengen an Trainingsdaten bewältigen können.

Autonome Fahrzeuge

Das räumliche Echtzeitverständnis von V-JEPA 2 könnte für autonome Fahrzeuge, Lagerroboter und Drohnenliefersysteme entscheidend sein.

Erweiterte Realität (AR) und virtuelle Assistenten

Meta plant, die Funktionen von V-JEPA 2 durch Integration von Audioanalyse und erweiterten Videoverständnisfähigkeiten für AR-Brillen und virtuelle Assistenten auszubauen.

Open-Source-Verfügbarkeit und Forschungsförderung

Meta hat V-JEPA 2 unter der CC-BY-NC-Lizenz als Open-Source veröffentlicht, um die globale KI-Forschung zu fördern. Der Modellcode ist auf GitHub verfügbar und kann auf Plattformen wie Google Colab und Kaggle ausgeführt werden. Diese Offenheit steht im Kontrast zu vielen anderen großen KI-Modellen und soll die Entwicklung von Weltmodellen in der Robotik und verkörperten KI vorantreiben.

Ein Paradigmenwechsel in der KI-Entwicklung

V-JEPA 2 repräsentiert einen fundamentalen Paradigmenwechsel von der reinen Sprachverarbeitung hin zu einem tieferen Verständnis der physischen Welt. Während die meisten KI-Unternehmen auf generative Modelle setzen, verfolgt Meta mit seinem Weltmodell-Ansatz eine alternative Vision für die Zukunft der Künstlichen Intelligenz. Die Fähigkeit, aus minimalen Daten zu lernen und Zero-Shot-Robotersteuerung zu ermöglichen, könnte den Weg für eine neue Generation intelligenter Systeme ebnen, die nicht nur verstehen, sondern auch in der realen Welt agieren können.

Passend dazu:

Ihr globaler Marketing und Business Development Partner

☑️ Unsere Geschäftssprache ist Englisch oder Deutsch

☑️ NEU: Schriftverkehr in Ihrer Landessprache!

Konrad Wolfenstein

Gerne stehe ich Ihnen und mein Team als persönlicher Berater zur Verfügung.

Sie können mit mir Kontakt aufnehmen, indem Sie hier das Kontaktformular ausfüllen oder rufen Sie mich einfach unter +49 7348 4088 965 an. Meine E-Mail Adresse lautet: wolfenstein∂xpert.digital

Ich freue mich auf unser gemeinsames Projekt.