⭐️ Yapay Zeka (AI) -Ai Blog, Hotspot ve Content Hub ⭐ood Robotics/Robotics ⭐ates xpaper

Dil seçimi 📢

Robotlar ve diğer AI ajanları için: Meta'dan AI Model V-JEPA 2-Fiziksel dünyamızı anlayan AI

Yayınlanan: 13 Haziran 2025 / Güncelleme: 13 Haziran 2025 - Yazar: Konrad Wolfenstein

Robotlar ve diğer AI ajanları için: Fiziksel dünya imajımızı anlayan AI Meta-Jepa 2'nin AI Modeli V-JEPA 2: Xpert.digital

Meta V-JEPA 2: AI Sistemi, fiziksel dünya hakkında tahminleri öğrenir

Meta, V-JEPA 2: Yapay Zekanın Geleceği İçin Devrimsel Bir AI Dünya Modeli Yayınlıyor

V-JEPA 2 ile Meta, geleneksel büyük ses modellerinden daha temel bir yaklaşım izleyen çığır açan bir AI sistemi sundu. 1,2 milyar parametre güçlü dünya modeli, robotların ve diğer AI ajanlarının fiziksel dünyayı anlamalarına ve eylemlerine nasıl tepki vereceğini tahmin etmesine yardımcı olmak için geliştirilmiştir.

V-JEPA 2 nedir ve sesli modellerden nasıl farklıdır?

V-JEPA 2, “Video Ortak Gömme Tahmin Mimarisi 2” anlamına gelir ve geleneksel ses modellerinden tamamen farklı bir mimariye dayanmaktadır. ChatGPT veya GPT-4 gibi sesli modeller metin dizileri hakkında olasılıksal tahminler yaparken, V-JEPA 2 soyut bir temsil odasında çalışır ve fiziksel yasaları anlamaya odaklanır.

Belirleyici fark öğrenme yöntemindedir: dil modelleri, izlenen eğitim yoluyla büyük miktarlarda etiketli veri ve öğrenme gerektirir. V-JEPA 2 ise kendi kendini izleyen öğrenme ve istenmeyen videolardan bilgi çıkarmayı kullanır ve bu da veri hazırlama maliyetlerini önemli ölçüde azaltır. Model, piksel rekonstrüksiyonu ile değil, video içeriğinin soyut temsilleri yoluyla öğrenir.

JEPA Mimarisi: Tahminle Öğrenme

Ortak Gömme Tahmin Mimarisi (JEPA), Metas şefi AI bilim adamı Yann Lecun tarafından geliştirilmiştir ve üretken AI modellerine bir alternatif temsil eder. Her eksik piksel yeniden yapılandırmaya çalışan üretken yaklaşımların aksine, V-Jepa 2 maskeli video meşelerle çalışır ve soyut kavramları tahmin etmeyi öğrenir.

Sistem iki aşamalı bir eğitim yaklaşımı kullanır:

Birinci Aşama: Kendi Kendine Göre Öğrenme

Bir milyon saatten fazla video materyali ve bir milyon resim ile eğitim
İnsan ek açıklaması olmadan fiziksel etkileşim modellerini öğrenin
Fiziksel dünyanın iç modelinin geliştirilmesi

İkinci Aşama: Eylem ile İlgili Adaptasyon

Droid veri setinden sadece 62 saatlik robot kontrol verisi ile ince ayar
Temsilci eylemlerinin öngörücü becerilere entegrasyonu
Planlama ve kapalı kontrol devresi kontrolünü etkinleştirme

Uygulamada üstün performans

V-JEPA 2, farklı alanlarda etkileyici performans gösterir:

Video anlayışı ve hareket algılama

Bir Şeyde% 77.3 İlk 1 Doğruluk V2 Veri Seti
Epic-Mutchens-100 Eylem Tahmini için% 39.7 Geri Çağırma-5 (önceki modellere kıyasla% 44 iyileşme)
Çeşitli video sorularında son teknoloji ürünü performans

Robot kontrolü

Bilinmeyen ortamlarda toplama ve yer görevleri için% 65-80 başarı oranı
Ortam spesifik eğitim olmadan sıfır atış robot kontrolü
Franka robot kolları ile iki farklı laboratuvarda kullanın

Rekabete kıyasla verimlilik

V-JEPA 2, Nvidia'nın Cosmos modelinden 30 kat daha hızlıdır ve bir robot eylemi planlamak için sadece 16 saniyeye ihtiyaç duyarken, Cosmos'un 4 dakikaya ihtiyacı vardır.

Teknik yenilikler ve temel özellikler

Model, beş merkezi teknik atılımla karakterize edilir:

Kendi Kendine Göre Öğrenme: Büyük miktarlarda etiketli veri ihtiyacını ortadan kaldırır
Maskeleme Mekanizması: Gizli video alanlarını tahmin ederek modeli eğitiyor
Özet Temsilci Öğrenme: Piksel detayları yerine semantik anlamlara odaklanın
Dünya Model Mimarisi: Fiziksel Yasaların İç Anlaşmasının Oluşturulması
Verimli Transfer Öğrenimi: Olağanüstü Sıfır Gösterme Öğrenme Becerileri

Mevcut yapay zekanın görünen sınırları yeni kriter

Meta, AI sistemlerinin fiziksel anlayışını test eden V-JEPA 2 ile paralel olarak üç yeni ölçüt yayınladı:

Intphys 2

Fiziksel olarak makul ve imkansız senaryolar arasında ayrım yapma yeteneğini test eder. Gelişmiş modeller bile burada rastgele seviyeye yakın.

Mvpbench

Aynı soruya karşı cevaplarla benzer video otomobilleri görsel olarak kullanır. V-JEPA 2, test edilen tüm sistemlerin en iyi performansı-% 44.5 eşleştirilmiş doğruluğa ulaşır.

Causalvqa

Nedensel anlayış ve karşı düşünceyi inceler. Sonuçlar, mevcut AI sistemlerinin gördüklerini iyi tanımlayabileceğini, ancak alternatif kursları tahmin etmekte zorlandığını göstermektedir.

Verilere açlıksız AI: V-Jepa 2 makine öğrenimi nasıl daha verimli hale getirir

Yann Lecun, V-JEPA 2 gibi dünya modellerinde yeni nesil AI gelişiminin anahtarını görüyor. Model, farklı uygulama alanlarında devrim yaratabilir:

Robotik ve Bütçe Asistanları

Dünya modellerinin, AI ajanlarının astronomik eğitim verileri olmadan gerçek görevleri yönetebileceği yeni bir robot dönemini müjdelemesi gerekiyor.

Özerk araçlar

V-JEPA 2'den gerçek zamanlı uzamsal anlayış, otonom araçlar, depo robotları ve dron dağıtım sistemleri için çok önemli olabilir.

Genişletilmiş gerçeklik (AR) ve sanal asistanlar

Meta, ses analizini ve genişletilmiş video anlayışını AR gözlükleri ve sanal asistanlar için entegre ederek V-JEPA 2'nin işlevlerini genişletmeyi planlıyor.

Açık Kaynak Kullanılabilirliği ve Araştırma Tanıtımı

Meta, V-Jepa 2'yi CC-By-NC lisansı altında Global AI araştırmalarını teşvik etmek için açık bir kaynak olarak yayınladı. Model kodu GitHub'da mevcuttur ve Google Colab ve Kaggle gibi platformlarda yürütülebilir. Bu açıklık, diğer birçok büyük AI modelinin aksinedir ve robotik ve somutlaşmış AI'da dünya modellerinin gelişimini teşvik etmeyi amaçlamaktadır.

AI gelişiminde bir paradigma değişimi

V-JEPA 2, saf dil işlemeden fiziksel dünyayı daha derin bir anlayışa kadar temel bir paradigma kaydırır. Çoğu AI şirketi üretken modellere güvenirken, Meta, dünya modeli yaklaşımı ile yapay zekanın geleceği için alternatif bir vizyon izler. Minimal verilerden öğrenme ve sıfır atış robot kontrolünü etkinleştirme yeteneği, sadece anlamakla kalmayıp aynı zamanda gerçek dünyada da hareket edebilen yeni nesil akıllı sistemlerin yolunu açabilir.

İçin uygun:

Küresel pazarlama ve iş geliştirme ortağınız

☑️İş dilimiz İngilizce veya Almancadır

☑️ YENİ: Ulusal dilinizde yazışmalar!

Konrad Wolfenstein

Size ve ekibime kişisel danışman olarak hizmet etmekten mutluluk duyarım.

iletişim formunu doldurarak benimle iletişime geçebilir +49 89 89 674 804 (Münih) numaralı telefondan beni arayabilirsiniz . E-posta adresim: wolfenstein ∂ xpert.digital

Ortak projemizi sabırsızlıkla bekliyorum.