⭐️ Yapay Zeka (YZ) - YZ Blogu, Etkileşim Noktası ve İçerik Merkezi ⭐️ Robotik ⭐️ XPaper

Dil seçimi 📢

Robotlar ve diğer AI ajanları için: Meta'dan AI Model V-JEPA 2-Fiziksel dünyamızı anlayan AI

Yayınlanma tarihi: 13 Haziran 2025 / Güncelleme tarihi: 13 Haziran 2025 – Yazar: Konrad Wolfenstein

Robotlar ve diğer yapay zekâ ajanları için: Meta'nın V-JEPA 2 yapay zekâ modeli – Fiziksel dünyamızı anlayan yapay zekâ – Görsel: Xpert.Digital

Meta, V-JEPA 2'yi sunuyor: Yapay zeka sistemi fiziksel dünya hakkında tahminlerde bulunmayı öğreniyor

Meta, yapay zekanın geleceği için devrim niteliğinde bir yapay zeka dünya modeli olan V-JEPA 2'yi yayınladı

Meta, geleneksel Büyük Dil Modellerinden temelde farklı bir yaklaşım benimseyen çığır açıcı bir yapay zeka sistemi olan V-JEPA 2'yi tanıttı. 1,2 milyar parametreye sahip bu dünya modeli, robotların ve diğer yapay zeka ajanlarının fiziksel dünyayı anlamalarına ve eylemlerine nasıl tepki vereceğini tahmin etmelerine yardımcı olmak için geliştirildi.

V-JEPA 2 nedir ve dil modellerinden farkı nedir?

V-JEPA 2, "Video Joint Embedding Predictive Architecture 2" anlamına gelir ve geleneksel dil modellerinden tamamen farklı bir mimariye dayanmaktadır. ChatGPT veya GPT-4 gibi dil modelleri metin dizileri hakkında olasılıksal tahminler yaparken, V-JEPA 2 soyut bir temsil alanında çalışır ve fiziksel yasaları anlamaya odaklanır.

En önemli fark öğrenme yönteminde yatmaktadır: dil modelleri büyük miktarda etiketli veri gerektirir ve denetimli eğitim yoluyla öğrenir. V-JEPA 2 ise kendi kendine denetimli öğrenmeyi kullanır ve etiketlenmemiş videolardan bilgi çıkararak veri hazırlama maliyetlerini önemli ölçüde azaltır. Model, piksel yeniden yapılandırması yoluyla değil, video içeriğinin soyut temsilleri yoluyla öğrenir.

JEPA mimarisi: Tahmin yoluyla öğrenme

Ortak Gömme Tahmin Mimarisi (JEPA), Meta'nın Baş Yapay Zeka Bilimcisi Yann LeCun tarafından geliştirilmiştir ve üretken yapay zeka modellerine bir alternatif sunmaktadır. Her eksik pikseli yeniden oluşturmaya çalışan üretken yaklaşımların aksine, V-JEPA 2 maskelenmiş video bölgeleriyle çalışır ve soyut kavramları tahmin etmeyi öğrenir.

Sistem iki aşamalı bir eğitim yaklaşımı kullanmaktadır:

Birinci aşama: Kendi kendine denetimli öğrenme

Bir milyondan fazla saatlik video materyali ve bir milyon görsel içeren eğitim
İnsan müdahalesi olmadan fiziksel etkileşim kalıplarını öğrenme
Fiziksel dünyanın içsel bir modelinin geliştirilmesi

İkinci aşama: Eylem kaynaklı adaptasyon

DROID veri setinden elde edilen yalnızca 62 saatlik robot kontrol verileriyle ince ayar yapıldı
Ajan eylemlerinin tahmin yeteneklerine entegrasyonu
Planlama ve kapalı döngü kontrolünün sağlanması

Pratikte üstün performans

V-JEPA 2 çeşitli alanlarda etkileyici bir performans sergiliyor:

Video anlama ve hareket algılama

Something-Something v2 veri setinde %77,3 ile en yüksek doğruluk oranı
Epic-Kitchens-100 eylem tahmininde %39,7'lik 5 dakikalık hatırlama oranı (%44 önceki modellere göre iyileşme)
Çeşitli video soru-cevap görevlerinde en üst düzey performans

Robot kontrolü

Tanıdık olmayan ortamlarda alma ve yerleştirme görevlerinde %65-80 başarı oranı
Ortama özgü eğitim gerektirmeyen sıfır atışlı robot kontrolü
Franka robot kollarının iki farklı laboratuvarda konuşlandırılması

Rakiplere kıyasla verimlilik

V-JEPA 2, NVIDIA'nın Cosmos modelinden 30 kat daha hızlı ve bir robot eylemini planlamak için sadece 16 saniyeye ihtiyaç duyarken, Cosmos'un bu işlemi 4 dakika sürüyor.

Teknik yenilikler ve temel özellikler

Bu model, beş temel teknolojik atılımla karakterize edilir:

Kendi kendine denetimli öğrenme: Büyük miktarda etiketlenmiş veriye olan ihtiyacı ortadan kaldırır
Maskeleme mekanizması: Gizli video alanlarını tahmin ederek modeli eğitir
Soyut temsil öğrenimi: Piksel ayrıntıları yerine anlamsal anlamlara odaklanma
Dünya modeli mimarisi: Fiziksel yasaların içsel bir anlayışını oluşturmak
Etkin transfer öğrenimi: Olağanüstü sıfır atışlı öğrenme yetenekleri

Yeni kıyaslama testleri, mevcut yapay zekanın sınırlarını ortaya koyuyor

Meta, V-JEPA 2'ye paralel olarak, yapay zeka sistemlerinin fiziksel anlayışını test eden üç yeni kıyaslama testi yayınladı:

Uluslararası Fizik 2

Bu, fiziksel olarak mümkün olan ve imkansız senaryolar arasında ayrım yapabilme yeteneğini test eder. Gelişmiş modeller bile bu konuda rastgeleliğe yakın bir performans sergiler.

MVPBench

Görsel olarak benzer video çiftlerini kullanarak aynı soruya zıt cevaplar veriyor. V-JEPA 2, %44,5'lik Eşleştirilmiş Doğruluk oranıyla test edilen tüm sistemler arasında en iyi performansı sergiliyor.

NedenselVQA

Bu çalışma, nedensel anlayış ve karşıolgusal akıl yürütmeyi inceliyor. Sonuçlar, mevcut yapay zeka sistemlerinin gördüklerini iyi bir şekilde tanımlayabildiğini, ancak alternatif sonuçları tahmin etmekte zorlandığını gösteriyor.

Veri açlığı olmadan yapay zeka: V-JEPA 2, makine öğrenimini nasıl daha verimli hale getiriyor?

Yann LeCun, V-JEPA 2 gibi dünya modellerini yeni nesil yapay zeka gelişiminin anahtarı olarak görüyor. Bu model, çeşitli uygulama alanlarında devrim yaratabilir:

Robotik ve ev yardımcıları

Dünya modelleri, yapay zekâ ajanlarının astronomik miktarda eğitim verisine ihtiyaç duymadan gerçek dünya görevlerini yerine getirebileceği yeni bir robotik çağını başlatmayı amaçlamaktadır.

Otonom araçlar

V-JEPA 2'nin gerçek zamanlı mekansal algılama yeteneği, otonom araçlar, depo robotları ve drone teslimat sistemleri için çok önemli olabilir.

Artırılmış Gerçeklik (AR) ve sanal asistanlar

Meta, V-JEPA 2'nin işlevselliğini, artırılmış gerçeklik gözlükleri ve sanal asistanlar için ses analizi ve gelişmiş video anlama yeteneklerini entegre ederek genişletmeyi planlıyor.

Açık kaynak kodlu yazılımlara erişim ve araştırma finansmanı

Meta, küresel yapay zeka araştırmalarını desteklemek amacıyla V-JEPA 2'yi CC-BY-NC lisansı altında açık kaynak olarak yayınladı. Model kodu GitHub'da mevcuttur ve Google Colab ve Kaggle gibi platformlarda çalıştırılabilir. Bu açıklık, diğer birçok büyük yapay zeka modeliyle tezat oluşturmakta ve robotik ve somutlaştırılmış yapay zeka alanlarında dünya modellerinin geliştirilmesini ilerletmeyi amaçlamaktadır.

Yapay zeka gelişiminde bir paradigma değişimi

V-JEPA 2, saf dil işlemeden fiziksel dünyaya dair daha derin bir anlayışa doğru temel bir paradigma değişimini temsil ediyor. Çoğu yapay zeka şirketi üretken modellere güvenirken, Meta, dünya modeli yaklaşımıyla yapay zekanın geleceği için alternatif bir vizyon izliyor. Minimum veriden öğrenme ve sıfır atışlı robot kontrolü sağlama yeteneği, yalnızca anlamakla kalmayıp aynı zamanda gerçek dünyada hareket edebilen yeni nesil akıllı sistemlerin yolunu açabilir.

İçin uygun:

Küresel pazarlama ve iş geliştirme ortağınız

☑️İş dilimiz İngilizce veya Almancadır

☑️ YENİ: Ulusal dilinizde yazışmalar!

Konrad Wolfenstein

Size ve ekibime kişisel danışman olarak hizmet etmekten mutluluk duyarım.

iletişim formunu doldurarak benimle iletişime geçebilir +49 89 89 674 804 (Münih) numaralı telefondan beni arayabilirsiniz . E-posta adresim: wolfenstein ∂ xpert.digital

Ortak projemizi sabırsızlıkla bekliyorum.