Diterbitkan pada: 13 Juni 2025 / Pembaruan dari: 13 Juni 2025 - Penulis: Konrad Wolfenstein
Untuk robot dan agen AI lainnya: AI Model V-Jepa 2 dari Meta-the Ai yang memahami citra dunia fisik kita: xpert.digital
Meta Presents V-Jepa 2: Sistem AI mempelajari prediksi tentang dunia fisik
Meta menerbitkan v-jepa 2: model dunia revolusioner AI untuk masa depan kecerdasan buatan
Dengan V-JEPA 2, Meta telah menyajikan sistem AI inovatif yang mengejar pendekatan mendasar daripada model suara besar konvensional. Model Dunia Kuat Parameter 1,2 miliar dikembangkan untuk membantu robot dan agen AI lainnya untuk memahami dunia fisik dan untuk memprediksi bagaimana ia akan bereaksi terhadap tindakannya.
Apa itu v-jepa 2 dan bagaimana perbedaannya dari model suara?
V-JEPA 2 adalah singkatan dari "Video Joint Embedding Predictive Architecture 2" dan didasarkan pada arsitektur yang sama sekali berbeda dari model suara tradisional. Sementara model suara seperti ChatGPT atau GPT-4 membuat prediksi probabilistik tentang urutan teks, V-JEPA 2 bekerja di ruang representasi abstrak dan berfokus pada pemahaman hukum fisik.
Perbedaan yang menentukan adalah dalam metode pembelajaran: Model bahasa membutuhkan sejumlah besar data berlabel dan belajar melalui pelatihan yang dipantau. V-JEPA 2, di sisi lain, menggunakan pembelajaran dan mengekstraksi pengetahuan yang dipantau sendiri dari video yang tidak diinginkan, yang secara signifikan mengurangi biaya untuk persiapan data. Model ini tidak belajar melalui rekonstruksi piksel, tetapi melalui representasi abstrak dari konten video.
Arsitektur JEPA: Belajar dengan Prediksi
Arsitektur prediktif embedding bersama (JEPA) dikembangkan oleh Yann Lecun, Kepala Ilmuwan AI METAS dan merupakan alternatif untuk model AI generatif. Berbeda dengan pendekatan generatif yang mencoba merekonstruksi setiap piksel yang hilang, V-Jepa 2 bekerja dengan oak video bertopeng dan belajar memprediksi konsep abstrak.
Sistem menggunakan pendekatan pelatihan dua tahap:
Fase Pertama: Pembelajaran yang Diberikan Diri
- Pelatihan dengan lebih dari satu juta jam materi video dan satu juta gambar
- Pelajari pola interaksi fisik tanpa anotasi manusia
- Pengembangan model internal dunia fisik
Fase kedua: adaptasi terkait aksi
- Tuning fine dengan hanya 62 jam data kontrol robot dari set data droid
- Integrasi tindakan agen ke dalam keterampilan prediktif
- Mengaktifkan perencanaan dan kontrol sirkuit kontrol tertutup
Kinerja yang unggul dalam praktik
V-JEPA 2 menunjukkan kinerja yang mengesankan di berbagai bidang:
Pemahaman video dan deteksi gerak
- 77,3% Akurasi Top 1 dalam Sesuatu Kumpulan Data V2
- 39,7% penarikan-AT-5 untuk prakiraan tindakan epik-kitchens-100 (peningkatan 44% dibandingkan dengan model sebelumnya)
- Kinerja canggih dalam berbagai tugas pertanyaan video
Kontrol robot
- Tingkat keberhasilan 65-80% untuk tugas pick-and-place di lingkungan yang tidak diketahui
- Kontrol robot nol-shot tanpa pelatihan spesifik ambient
- Gunakan di dua laboratorium yang berbeda dengan lengan robot Franka
Efisiensi dibandingkan dengan kompetisi
V-JEPA 2 30 kali lebih cepat dari model Cosmos Nvidia dan hanya membutuhkan 16 detik untuk merencanakan aksi robot, sementara Cosmos membutuhkan 4 menit.
Inovasi teknis dan karakteristik utama
Model ini ditandai dengan lima terobosan teknis sentral:
- Pembelajaran yang Diberai sendiri: Menghilangkan kebutuhan akan data berlabel dalam jumlah besar
- Mekanisme Masking: Melatih Model Dengan Memprediksi Area Video Tersembunyi
- Abstrak Pembelajaran Perwakilan: Fokus pada Makna Semantik alih -alih Detail Pixel
- Arsitektur Model Dunia: Pembentukan Pemahaman Internal tentang Hukum Fisik
- Pembelajaran Transfer yang Efisien: Keterampilan Belajar Zero-Shot Luar Biasa
Tolok ukur baru batas nyata dari AI saat ini
Meta telah merilis tiga tolok ukur baru secara paralel dengan V-JEPA 2 yang menguji pemahaman fisik sistem AI:
Intphys 2
Menguji kemampuan untuk membedakan antara skenario yang masuk akal secara fisik dan mustahil. Bahkan model canggih masih mendekati level acak di sini.
MVPBench
Secara visual menggunakan mobil video serupa dengan jawaban yang berlawanan dengan pertanyaan yang sama. V-JEPA 2 mencapai akurasi berpasangan 44,5%-kinerja terbaik dari semua sistem yang diuji.
Causalvqa
Memeriksa pemahaman kausal dan pemikiran kontra -aktual. Hasilnya menunjukkan bahwa sistem AI saat ini dapat dengan baik menggambarkan apa yang mereka lihat tetapi mengalami kesulitan memprediksi kursus alternatif.
AI Tanpa Kelaparan Data: Bagaimana Pembelajaran Mesin V-JEPA 2 Membuat Lebih Efisien
Yann Lecun melihat kunci untuk generasi berikutnya dari pengembangan AI dalam model dunia seperti V-JEPA 2. Model ini dapat merevolusi berbagai bidang aplikasi:
Asisten robotika dan anggaran
Model dunia seharusnya menandai era baru robotika di mana agen AI dapat mengelola tugas nyata tanpa sejumlah data pelatihan.
Kendaraan otonom
Pemahaman spasial waktu nyata dari V-JEPA 2 bisa menjadi sangat penting untuk kendaraan otonom, robot gudang dan sistem pengiriman drone.
Extended Reality (AR) dan asisten virtual
Meta berencana untuk memperluas fungsi V-JEPA 2 dengan mengintegrasikan analisis audio dan memperluas pemahaman video untuk kacamata AR dan asisten virtual.
Ketersediaan Sumber Terbuka dan Promosi Penelitian
Meta telah merilis V-JEPA 2 di bawah lisensi CC-by-NC sebagai sumber terbuka untuk mempromosikan penelitian AI global. Kode model tersedia di GitHub dan dapat dieksekusi pada platform seperti Google Colab dan Kaggle. Keterbukaan ini berbeda dengan banyak model AI besar lainnya dan dimaksudkan untuk mempromosikan pengembangan model dunia dalam robotika dan AI yang diwujudkan.
Pergeseran paradigma dalam pengembangan AI
V-JEPA 2 mewakili pergeseran paradigma mendasar dari pemrosesan bahasa murni ke pemahaman yang lebih dalam tentang dunia fisik. Sementara sebagian besar perusahaan AI mengandalkan model generatif, Meta mengikuti visi alternatif untuk masa depan kecerdasan buatan dengan pendekatan model dunianya. Kemampuan untuk belajar dari data minimal dan memungkinkan kontrol robot zero-shot dapat membuka jalan bagi generasi baru sistem cerdas yang tidak hanya memahami tetapi juga dapat bertindak di dunia nyata.
Cocok untuk:
Mitra pemasaran global dan pengembangan bisnis Anda
☑️ Bahasa bisnis kami adalah Inggris atau Jerman
☑️ BARU: Korespondensi dalam bahasa nasional Anda!
Saya akan dengan senang hati melayani Anda dan tim saya sebagai penasihat pribadi.
Anda dapat menghubungi saya dengan mengisi formulir kontak atau cukup hubungi saya di +49 89 89 674 804 (Munich) . Alamat email saya adalah: wolfenstein ∂ xpert.digital
Saya menantikan proyek bersama kita.