Pemilihan suara 📢


Untuk robot dan agen AI lainnya: Model AI V-JEPA 2 dari Meta – AI yang memahami dunia fisik kita

Diterbitkan pada: 13 Juni 2025 / Diperbarui pada: 13 Juni 2025 – Penulis: Konrad Wolfenstein

Untuk robot dan agen AI lainnya: Model AI V-JEPA 2 dari Meta - AI yang memahami dunia fisik kita

Untuk robot dan agen AI lainnya: Model AI V-JEPA 2 dari Meta – AI yang memahami dunia fisik kita – Gambar: Xpert.Digital

Meta mempersembahkan V-JEPA 2: Sistem AI belajar membuat prediksi tentang dunia fisik.

Meta menerbitkan V-JEPA 2: Model dunia AI revolusioner untuk masa depan kecerdasan buatan.

Meta telah meluncurkan V-JEPA 2, sebuah sistem AI inovatif yang mengambil pendekatan yang sangat berbeda dari Model Bahasa Besar konvensional. Model dunia ini, dengan 1,2 miliar parameternya, dikembangkan untuk membantu robot dan agen AI lainnya memahami dunia fisik dan memprediksi bagaimana dunia akan bereaksi terhadap tindakan mereka.

Apa itu V-JEPA 2 dan apa perbedaannya dengan model bahasa?

V-JEPA 2 adalah singkatan dari “Video Joint Embedding Predictive Architecture 2” dan didasarkan pada arsitektur yang sepenuhnya berbeda dari model bahasa tradisional. Sementara model bahasa seperti ChatGPT atau GPT-4 membuat prediksi probabilistik tentang urutan teks, V-JEPA 2 beroperasi dalam ruang representasi abstrak dan berfokus pada pemahaman hukum fisika.

Perbedaan krusial terletak pada metode pembelajaran: model bahasa membutuhkan sejumlah besar data berlabel dan belajar melalui pelatihan terawasi. V-JEPA 2, di sisi lain, menggunakan pembelajaran mandiri (self-supervised learning) dan mengekstrak pengetahuan dari video yang tidak berlabel, sehingga secara signifikan mengurangi biaya persiapan data. Model ini belajar bukan melalui rekonstruksi piksel, tetapi melalui representasi abstrak dari konten video.

Arsitektur JEPA: Pembelajaran melalui prediksi

Joint Embedding Predictive Architecture (JEPA) dikembangkan oleh Yann LeCun, Kepala Ilmuwan AI Meta, dan merupakan alternatif untuk model AI generatif. Tidak seperti pendekatan generatif yang mencoba merekonstruksi setiap piksel yang hilang, V-JEPA 2 bekerja dengan wilayah video yang ditutupi dan belajar memprediksi konsep abstrak.

Sistem ini menggunakan pendekatan pelatihan dua tahap:

Fase pertama: Pembelajaran mandiri (Self-supervised learning)

  • Pelatihan dengan lebih dari satu juta jam materi video dan satu juta gambar.
  • Mempelajari pola interaksi fisik tanpa anotasi manusia.
  • Pengembangan model internal dunia fisik

Fase kedua: Adaptasi yang dipicu oleh tindakan

  • Penyempurnaan dengan hanya 62 jam data kontrol robot dari dataset DROID
  • Integrasi tindakan agen ke dalam kemampuan prediktif
  • Memungkinkan perencanaan dan kontrol loop tertutup.

Kinerja unggul dalam praktik

V-JEPA 2 menunjukkan kinerja yang mengesankan di berbagai bidang:

Pemahaman video dan deteksi gerakan

  • Akurasi Top 1 sebesar 77,3% pada dataset Something-Something v2
  • Tingkat Recall-at-5 sebesar 39,7% dalam prediksi tindakan Epic-Kitchens-100 (peningkatan 44% dibandingkan model sebelumnya)
  • Performa mutakhir dalam berbagai tugas tanya jawab video.

Kontrol robot

  • Tingkat keberhasilan 65-80% dalam tugas pengambilan dan penempatan di lingkungan yang tidak dikenal.
  • Kontrol robot tanpa pelatihan spesifik lingkungan (zero-shot).
  • Penerapan di dua laboratorium berbeda dengan lengan robot Franka

Efisiensi dibandingkan dengan pesaing

V-JEPA 2 30 kali lebih cepat daripada model Cosmos milik NVIDIA dan hanya membutuhkan 16 detik untuk merencanakan aksi robot, sementara Cosmos membutuhkan 4 menit.

Inovasi teknis dan fitur utama

Model ini dicirikan oleh lima terobosan teknologi utama:

  1. Pembelajaran mandiri (Self-supervised learning): Menghilangkan kebutuhan akan sejumlah besar data berlabel.
  2. Mekanisme masking: Melatih model dengan memprediksi area video yang tersembunyi.
  3. Pembelajaran representasi abstrak: Fokus pada makna semantik, bukan detail piksel.
  4. Arsitektur model dunia: Membangun pemahaman internal tentang hukum fisika
  5. Pembelajaran transfer yang efisien: Kemampuan pembelajaran zero-shot yang luar biasa.

Tolok ukur baru mengungkap batasan AI saat ini.

Bersamaan dengan V-JEPA 2, Meta telah merilis tiga benchmark baru yang menguji pemahaman fisik sistem AI:

Fisika Internasional 2

Tes ini menguji kemampuan untuk membedakan antara skenario yang secara fisik masuk akal dan yang tidak mungkin. Bahkan model-model canggih pun masih menunjukkan kinerja yang mendekati keacakan dalam hal ini.

MVPBench

Sistem ini menggunakan pasangan video yang secara visual serupa dengan jawaban yang berlawanan untuk pertanyaan yang sama. V-JEPA 2 mencapai Akurasi Pasangan 44,5% – kinerja terbaik dari semua sistem yang diuji.

CausalVQA

Studi ini meneliti pemahaman kausal dan penalaran kontrafaktual. Hasilnya menunjukkan bahwa sistem AI saat ini dapat menggambarkan apa yang mereka lihat dengan baik, tetapi mengalami kesulitan dalam memprediksi hasil alternatif.

AI tanpa haus data: Bagaimana V-JEPA 2 membuat pembelajaran mesin lebih efisien

Yann LeCun melihat model dunia seperti V-JEPA 2 sebagai kunci pengembangan AI generasi berikutnya. Model ini dapat merevolusi berbagai bidang aplikasi:

Robotika dan asisten rumah tangga

Model dunia ini dimaksudkan untuk mengantarkan era baru robotika, di mana agen AI akan mampu menangani tugas-tugas dunia nyata tanpa memerlukan data pelatihan dalam jumlah yang sangat besar.

Kendaraan otonom

Kemampuan pemahaman spasial waktu nyata V-JEPA 2 dapat menjadi sangat penting bagi kendaraan otonom, robot gudang, dan sistem pengiriman drone.

Realitas Tertambah (AR) dan asisten virtual

Meta berencana untuk memperluas fungsionalitas V-JEPA 2 dengan mengintegrasikan analitik audio dan kemampuan pemahaman video yang lebih baik untuk kacamata AR dan asisten virtual.

Ketersediaan sumber terbuka dan pendanaan penelitian

Meta telah merilis V-JEPA 2 sebagai perangkat lunak sumber terbuka di bawah lisensi CC-BY-NC untuk mempromosikan penelitian AI global. Kode model tersedia di GitHub dan dapat dijalankan di platform seperti Google Colab dan Kaggle. Keterbukaan ini berbeda dengan banyak model AI besar lainnya dan dimaksudkan untuk memajukan pengembangan model dunia dalam robotika dan AI yang terwujud.

Pergeseran paradigma dalam pengembangan AI

V-JEPA 2 mewakili pergeseran paradigma mendasar dari pemrosesan bahasa murni ke pemahaman yang lebih dalam tentang dunia fisik. Sementara sebagian besar perusahaan AI bergantung pada model generatif, Meta mengejar visi alternatif untuk masa depan kecerdasan buatan dengan pendekatan model dunianya. Kemampuan untuk belajar dari data minimal dan memungkinkan kontrol robot tanpa pelatihan awal dapat membuka jalan bagi generasi baru sistem cerdas yang tidak hanya dapat memahami tetapi juga bertindak di dunia nyata.

Cocok untuk:

 

Mitra pemasaran global dan pengembangan bisnis Anda

☑️ Bahasa bisnis kami adalah Inggris atau Jerman

☑️ BARU: Korespondensi dalam bahasa nasional Anda!

 

Pelopor Digital - Konrad Wolfenstein

Konrad Wolfenstein

Saya akan dengan senang hati melayani Anda dan tim saya sebagai penasihat pribadi.

Anda dapat menghubungi saya dengan mengisi formulir kontak atau cukup hubungi saya di +49 89 89 674 804 (Munich) . Alamat email saya adalah: wolfenstein xpert.digital

Saya menantikan proyek bersama kita.

 

 

☑️ Dukungan UKM dalam strategi, konsultasi, perencanaan dan implementasi

☑️ Penciptaan atau penataan kembali strategi digital dan digitalisasi

☑️ Perluasan dan optimalisasi proses penjualan internasional

☑️ Platform perdagangan B2B Global & Digital

☑️ Pelopor Pengembangan Bisnis/Pemasaran/Humas/Pameran Dagang


⭐️ Kecerdasan Buatan (AI) - Blog AI, Hotspot, dan Pusat Konten ⭐️ Robotika ⭐️ XPaper