Adu ketangguhan AI pada benchmark ARC untuk model AI: GPT-5 vs. Grok vs. o3

Konrad Wolfenstein

10 bulan yang lalu

Adu ketangguhan AI pada benchmark ARC untuk model AI: GPT-5 vs. Grok vs. o3

Adu ketangguhan AI pada benchmark ARC: GPT-5 vs. Grok vs o3 – Gambar: Xpert.Digital

Kekecewaan besar: Mengapa model AI yang semakin besar gagal dalam uji kecerdasan yang krusial

Apa itu benchmark ARC-AGI dan mengapa benchmark ini dikembangkan?

Benchmark ARC-AGI adalah serangkaian pengujian untuk mengukur kecerdasan umum sistem AI, yang dikembangkan pada tahun 2019 oleh François Chollet. ARC merupakan singkatan dari “Abstraction and Reasoning Corpus for Artificial General Intelligence.” Benchmark ini dibuat untuk mengevaluasi kemampuan sistem AI dalam memahami dan menyelesaikan tugas-tugas baru yang tidak dilatih secara eksplisit sebelumnya.

Pengembangan tolok ukur ini didasarkan pada definisi kecerdasan Chollet dari makalah pentingnya, "On the Measure of Intelligence." Ia berpendapat bahwa kecerdasan sejati terletak bukan pada penguasaan tugas-tugas spesifik, tetapi pada efisiensi dalam memperoleh keterampilan baru. Tes ini terdiri dari teka-teki visual dengan kisi-kisi berwarna, di mana sistem AI harus mengidentifikasi aturan transformasi yang mendasarinya dan menerapkannya pada contoh-contoh baru.

Apa perbedaan ARC-AGI dengan tolok ukur AI lainnya?

Berbeda dengan tes AI konvensional, yang sering kali bergantung pada pengetahuan sebelumnya atau pola yang dihafal, ARC-AGI berfokus pada apa yang disebut "Pengetahuan Inti Sebelumnya"—keterampilan kognitif mendasar seperti permanensi objek, berhitung, dan penalaran spasial. Keterampilan ini biasanya diperoleh manusia sekitar usia empat tahun.

Perbedaan krusial terletak pada kenyataan bahwa ARC-AGI dirancang khusus agar tidak dapat dipecahkan hanya dengan menghafal atau menginterpolasi data. Setiap tugas dalam benchmark ini unik dan dikembangkan khusus untuk pengujian, sehingga seharusnya tidak ada contohnya yang tersedia secara online. Hal ini membuat pengujian ini tahan terhadap strategi umum sistem AI yang mengandalkan kumpulan data pelatihan yang besar.

Apa saja versi-versi berbeda dari benchmark ARC-AGI?

Saat ini terdapat tiga versi utama dari tolok ukur tersebut:

ARC-AGI-1

Versi asli tahun 2019 terdiri dari teka-teki visual statis. Manusia mencapai skor rata-rata 95% pada permainan ini, sementara sebagian besar sistem AI telah lama mencetak skor di bawah 5%.

ARC-AGI-2

Versi yang disempurnakan ini dirilis pada tahun 2025 dan dirancang khusus untuk memberikan tantangan bahkan bagi sistem penalaran modern. Meskipun manusia terus mencapai tingkat keberhasilan hampir 100%, bahkan model AI canggih pun hanya mampu menyelesaikan 10-20% tugas.

ARC-AGI-3

Versi terbaru, yang masih dalam pengembangan, memperkenalkan elemen interaktif. Alih-alih teka-teki statis, agen AI harus belajar melalui eksplorasi dan coba-coba di dunia berbasis grid, seperti halnya manusia menjelajahi lingkungan baru.

Bagaimana kinerja berbagai model AI dalam pengujian ARC-AGI?

Perbedaan kinerja antara berbagai model AI sangat signifikan:

Untuk ARC-AGI-1, Grok 4 mencapai sekitar 68%, sedangkan GPT-5 mencapai 65,7%. Biaya per tugas sekitar US$1 untuk Grok 4 dan US$0,51 untuk GPT-5.

Dalam ARC-AGI-2, tes yang lebih sulit, kinerja menurun drastis: GPT-5 hanya mencapai 9,9% dengan biaya $0,73 per tugas, sementara Grok 4 (Thinking) berkinerja lebih baik sekitar 16%, tetapi dengan biaya yang jauh lebih tinggi yaitu $2-4.

Seperti yang diperkirakan, varian model yang lebih murah menunjukkan kinerja yang lebih lemah: GPT-5 Mini mencapai 54,3% pada AGI-1 dan 4,4% pada AGI-2, sedangkan GPT-5 Nano hanya mencapai 16,5% dan 2,5% secara berturut-turut.

Apa rahasia di balik model pratinjau o3?

Model pratinjau o3 dari OpenAI merupakan kasus khusus. Pada Desember 2024, model ini mencapai skor kinerja yang mengesankan, yaitu 75,7% hingga 87,5% pada ARC-AGI-1, tergantung pada daya komputasi yang digunakan. Ini adalah pertama kalinya sistem AI melampaui batas kinerja manusia sebesar 85%.

Namun, ada satu keterbatasan penting: Versi o3 yang tersedia untuk umum memiliki kinerja yang jauh lebih buruk daripada versi pratinjau aslinya. Menurut ARC Prize, o3 yang dirilis hanya mencapai 41% (komputasi rendah) dan 53% (komputasi menengah) pada ARC-AGI-1, dibandingkan dengan 76-88% pada versi pratinjau.

OpenAI mengkonfirmasi bahwa model yang dipublikasikan memiliki arsitektur yang berbeda dan lebih kecil, serta dioptimalkan untuk aplikasi obrolan dan produk. Perbedaan ini menimbulkan pertanyaan tentang kemampuan sebenarnya dan menyoroti pentingnya mengevaluasi secara kritis hasil benchmark dari model yang belum dipublikasikan.

Bagaimana cara kerja kompetisi ARC Prize?

ARC Prize adalah kompetisi tahunan dengan total hadiah lebih dari satu juta dolar AS, yang bertujuan untuk mempromosikan kemajuan sumber terbuka menuju AGI (Actively Generic Architecture). Kompetisi tahun 2025 ini berlangsung dari tanggal 26 Maret hingga 3 November di platform Kaggle.

Struktur harga meliputi:

Hadiah Utama (USD 700.000): Diperoleh ketika sebuah tim mencapai akurasi 85% pada dataset evaluasi privat
Hadiah Skor Tertinggi (USD 75.000): Untuk tim dengan skor tertinggi
Hadiah Makalah (USD 50.000): Untuk kemajuan konseptual yang paling signifikan
Hadiah lainnya (USD 175.000): Kategori tambahan akan diumumkan kemudian

Penting bagi semua pemenang untuk mempublikasikan solusi mereka sebagai sumber terbuka. Hal ini sejalan dengan misi Yayasan ARC Prize untuk membuat kemajuan AGI dapat diakses oleh seluruh komunitas penelitian.

Apa saja tantangan teknis dari benchmark ARC-AGI?

Tugas-tugas dalam ARC-AGI membutuhkan beberapa kemampuan kognitif yang secara alami dimiliki manusia tetapi sangat sulit bagi sistem AI:

Interpretasi simbol

AI harus memahami simbol-simbol abstrak dan mengambil maknanya dari konteks.

Pemikiran komposisional multi-tahap

Masalah harus dipecah menjadi sub-langkah dan diselesaikan secara berurutan.

Penerapan aturan yang bergantung pada konteks

Aturan yang sama mungkin perlu diterapkan secara berbeda tergantung pada konteksnya.

Generalisasi dari beberapa contoh

Biasanya, hanya tersedia 2-3 pasangan demonstrasi yang darinya aturan transformasi harus diturunkan.

Apa peran pelatihan pada saat pengujian dalam memecahkan ARC-AGI?

Pelatihan pada Waktu Pengujian (Test-Time Training/TTT) telah terbukti sebagai pendekatan yang menjanjikan untuk meningkatkan kinerja pada ARC-AGI. Metode ini secara dinamis menyesuaikan parameter model dengan data input saat ini selama inferensi, alih-alih hanya mengandalkan pengetahuan yang telah dilatih sebelumnya.

Para peneliti MIT telah menunjukkan bahwa TTT secara signifikan meningkatkan kinerja model bahasa pada ARC-AGI. Metode ini memungkinkan model untuk beradaptasi selama penyelesaian tugas dan belajar dari contoh-contoh spesifik. Hal ini meniru perilaku pemecahan masalah manusia, di mana kita menghabiskan lebih banyak waktu pada masalah yang sulit.

Keamanan Data Uni Eropa/Jerman | Integrasi platform AI independen dan lintas sumber data untuk semua kebutuhan bisnis

Platform AI independen sebagai alternatif strategis bagi perusahaan-perusahaan Eropa - Gambar: Xpert.Digital

Pengubah Permainan AI: Platform AI paling fleksibel - Solusi yang dirancang khusus untuk mengurangi biaya, meningkatkan pengambilan keputusan, dan meningkatkan efisiensi

Platform AI independen: Mengintegrasikan semua sumber data perusahaan yang relevan

Integrasi AI yang cepat: Solusi AI yang dirancang khusus untuk bisnis dalam hitungan jam atau hari, bukan bulan
Infrastruktur fleksibel: Berbasis cloud atau hosting di pusat data Anda sendiri (Jerman, Eropa, pilihan lokasi bebas)

Keamanan data maksimal: penggunaannya di firma hukum adalah bukti yang tak terbantahkan
Penerapan di berbagai sumber data perusahaan
Pilihan model AI sendiri atau berbeda (DE, EU, USA, CN)

Informasi selengkapnya di sini:

Platform AI independen vs. penyedia layanan cloud berskala besar: Solusi mana yang tepat?

Kecerdasan buatan melampaui skalabilitas: Wawasan dari uji coba ARC-AGI

Apa arti hasil tersebut bagi pengembangan AGI (Kecerdasan Buatan Umum)?

Hasil penelitian mengungkapkan kesenjangan yang signifikan antara kecerdasan manusia dan kecerdasan buatan. Sementara manusia menyelesaikan tugas ARC-AGI secara intuitif, bahkan sistem AI tercanggih pun gagal dalam tugas kognitif dasar.

François Chollet berpendapat bahwa paradigma pengembangan AI saat ini—melatih model yang semakin besar dengan lebih banyak data—telah mencapai batasnya. Hasil buruk pada ARC-AGI, meskipun terjadi peningkatan ukuran model secara eksponensial, membuktikan, menurut pandangannya, bahwa "kecerdasan fluid tidak muncul dari peningkatan skala pelatihan awal.".

Masa depan mungkin terletak pada pendekatan baru seperti Adaptasi Saat Pengujian, di mana model dapat mengubah keadaannya sendiri saat dijalankan untuk beradaptasi dengan situasi baru.

Bagaimana prospek masa depan bagi tolok ukur ARC-AGI?

Yayasan ARC Prize berencana untuk terus mengembangkan tolok ukur ini. ARC-AGI-3, dengan elemen interaktifnya, dijadwalkan untuk dirilis sepenuhnya pada tahun 2026 dan akan mencakup sekitar 100 lingkungan unik.

Yayasan ini bertujuan untuk mengembangkan tolok ukur yang akan berfungsi sebagai "bintang penunjuk arah" untuk pengembangan AGI. Hal ini tidak hanya mencakup pengukuran kemajuan tetapi juga membimbing penelitian ke arah yang dapat mengarah pada kecerdasan umum sejati.

Apa implikasi ekonomi dari kinerja tolok ukur?

Biaya untuk menyelesaikan masalah ARC-AGI sangat bervariasi antar model dan berdampak langsung pada penerapan praktisnya.

Meskipun tugas-tugas sederhana dapat diselesaikan dengan biaya API dalam kisaran sen, biaya untuk tugas penalaran yang kompleks meningkat dengan cepat. Model o3, misalnya, dapat menelan biaya hingga $1.000 per tugas dengan daya komputasi yang tinggi.

Struktur biaya ini menunjukkan bahwa meskipun terobosan teknis tercapai, kelayakan ekonomi tetap menjadi faktor penting untuk penerapan teknologi AGI secara luas.

Apa implikasi filosofis dari hasil ARC-AGI?

Hasil penelitian ini memunculkan pertanyaan mendasar tentang hakikat kecerdasan. Tolok ukur ini menunjukkan bahwa ada perbedaan mendasar antara menghafal pola dan pemahaman sejati.

Fakta bahwa manusia menyelesaikan tugas-tugas ini dengan mudah, sementara sistem AI gagal, menunjukkan bahwa kecerdasan manusia berfungsi secara kualitatif berbeda dari pendekatan AI saat ini. Hal ini mendukung argumen Chollet bahwa AGI membutuhkan lebih dari sekadar model yang lebih besar dan lebih banyak data.

Bagaimana ARC-AGI memengaruhi arah penelitian AI?

Tolok ukur tersebut telah memicu perubahan cara berpikir dalam penelitian AI. Alih-alih hanya berfokus pada penskalaan model, laboratorium terkemuka kini mengeksplorasi pendekatan alternatif seperti komputasi saat pengujian dan sistem adaptif.

Pergeseran ini juga tercermin dalam investasi: perusahaan semakin banyak berinvestasi dalam penelitian tentang penalaran dan pemecahan masalah yang lebih efisien, alih-alih melakukan pelatihan dalam skala yang semakin besar.

Apa peran komunitas sumber terbuka?

Yayasan ARC Prize menekankan pentingnya pengembangan sumber terbuka untuk kemajuan AGI. Semua pemenang kompetisi harus membuat solusi mereka tersedia untuk umum.

Filosofi ini didasarkan pada keyakinan bahwa AGI (Artificial General Intelligence) terlalu penting untuk dikembangkan hanya di laboratorium tertutup. Yayasan ini memandang dirinya sebagai katalisator bagi komunitas penelitian yang kolaboratif dan transparan.

Apa saja keterbatasan dari benchmark ARC-AGI?

Terlepas dari pentingnya, ARC-AGI juga memiliki keterbatasan. Chollet sendiri menekankan bahwa lulus ujian tidak sama dengan mencapai AGI. Tolok ukur ini hanya mengukur satu aspek kecerdasan – kemampuan untuk memecahkan masalah abstrak.

Aspek penting lainnya seperti kreativitas, kecerdasan emosional, atau perencanaan jangka panjang tidak dinilai. Selain itu, ada risiko bahwa sistem yang dioptimalkan secara khusus untuk ARC-AGI akan dikembangkan yang lulus uji tanpa benar-benar cerdas secara umum.

Bagaimana biaya pengembangan model AI dalam konteks ARC-AGI?

Perkembangan biaya menunjukkan tren yang menarik. Meskipun peningkatan kinerja hanya terjadi secara perlahan, biaya untuk peningkatan marginal justru meningkat pesat.

Dinamika biaya ini mengarah pada wawasan penting: efisiensi menjadi pembeda yang menentukan. Yayasan ARC Prize menekankan bahwa bukan hanya akurasi, tetapi juga biaya per masalah yang diselesaikan merupakan kriteria penting.

Apa arti ARC-AGI bagi masa depan pekerjaan?

Hasil penelitian ini memiliki implikasi yang meyakinkan bagi banyak profesi. Ketidakmampuan sistem AI untuk menyelesaikan tugas-tugas berpikir dasar menunjukkan bahwa kemampuan kognitif manusia masih jauh dari tergantikan.

Pada saat yang sama, kemajuan dalam tugas-tugas khusus menunjukkan bahwa AI akan terus berfungsi sebagai alat untuk mendukung pekerjaan manusia, dan bukan menggantikannya sepenuhnya.

Pendekatan penelitian baru apa yang muncul dari ARC-AGI?

Tolok ukur tersebut telah menginspirasi beberapa arah penelitian inovatif:

Sintesis Program

Sistem yang menghasilkan program untuk memecahkan masalah.

Pendekatan neurosimbolik

Kombinasi jaringan saraf dengan penalaran simbolik.

Sistem multi-agen

Beberapa agen khusus bekerja sama.

Algoritma evolusioner

Sistem yang mengembangkan solusi melalui evolusi.

Apa visi Yayasan ARC Prize untuk masa depan?

Yayasan ini memiliki misi yang jelas: untuk berfungsi sebagai "bintang penunjuk arah" bagi pengembangan AGI (Kecerdasan Buatan Umum) terbuka. Hal ini tidak hanya mencakup tolok ukur teknis, tetapi juga penciptaan ekosistem yang mendorong inovasi sekaligus memastikan bahwa kemajuan AGI bermanfaat bagi seluruh umat manusia.

Pengembangan berkelanjutan dari versi benchmark baru bertujuan untuk memastikan bahwa standar terus ditingkatkan dan penelitian tidak stagnan. Dengan ARC-AGI-3 dan versi mendatang, Yayasan ini bertujuan untuk lebih mengeksplorasi batasan kemampuan AI dan apa yang masih kurang.

Kami hadir untuk Anda - Konsultasi - Perencanaan - Implementasi - Manajemen Proyek

☑️ Dukungan UKM dalam strategi, konsultasi, perencanaan, dan implementasi

☑️ Pembuatan atau penyesuaian kembali strategi AI

☑️ Pengembangan Bisnis Perintis

Konrad Wolfenstein

Saya akan dengan senang hati menjadi penasihat pribadi Anda.

Anda dapat menghubungi saya dengan mengisi formulir kontak di bawah ini atau cukup hubungi saya di +49 7348 4088 965 .

Saya sangat menantikan proyek bersama kita.

Tulis surat kepadaku

➡️ Permintaan panggilan video 👩👱

Xpert.Digital - Konrad Wolfenstein

Xpert.Digital adalah pusat bagi industri yang berfokus pada digitalisasi, teknik mesin, logistik/intralogistik, dan fotovoltaik.

Dengan solusi Pengembangan Bisnis 360° kami, kami mendukung perusahaan-perusahaan ternama mulai dari bisnis baru hingga layanan purna jual.

Intelijen pasar, smarketing, otomatisasi pemasaran, pengembangan konten, PR, kampanye email, media sosial yang dipersonalisasi, dan pembinaan prospek adalah bagian dari alat digital kami.

Anda dapat menemukan informasi lebih lanjut di: www.xpert.digital - www.xpert.solar - www.xpert.plus

Tetaplah berhubungan

Kekecewaan besar: Mengapa model AI yang semakin besar gagal dalam uji kecerdasan yang krusial

Apa itu benchmark ARC-AGI dan mengapa benchmark ini dikembangkan?

Apa perbedaan ARC-AGI dengan tolok ukur AI lainnya?

Apa saja versi-versi berbeda dari benchmark ARC-AGI?

ARC-AGI-1

ARC-AGI-2

ARC-AGI-3

Bagaimana kinerja berbagai model AI dalam pengujian ARC-AGI?

Apa rahasia di balik model pratinjau o3?

Bagaimana cara kerja kompetisi ARC Prize?

Apa saja tantangan teknis dari benchmark ARC-AGI?

Interpretasi simbol

Pemikiran komposisional multi-tahap

Penerapan aturan yang bergantung pada konteks

Generalisasi dari beberapa contoh

Apa peran pelatihan pada saat pengujian dalam memecahkan ARC-AGI?

Keamanan Data Uni Eropa/Jerman | Integrasi platform AI independen dan lintas sumber data untuk semua kebutuhan bisnis

Pengubah Permainan AI: Platform AI paling fleksibel - Solusi yang dirancang khusus untuk mengurangi biaya, meningkatkan pengambilan keputusan, dan meningkatkan efisiensi

Platform AI independen: Mengintegrasikan semua sumber data perusahaan yang relevan

Kecerdasan buatan melampaui skalabilitas: Wawasan dari uji coba ARC-AGI

Apa arti hasil tersebut bagi pengembangan AGI (Kecerdasan Buatan Umum)?

Bagaimana prospek masa depan bagi tolok ukur ARC-AGI?

Apa implikasi ekonomi dari kinerja tolok ukur?

Apa implikasi filosofis dari hasil ARC-AGI?

Bagaimana ARC-AGI memengaruhi arah penelitian AI?

Apa peran komunitas sumber terbuka?

Apa saja keterbatasan dari benchmark ARC-AGI?

Bagaimana biaya pengembangan model AI dalam konteks ARC-AGI?

Apa arti ARC-AGI bagi masa depan pekerjaan?

Pendekatan penelitian baru apa yang muncul dari ARC-AGI?

Sintesis Program

Pendekatan neurosimbolik

Sistem multi-agen

Algoritma evolusioner

Apa visi Yayasan ARC Prize untuk masa depan?

☑️ Dukungan UKM dalam strategi, konsultasi, perencanaan, dan implementasi

☑️ Pembuatan atau penyesuaian kembali strategi AI

☑️ Pengembangan Bisnis Perintis

Topik lainnya