Pertarungan AI pada benchmark ARC model AI: GPT-5 vs. Grok vs o3
Xpert pra-rilis
Pemilihan suara 📢
Diterbitkan pada: 8 Agustus 2025 / Diperbarui pada: 8 Agustus 2025 – Penulis: Konrad Wolfenstein
Kekecewaan besar: Mengapa model AI yang semakin besar gagal dalam uji kecerdasan yang krusial
Apa itu tolok ukur ARC-AGI dan mengapa dikembangkan?
Benchmark ARC-AGI adalah serangkaian tes untuk mengukur kecerdasan umum sistem AI, yang dikembangkan oleh François Chollet pada tahun 2019. ARC adalah singkatan dari "Abstraction and Reasoning Corpus for Artificial General Intelligence" (Korpus Abstraksi dan Penalaran untuk Kecerdasan Umum Buatan). Benchmark ini dibuat untuk mengevaluasi kemampuan sistem AI dalam memahami dan menyelesaikan tugas-tugas baru yang belum dilatih secara eksplisit.
Pengembangan tolok ukur ini didasarkan pada definisi kecerdasan yang dikemukakan Chollet dari makalah pentingnya "On the Measure of Intelligence". Ia berpendapat bahwa kecerdasan sejati tidak terletak pada penguasaan tugas-tugas tertentu, melainkan pada efisiensi dalam memperoleh keterampilan baru. Tes ini terdiri dari teka-teki visual dengan kisi-kisi berwarna, di mana sistem AI harus mengenali aturan transformasi yang mendasarinya dan menerapkannya pada contoh-contoh baru.
Apa yang membedakan ARC-AGI dari tolok ukur AI lainnya?
Berbeda dengan tes AI konvensional yang seringkali mengandalkan pengetahuan awal atau pola yang dihafal, ARC-AGI berfokus pada apa yang disebut "pengetahuan inti sebelumnya" – kognitif dasar seperti kekekalan objek, berhitung, dan pemahaman spasial. Keterampilan ini biasanya diperoleh pada usia empat tahun.
Perbedaan utamanya adalah ARC-AGI dirancang khusus agar dapat diselesaikan melalui hafalan murni atau interpolasi data. Setiap tugas dalam benchmark bersifat unik dan dikembangkan khusus untuk pengujian ini, sehingga tidak boleh ada contoh tugas yang tersedia secara daring. Hal ini membuat pengujian ini tahan terhadap strategi umum sistem AI yang berbasis pada data pelatihan dalam jumlah besar.
Apa saja versi benchmark ARC-AGI?
Sekarang ada tiga versi utama benchmark:
ARC-AGI-1
Versi asli tahun 2019, yang terdiri dari teka-teki visual statis, membuat manusia mencapai rata-rata 95%, sementara sebagian besar sistem AI telah lama berada di bawah 5%.
ARC-AGI-2
Versi yang disempurnakan ini, yang dirilis pada tahun 2025, dirancang khusus untuk menantang sistem penalaran modern sekalipun. Meskipun manusia terus mencapai kinerja hampir 100%, bahkan model AI tingkat lanjut hanya mampu menangani 10-20% tugas.
ARC-AGI-3
Versi terbarunya, yang masih dalam tahap pengembangan, memperkenalkan elemen interaktif. Alih-alih teka-teki statis, agen AI harus belajar melalui eksplorasi dan coba-coba di dunia grid, mirip dengan cara manusia menjelajahi lingkungan baru.
Bagaimana kinerja berbagai model AI dalam pengujian ARC-AGI?
Perbedaan kinerja antara berbagai model AI sangatlah signifikan:
Pada ARC-AGI-1, Grok 4 mencapai sekitar 68%, sementara GPT-5 mencapai 65,7%. Biaya per tugas sekitar $1 untuk Grok 4 dan $0,51 untuk GPT-5.
Pada ARC-AGI-2, pengujian yang lebih sulit, kinerja menurun drastis: GPT-5 hanya mencapai 9,9% dengan biaya $0,73 per tugas, sementara Grok 4 (Berpikir) berkinerja lebih baik sekitar 16%, meskipun dengan biaya yang jauh lebih tinggi yaitu $2-4.
Seperti yang diharapkan, varian model yang lebih murah menunjukkan kinerja yang lebih lemah: GPT-5 Mini mencapai 54,3% pada AGI-1 dan 4,4% pada AGI-2, sementara GPT-5 Nano hanya mencapai 16,5% dan 2,5%, masing-masing.
Apa rahasia model pratinjau o3?
Model o3-preview OpenAI merupakan kasus khusus. Pada Desember 2024, model ini mencapai tingkat impresif 75,7% hingga 87,5% pada ARC-AGI-1, tergantung pada daya komputasi yang digunakan. Ini adalah pertama kalinya sistem AI melampaui ambang batas kinerja manusia sebesar 85%.
Namun, ada satu batasan penting: Versi o3 yang tersedia untuk umum berkinerja jauh lebih buruk daripada versi pratinjau aslinya. Menurut ARC Prize, versi o3 yang dirilis hanya mencapai 41% (komputasi rendah) dan 53% (komputasi sedang) pada ARC-AGI-1, dibandingkan dengan 76-88% versi pratinjau.
OpenAI mengonfirmasi bahwa model yang dipublikasikan memiliki arsitektur yang berbeda dan lebih kecil serta dioptimalkan untuk aplikasi obrolan dan produk. Perbedaan ini menimbulkan pertanyaan tentang kemampuan sebenarnya dan menyoroti pentingnya mengkaji secara kritis hasil benchmark dari model yang belum dipublikasikan.
Bagaimana cara kerja kompetisi ARC Prize?
ARC Prize adalah kompetisi tahunan dengan total hadiah lebih dari satu juta dolar AS yang bertujuan untuk mendorong kemajuan sumber terbuka menuju AGI. Kompetisi tahun 2025 ini berlangsung dari 26 Maret hingga 3 November di platform Kaggle.
Struktur harga meliputi:
- Hadiah Utama (700.000 USD): Dibuka ketika sebuah tim mencapai akurasi 85% pada kumpulan data evaluasi pribadi
- Hadiah Skor Tertinggi (75.000 USD): Untuk tim dengan skor tertinggi
- Hadiah Makalah (50.000 USD): Untuk kemajuan konseptual yang paling signifikan
- Hadiah Tambahan (175.000 USD): Kategori tambahan akan diumumkan
Yang terpenting, semua pemenang harus mempublikasikan solusi mereka sebagai sumber terbuka. Hal ini sejalan dengan misi ARC Prize Foundation untuk membuat kemajuan AGI dapat diakses oleh seluruh komunitas riset.
Apa saja tantangan teknis dari benchmark ARC-AGI?
Tugas-tugas dalam ARC-AGI memerlukan beberapa keterampilan kognitif yang alami bagi manusia tetapi sangat sulit bagi sistem AI:
Interpretasi simbol
AI harus memahami simbol-simbol abstrak dan memperoleh maknanya dari konteks.
Pemikiran komposisi bertingkat
Masalah harus dipecah menjadi sub-langkah dan dipecahkan secara berurutan.
Penerapan aturan yang bergantung pada konteks
Aturan yang sama mungkin perlu diterapkan secara berbeda tergantung pada konteksnya.
Generalisasi dari beberapa contoh
Biasanya, hanya tersedia 2-3 pasangan demonstrasi yang darinya aturan transformasi harus diturunkan.
Apa peran pelatihan saat ujian dalam menyelesaikan ARC-AGI?
Pelatihan waktu uji (TTT) telah terbukti menjadi pendekatan yang menjanjikan untuk meningkatkan kinerja pada ARC-AGI. Metode ini secara dinamis mengadaptasi parameter model dengan data masukan saat ini selama inferensi, alih-alih hanya mengandalkan pengetahuan yang telah dilatih sebelumnya.
Para peneliti MIT telah menunjukkan bahwa TTT secara signifikan meningkatkan kinerja model bahasa pada ARC-AGI. Metode ini memungkinkan model untuk beradaptasi selama penyelesaian tugas dan belajar dari contoh-contoh spesifik. Hal ini meniru perilaku pemecahan masalah manusia, di mana kita menghabiskan lebih banyak waktu untuk menyelesaikan masalah yang sulit.
Keamanan Data EU/DE | Integrasi platform AI sumber data independen dan lintas data untuk semua kebutuhan bisnis
Ki-gamechanger: Platform AI paling fleksibel – solusi yang dibuat khusus yang mengurangi biaya, meningkatkan keputusan mereka dan meningkatkan efisiensi
Platform AI Independen: mengintegrasikan semua sumber data perusahaan yang relevan
- Integrasi AI Cepat: Solusi AI yang dibuat khusus untuk perusahaan dalam beberapa jam atau hari bukan bulan
- Infrastruktur Fleksibel: Berbasis cloud atau hosting di pusat data Anda sendiri (Jerman, Eropa, pilihan lokasi bebas)
- Keamanan Data Tertinggi: Penggunaan di Firma Hukum adalah bukti yang aman
- Gunakan di berbagai sumber data perusahaan
- Pilihan model AI Anda sendiri atau berbagai (DE, EU, USA, CN)
Lebih lanjut tentang itu di sini:
Kecerdasan Buatan Melampaui Skala: Wawasan dari Uji ARC-AGI
Apa arti hasil ini bagi pengembangan AGI?
Hasilnya menunjukkan kesenjangan yang jelas antara kecerdasan manusia dan kecerdasan buatan. Manusia menyelesaikan tugas ARC-AGI secara intuitif, sementara sistem AI tercanggih sekalipun gagal dalam tugas penalaran dasar.
François Chollet berpendapat bahwa paradigma pengembangan AI saat ini – melatih model yang semakin besar dengan lebih banyak data – telah mencapai batasnya. Hasil yang buruk pada ARC-AGI, meskipun ukuran model meningkat secara eksponensial, membuktikan, menurut pandangannya, bahwa "kecerdasan fluida tidak muncul dari penskalaan pra-pelatihan."
Masa depan dapat terletak pada pendekatan baru seperti adaptasi waktu pengujian, di mana model dapat mengubah statusnya sendiri saat runtime untuk beradaptasi dengan situasi baru.
Seperti apa masa depan tolok ukur ARC-AGI?
Yayasan ARC Prize berencana untuk terus mengembangkan tolok ukur ini. ARC-AGI-3, dengan elemen-elemen interaktifnya, dijadwalkan untuk rilis penuh pada tahun 2026 dan akan mencakup sekitar 100 lingkungan unik.
Tujuan Yayasan ini adalah mengembangkan tolok ukur yang berfungsi sebagai "bintang utara" bagi pengembangan AGI. Hal ini tidak hanya bertujuan untuk mengukur kemajuan, tetapi juga untuk mengarahkan penelitian ke arah yang dapat menghasilkan kecerdasan umum yang sesungguhnya.
Apa implikasi ekonomi dari kinerja acuan?
Biaya penyelesaian tugas ARC-AGI sangat bervariasi antara model dan berdampak langsung pada penerapan praktis.
Meskipun tugas-tugas sederhana dapat diselesaikan dengan biaya API dalam kisaran sen, biaya untuk tugas-tugas penalaran yang kompleks meningkat pesat. Model o3, misalnya, dapat menghabiskan biaya hingga $1.000 per tugas dengan daya komputasi tinggi.
Struktur biaya ini menunjukkan bahwa meskipun terobosan teknis tercapai, kelayakan ekonomi tetap menjadi faktor krusial bagi adopsi teknologi AGI secara luas.
Apa implikasi filosofis dari hasil ARC-AGI?
Hasil ini memunculkan pertanyaan mendasar tentang hakikat kecerdasan. Tolok ukur menunjukkan adanya perbedaan mendasar antara menghafal pola dan pemahaman sejati.
Fakta bahwa manusia menyelesaikan tugas-tugas ini dengan mudah sementara sistem AI gagal menunjukkan bahwa kecerdasan manusia berfungsi secara kualitatif berbeda dibandingkan pendekatan AI saat ini. Hal ini mendukung argumen Chollet bahwa AGI membutuhkan lebih dari sekadar model yang lebih besar dan lebih banyak data.
Bagaimana ARC-AGI memengaruhi penelitian AI?
Tolok ukur ini telah mendorong pemikiran ulang dalam riset AI. Alih-alih berfokus secara eksklusif pada model penskalaan, laboratorium terkemuka kini mengeksplorasi pendekatan alternatif seperti komputasi waktu uji dan sistem adaptif.
Pergeseran ini juga tercermin dalam investasi: perusahaan semakin banyak berinvestasi dalam penelitian tentang penalaran dan pemecahan masalah yang lebih efisien alih-alih pelatihan yang semakin besar.
Apa peran komunitas sumber terbuka?
Yayasan ARC Prize menekankan pentingnya pengembangan sumber terbuka untuk kemajuan AGI. Semua pemenang kompetisi diwajibkan untuk mempublikasikan solusi mereka.
Filosofi ini didasarkan pada keyakinan bahwa AGI terlalu penting untuk dikembangkan hanya di laboratorium tertutup. Yayasan memandang dirinya sebagai katalis bagi komunitas riset yang kolaboratif dan transparan.
Apa saja batasan benchmark ARC-AGI?
Meskipun penting, ARC-AGI juga memiliki keterbatasan. Chollet sendiri menekankan bahwa lulus tes tidak sama dengan mencapai AGI. Tolok ukur ini hanya mengukur satu aspek kecerdasan – kemampuan memecahkan masalah abstrak.
Aspek penting lainnya seperti kreativitas, kecerdasan emosional, atau perencanaan jangka panjang tidak diukur. Lebih lanjut, terdapat risiko bahwa sistem yang dioptimalkan secara khusus untuk ARC-AGI akan dikembangkan dan lulus uji tanpa benar-benar cerdas secara umum.
Bagaimana biaya model AI berkembang dalam konteks ARC-AGI?
Tren biaya menunjukkan tren yang menarik. Meskipun kinerja hanya meningkat perlahan, biaya untuk perbaikan marjinal melonjak.
Dinamika biaya ini menghasilkan wawasan penting: efisiensi menjadi pembeda utama. Yayasan ARC Prize menekankan bahwa bukan hanya akurasi, tetapi juga biaya per tugas yang diselesaikan merupakan kriteria penting.
Apa arti ARC-AGI bagi masa depan pekerjaan?
Hasilnya memiliki implikasi yang meyakinkan bagi banyak profesi. Ketidakmampuan sistem AI untuk menyelesaikan tugas-tugas penalaran dasar menunjukkan bahwa kemampuan kognitif manusia masih jauh dari tergantikan.
Pada saat yang sama, kemajuan dalam tugas-tugas khusus menunjukkan bahwa AI akan terus berfungsi sebagai alat untuk mendukung pekerjaan manusia daripada menggantikannya sepenuhnya.
Pendekatan penelitian baru apa yang muncul melalui ARC-AGI?
Tolok ukur ini telah mengilhami beberapa arah penelitian inovatif:
Sintesis Program
Sistem yang menghasilkan program untuk memecahkan masalah.
Pendekatan neurosimbolis
Kombinasi jaringan saraf dengan penalaran simbolik.
Sistem multi-agen
Beberapa agen khusus bekerja sama.
Algoritma evolusioner
Sistem yang mengembangkan solusi secara evolusioner.
Apa visi ARC Prize Foundation untuk masa depan?
Yayasan ini memiliki misi yang jelas: menjadi "Bintang Utara" bagi pengembangan AGI terbuka. Ini bukan sekadar menetapkan tolok ukur teknis, tetapi juga menciptakan ekosistem yang mendorong inovasi sekaligus memastikan kemajuan AGI bermanfaat bagi seluruh umat manusia.
Pengembangan versi benchmark baru yang berkelanjutan bertujuan untuk memastikan standar terus ditingkatkan dan penelitian tidak stagnan. Dengan ARC-AGI-3 dan versi-versi mendatang, Yayasan bertujuan untuk lebih mengeksplorasi batasan kemampuan AI dan apa yang masih kurang.
Kami ada untuk Anda – Saran – Perencanaan – Implementasi – Manajemen Proyek
☑️ Dukungan UKM dalam strategi, konsultasi, perencanaan dan implementasi
☑️ Penciptaan atau penataan kembali strategi AI
☑️ Pelopor Pengembangan Bisnis
Saya akan dengan senang hati menjadi penasihat pribadi Anda.
Anda dapat menghubungi saya dengan mengisi formulir kontak di bawah ini atau cukup hubungi saya di +49 89 89 674 804 (Munich) .
Saya menantikan proyek bersama kita.
Xpert.Digital – Konrad Wolfenstein
Xpert.Digital adalah pusat industri dengan fokus pada digitalisasi, teknik mesin, logistik/intralogistik, dan fotovoltaik.
Dengan solusi pengembangan bisnis 360°, kami mendukung perusahaan terkenal mulai dari bisnis baru hingga purna jual.
Kecerdasan pasar, pemasaran, otomasi pemasaran, pengembangan konten, PR, kampanye surat, media sosial yang dipersonalisasi, dan pemeliharaan prospek adalah bagian dari alat digital kami.
Anda dapat menemukan lebih banyak di: www.xpert.digital – www.xpert.solar – www.xpert.plus