Gemini 3.5 atau bahkan 4.0? Nama sandi "Snow Bunny": Data benchmark yang bocor dari model Google yang konon baru

Xpert Pra-Rilis

Available in 27 languages 📢

Diterbitkan pada: 24 Januari 2026 / Diperbarui pada: 24 Januari 2026 – Penulis: Konrad Wolfenstein

Gemini 3.5 atau bahkan 4.0? Nama sandi “Snow Bunny”: Data benchmark yang bocor dari model Google yang diduga baru – Gambar: Xpert.Digital

Titik balik dalam kecerdasan buatan? Terobosan teknologi Google yang mendefinisikan ulang daya saing global?

Petualangan rekayasa di ambang revolusi kognitif

Data benchmark yang bocor pada Januari 2026 dari model Google yang konon baru dengan kode nama "Snow Bunny" melambangkan titik balik penting dalam kecerdasan buatan yang jauh melampaui sekadar permainan angka. Alih-alih kemajuan bertahap dalam pengembangan model, data ini mengungkapkan fenomena yang mengintegrasikan arsitektur inti pemikiran manusia itu sendiri ke dalam fondasi teknis kecerdasan buatan. Perbedaan kinerja bukan hanya numerik, tetapi secara kualitatif transformatif, dengan implikasi langsung bagi kebijakan industri Eropa dan Jerman serta masa depan persaingan antara kekuatan teknologi super AS, Tiongkok, dan Eropa yang terfragmentasi.

Tolok ukur hieroglif, yang menurut laporan Snowbunny mencapai tingkat keberhasilan 80 persen—jauh di atas GPT-5.2 dengan 55 persen dan Gemini 3.0 Pro dengan 45 persen—tidak hanya menguji pengetahuan atau pengenalan pola, tetapi juga pemikiran lateral. Pemikiran lateral adalah kemampuan manusia untuk melihat hubungan antara konsep-konsep yang tidak terkait, untuk secara kreatif menghindari pola pikir yang sudah mapan, dan untuk mendekati masalah dari sudut pandang yang tidak biasa. Ini adalah mekanisme yang menentang prediksi statistik semata dan merupakan alasan mengapa kreativitas, inovasi, dan pemecahan masalah yang sesungguhnya tidak muncul hanya dari penskalaan saja. Penelitian akademis secara konsisten mendokumentasikan bahwa bahkan model terbaik yang tersedia pun berada di bawah 50 persen pada tugas-tugas pemikiran lateral. Snowbunny tampaknya telah secara signifikan melampaui ambang batas ini.

Inovasi teknis yang mendasarinya sangat mendalam dalam arsitektur sistemnya. Google jelas telah menerapkan apa yang telah dikejar secara intensif dalam penelitian AI sejak tahun 2025: pembagian pemikiran kognitif menjadi apa yang disebut psikolog Daniel Kahneman sebagai pemikiran "Sistem 1" dan "Sistem 2". Sistem 1 adalah pemikiran intuitif yang sangat cepat tentang pola statistik. Sistem 2 adalah pemikiran yang lambat dan cermat yang menghitung langkah, mempertanyakan asumsi, dan mengevaluasi berbagai jalur solusi secara paralel. Model sebelumnya seperti GPT-5.2 atau Gemini 3.0 terutama mengoptimalkan Sistem 1, kemampuan pencocokan pola dengan kecepatan mentah, dengan beberapa upaya dangkal untuk meniru pemikiran yang lebih lambat melalui pemicuan "rantai pemikiran". Arsitektur Snowbunny tampaknya menerapkan kerangka penalaran yang benar-benar lebih dalam—satu yang benar-benar mengejar berbagai jalur pemikiran secara paralel, menguji hipotesis, dan memperbaikinya secara iteratif.

Fokus pada keamanan tetap transparan, bukan lagi sekadar faktor biaya

Salah satu detail dari kebocoran tersebut sangat signifikan bagi para ahli: kedua versi model, varian "mentah" dan varian "kurang mentah" dengan filter keamanan yang lebih ketat, mencapai tingkat keberhasilan yang identik yaitu 80 persen. Hal ini bertentangan dengan asumsi lama dalam penelitian AI bahwa penyelarasan keamanan, yaitu pelatihan terhadap keluaran yang bermasalah, pasti akan mengganggu kinerja kognitif murni. Jika Google telah menyelesaikan pertukaran efisiensi-keamanan klasik ini, hal itu merupakan terobosan yang tidak sepele dalam metodologi pasca-pelatihan. Implikasinya sangat mendalam: hal ini menunjukkan bahwa keamanan dan kemampuan tidak harus bertentangan, tetapi alur pelatihan yang terstruktur ulang dapat memaksimalkan keduanya secara bersamaan.

Data perbandingan itu sendiri memerlukan kehati-hatian. Tangkapan layar tolok ukur mudah dimanipulasi, dan meskipun tes Hieroglyph dikenal di kalangan akademisi, tes ini tidak sepopuler dan terstandarisasi seperti tes MMLU (Massive Multitask Language Understanding) klasik, yang tetap menjadi standar emas untuk pengetahuan umum. Namun, data yang bocor tersebut selaras dengan pengumuman publik Google bahwa perusahaan tersebut memperkenalkan fitur yang disebut "Gemini Deep Think" pada November 2025—sebuah mode di mana model Gemini diberi lebih banyak waktu untuk berpikir sebelum merespons, dan yang mencapai peningkatan terukur pada tolok ukur yang sudah mapan seperti ARC-AGI-2 (45,1 persen) dan GPQA Diamond (93,8 persen). Data yang diverifikasi secara publik ini dan hasil Hieroglyph yang bocor berbicara dalam bahasa yang sama: titik di mana daya komputasi diterjemahkan menjadi kedalaman kognitif sejati telah tercapai.

Pasar sebagai indikator perubahan kompetitif yang sesungguhnya

Dinamika pasar mendukung narasi teknis dengan kejelasan yang luar biasa. Pangsa pasar OpenAI di antara pengguna AI turun dari 87 persen menjadi 68 persen pada tahun 2025. Pada saat yang sama, Gemini milik Google naik dari 5,4 persen menjadi 18,2 persen. Pergeseran ini bukan terutama didorong oleh diskriminasi data atau sirkulasi media, tetapi oleh perubahan struktural dalam cara AI diintegrasikan ke dalam tumpukan produktivitas. Google telah menyematkan Gemini di Chrome, Android, dan Google Workspace—ini bukan lagi aplikasi yang secara sadar dibuka pengguna, tetapi kemampuan ambien yang sudah ada di sistem operasi dan alat kerja sehari-hari. Dengan demikian, adopsi bukan lagi pilihan aktif, tetapi fenomena bawaan.

Pada saat yang sama, Google menerapkan strategi penetapan harga yang agresif. Sementara GPT-5.2 berharga $1,75 per juta token input, Gemini Flash dihargai $0,50—diskon sebesar 71 persen. Ini bukan penawaran promosi untuk penetrasi pasar, tetapi reposisi struktural. Dengan TPU (Tensor Processing Unit) dan infrastruktur chip kustomnya sendiri, Google memiliki keunggulan struktur biaya yang radikal dibandingkan OpenAI, yang bergantung pada GPU Nvidia dan infrastruktur Azure Microsoft. Kedalaman perangkat keras ini tidak mudah ditiru.

Strategi ini brilian, tetapi juga mengkhawatirkan bagi perusahaan industri Eropa dan khususnya Jerman. Pendekatan Google adalah "berorientasi perusahaan"—bukan "berorientasi konsumen" seperti OpenAI. Google mengintegrasikan AI ke dalam alat yang sudah digunakan perusahaan. Mereka menggabungkan Gemini dengan Google Workspace, menciptakan lebih dari 1.500 agen AI yang sudah jadi, dan terintegrasi secara native dengan Salesforce, SAP, dan ServiceNow. Pesan strategisnya kuat: mengapa membeli langganan ChatGPT terpisah ketika AI sudah ada dalam paket produktivitas?

Morgan Stanley memperkirakan bahwa jika Google mengkonversi hanya 30 persen dari basis pelanggan Workspace yang ada ke Gemini Enterprise, mereka dapat menghasilkan pendapatan berulang tahunan sebesar $8-10 miliar pada tahun 2027—dengan margin operasi melebihi 40 persen. Ini bukan spekulasi, melainkan perhitungan berdasarkan jumlah pelanggan yang tersedia dan pola peningkatan SaaS yang telah terbukti.

🤖🚀 Platform AI Terkelola: Lebih cepat, lebih aman & lebih cerdas menuju solusi AI dengan UNFRAME

Platform AI Terkelola - Gambar: Xpert.Digital

Di sini Anda akan mempelajari bagaimana perusahaan Anda dapat menerapkan solusi AI yang disesuaikan dengan cepat, aman, dan tanpa hambatan masuk yang tinggi.

Platform AI Terkelola adalah paket lengkap dan bebas repot untuk kecerdasan buatan. Alih-alih berurusan dengan teknologi yang rumit, infrastruktur yang mahal, dan proses pengembangan yang panjang, Anda akan mendapatkan solusi siap pakai yang disesuaikan dengan kebutuhan Anda dari mitra spesialis – seringkali dalam beberapa hari.

Manfaat utama sekilas:

⚡ Implementasi cepat: Dari ide hingga aplikasi operasional dalam hitungan hari, bukan bulan. Kami memberikan solusi praktis yang menciptakan nilai langsung.

Keamanan data maksimal: Data sensitif Anda tetap menjadi milik Anda. Kami menjamin pemrosesan yang aman dan sesuai aturan tanpa membagikan data dengan pihak ketiga.

💸 Tanpa risiko finansial: Anda hanya membayar untuk hasil. Investasi awal yang tinggi untuk perangkat keras, perangkat lunak, atau personel sepenuhnya dihilangkan.

🎯 Fokus pada bisnis inti Anda: Fokuslah pada keahlian Anda. Kami menangani seluruh implementasi teknis, operasional, dan pemeliharaan solusi AI Anda.

📈 Tahan Masa Depan & Skalabel: AI Anda tumbuh bersama Anda. Kami memastikan pengoptimalan dan skalabilitas berkelanjutan, serta menyesuaikan model secara fleksibel dengan kebutuhan baru.

Lebih lanjut tentang itu di sini:

Platform AI Terkelola

Lebih dari sekadar peningkatan skala? Apakah generasi AI berikutnya sudah belajar berpikir secara nyata? Mengapa AI baru bisa lebih dari sekadar alat produktivitas

Pemikiran lateral sebagai faktor ekonomi: Infrastruktur inovasi

Mengapa pemikiran lateral relevan secara ekonomi? Karena inovasi sejati—bukan sekadar memperluas pola yang sudah ada, tetapi mengenali ruang kemungkinan baru—membutuhkan kemampuan kognitif ini. Sistem AI yang hanya dapat mengatasi masalah melalui pengenalan pola statistik akan berfungsi dalam domain yang didefinisikan secara sempit tetapi akan secara memb盲盲 menemukan lompatan inovatif. Namun, jika sistem AI dapat membangun hipotesis paralel, mengujinya satu sama lain, dan memindai koneksi yang tidak terduga, maka tiba-tiba ia memiliki kemampuan generalisasi sejati. Ia dapat menangani ambiguitas. Ia dapat mengevaluasi opsi multi-nilai.

Bagi industri Jerman, khususnya manajemen perusahaan menengah di sektor teknik mesin, sistem otomatisasi, dan logistik, hal ini menghadirkan tantangan inovasi langsung. Mitra AI yang mampu berpikir lateral merupakan alat inovasi yang sesungguhnya. Mitra AI yang terbatas pada penalaran gaya GPT 5.2 adalah penulis dokumen dan generator kode yang efisien, tetapi bukan penasihat strategis. Inilah perbedaan antara "alat produktivitas" dan "kemampuan strategis"

Lebih jauh lagi: Jika titik pemeriksaan Snow Bunny milik Google benar-benar dimasukkan ke dalam Gemini 3.5 yang akan datang (yang dicurigai oleh para pakar teknologi berdasarkan konvensi penamaan dan logika garis waktu), maka keseimbangan kekuatan di industri AI akan bergeser secara fundamental pada tahun 2026. Bukan hanya sedikit. Tetapi secara fundamental.

Arsitektur terobosan: Bukan hanya penskalaan

Poin penting: Peningkatan tersebut bukan hasil dari penambahan parameter atau peningkatan daya komputasi. Itulah pertanyaan penelitian dari tahun 2023 hingga 2025: apakah sekadar penskalaan saja sudah cukup. Sekarang ternyata: Tidak. Diperlukan inovasi arsitektur yang sesungguhnya. Pergeseran paradigma dari "memprediksi token berikutnya secara statistik" menjadi "menguraikan masalah, bernalar secara hierarkis, memverifikasi." Literatur teknis tentang Model Penalaran Hierarkis (HRM) dan AI Neuro-Simbolik telah menunjukkan sejak tahun 2024-2025 bahwa arsitektur semacam itu dimungkinkan dan dapat mencapai kinerja penalaran yang lebih baik dengan parameter yang jauh lebih sedikit daripada pendekatan penskalaan murni.

Google jelas telah menerapkan versi ini ke dalam produksi. OpenAI dan Anthropic (Claude) bahkan lebih tertanam dalam paradigma skala-pertama. Ini adalah perbedaan strategis, bukan perbedaan marginal. Ini juga menjelaskan mengapa jumlah parameter yang mencapai miliaran bukan lagi satu-satunya faktor.

Risikonya tidak kecil

Keaslian data tersebut masih belum jelas. Kebocoran benchmark mudah dimanipulasi, dan industri AI telah berulang kali mengalami erosi integritas benchmark pada tahun 2024-2025. Manipulasi skor, kontaminasi data pelatihan, pelaporan selektif—praktik-praktik ini telah terdokumentasi dengan baik. Seorang analis yang berhati-hati akan menyarankan: Jangan percaya tangkapan layar, tunggu ketersediaan umum (GA), dan lakukan evaluasi independen.

Namun, informasi teknis dari dalam mengenai mode “Deep Think”, pembuatan kode paralel (3.000 baris dalam satu perintah), dan kemampuan pembuatan SVG dan musik—semuanya sudah didokumentasikan dalam laporan penguji beta dan dikonfirmasi dengan integrasi Vertex AI Cloud. Hal ini mengurangi risiko manipulasi. Google akan kehilangan terlalu banyak jika tolok ukur ini palsu. Perusahaan ini mungkin pesaing yang kurang transparan, tetapi tidak bodoh.

Implikasi strategis bagi industri Eropa

Di sinilah masalahnya menjadi serius. Eropa tidak memiliki pemain utama dalam permainan Model Yayasan. Tidak juga. Mistral, yang didirikan di Prancis, sedang berjuang untuk bertahan hidup melawan alternatif sumber terbuka. Aleph Alpha, perusahaan rintisan Jerman, telah lama melepaskan kemerdekaannya. Eropa mengekspor talenta ke OpenAI, Google, dan Anthropic alih-alih mempertahankannya. Benua ini menghasilkan makalah penelitian tetapi tidak memenangkan pasar.

Dinamika yang muncul saat ini berbahaya. Google akan mempertajam penawaran AI perusahaannya dengan Snow Bunny/Gemini 3.5. Jika produsen mesin, perusahaan logistik, dan UKM Jerman pada dasarnya bergantung pada Google, Microsoft (dengan integrasi OpenAI), atau Anthropic, maka mereka berada dalam ketergantungan strategis. Mereka membayar untuk tumbuh bersama teknologi, tetapi mereka tidak mengendalikannya. Bagi negara seperti Jerman, yang telah membangun daya saingnya berdasarkan kedalaman teknologi, ini merupakan risiko jangka menengah.

Jerman adalah pemimpin global dalam Industri 4.0 dan otomatisasi. Tetapi jika lapisan kognitif—AI yang berpikir tentang proses produksi—berasal dari AS, maka Jerman mendelegasikan tingkat strategisnya. Ini adalah jebakan klasik: tetap kuat secara teknis di tingkat bawah, tetapi kehilangan kendali atas keputusan dan inovasi di tingkat atas.

Apakah ada jalan kembali atau ke samping? Itu sulit. Model sumber terbuka (Llama, Qwen, Mistral) lebih murah, tetapi tertinggal dari model-model mutakhir dalam hal kedalaman penalaran. Program "AI Eropa" akan memakan biaya bertahun-tahun dan triliunan dolar. Jalur praktisnya mungkin seperti ini: industri Eropa harus bekerja dengan model-model mutakhir tetapi mengembangkan spesialisasi dan keahlian domainnya sendiri yang tidak dapat ditiru begitu saja oleh model-model generalis. Ini mungkin, tetapi membutuhkan kedalaman organisasi dan investasi pada talenta, bukan hanya panggilan API.

Narasi yang lebih besar: Pergeseran ke kedalaman kognitif

Kita berada di titik balik dari era penskalaan ke era kedalaman kognitif. Tahun 2017-2023 adalah "Model Lebih Besar, Hasil Lebih Baik"—narasi GPT-2 ke GPT-3 ke GPT-4 murni tentang penskalaan. Tahun 2024-2025 adalah tahun ketika batasan efisiensi ini menjadi jelas. Anda tidak dapat mencapai hasil 10 kali lebih baik dengan 10 kali lebih banyak parameter. Anda harus berpikir (secara arsitektur) dan berinovasi.

Google, dengan laboratorium risetnya (DeepMind + Google Brain yang disatukan), investasi TPU-nya, dan visi jangka panjangnya, telah siap menghadapi transisi ini. OpenAI lebih reaktif, lebih baik dalam hubungan masyarakat, tetapi agak tertinggal dalam siklus riset. Itulah situasinya pada Januari 2026.

Tolok ukur hieroglif dan kebocoran Snowbunny adalah gejala dari pergeseran yang lebih dalam ini. Bukan karena model baru tersebut bagus dalam memecahkan teka-teki, tetapi karena pemikiran Sistem 2 yang sesungguhnya telah diimplementasikan dalam skala produksi.

Hal ini memiliki konsekuensi tidak hanya bagi industri AI, tetapi juga bagi semua industri yang memahami AI sebagai masukan strategis. Dan seharusnya semua orang.

Saran - Perencanaan - Implementasi

Konrad Wolfenstein

Saya akan dengan senang hati menjadi penasihat pribadi Anda.

menghubungi saya di bawah Wolfenstein ∂ xpert.digital

Hubungi saya di bawah +49 89 674 804 (Munich)