Model AI Kimi K2 dari Moonshot AI: Unggulan sumber terbuka terbaru dari Tiongkok – tonggak penting lainnya bagi sistem AI terbuka

Konrad Wolfenstein

11 bulan yang lalu

Model AI Kimi K2: Unggulan sumber terbuka terbaru dari Tiongkok – tonggak penting lainnya bagi sistem AI terbuka – Gambar: Xpert.Digital

Model Kimi K2 dengan triliunan parameter membuka jalan bagi pengembangan AI yang mandiri di Eropa

Revolusi sumber terbuka lainnya: Kimi K2 menghadirkan AI kelas dunia ke pusat data Eropa

Kimi K2 membawa ekosistem AI terbuka ke level yang baru. Model campuran para ahlinya, dengan satu triliun parameter, memberikan hasil dalam pemrograman, matematika, dan tolok ukur agen yang realistis yang setara dengan perangkat lunak berpemilik kelas berat – dengan biaya yang jauh lebih rendah dan bobot yang sepenuhnya diungkapkan. Hal ini membuka peluang bagi pengembang dan perusahaan di Jerman untuk menghosting sendiri layanan AI berkinerja tinggi, mengintegrasikannya ke dalam proses yang ada, dan mengembangkan produk baru.

Berkaitan dengan ini:

AI sumber terbuka dari Tiongkok – Bagaimana DeepSeek menjerumuskan dunia teknologi ke dalam kekacauan – Lebih sedikit GPU, lebih banyak kekuatan AI

Mengapa Kimi K2 lebih dari sekadar model AI besar berikutnya?

Sementara laboratorium Barat seperti OpenAI dan Anthropic menyembunyikan model terbaik mereka di balik API berbayar, Moonshot AI mengambil pendekatan yang berbeda: semua bobot tersedia untuk umum di bawah lisensi MIT yang dimodifikasi. Hal ini tidak hanya memungkinkan reproduksi ilmiah tetapi juga memungkinkan usaha kecil dan menengah untuk membangun klaster inferensi mereka sendiri atau menggunakan Kimi K2 dalam skenario edge computing. Peluncuran ini bertepatan dengan periode di mana Tiongkok memposisikan diri sebagai pelopor dalam gerakan LLM (Low-Level Modeling) sumber terbuka; DeepSeek V3 dianggap sebagai tolok ukur hingga Juni, dan sekarang Kimi K2 kembali meningkatkan standar.

Arsitektur dan metode pelatihan

Perpaduan para ahli pada tingkat yang belum pernah terjadi sebelumnya

Kimi K2 dibangun di atas sistem pakar inovatif dengan 384 pakar, dengan hanya delapan pakar dan satu "pakar bersama" global yang aktif per token. Arsitektur ini memungkinkan mesin inferensi untuk memuat hanya 32 miliar parameter ke dalam memori secara bersamaan, sehingga secara drastis mengurangi beban GPU. Sementara model padat dengan 70 miliar parameter yang berjalan pada presisi penuh sudah membutuhkan dua GPU H100, Kimi K2 mencapai kualitas yang sebanding atau bahkan lebih baik sambil hanya menjalankan sepertiga beban pada GPU yang sama.

Dibandingkan dengan model lain, efisiensi Kimi K2 terlihat jelas: Dengan total 1 triliun parameter, ia melampaui DeepSeek V3-Base dengan 671 miliar parameter dan masih kalah dari nilai perkiraan GPT-4.1 dengan sekitar 1,8 triliun parameter. Lebih lanjut, Kimi K2 hanya menggunakan 32 miliar parameter per token, dibandingkan dengan 37 miliar untuk DeepSeek V3-Base. Sistem pakar Kimi K2 menggunakan 384 pakar, delapan di antaranya dipilih, sedangkan DeepSeek V3-Base menggunakan 240 pakar, juga dengan delapan yang dipilih. Ketiga model tersebut mendukung panjang konteks sebesar 128.000 token.

Perkembangan ini menunjukkan bahwa Moonshot merilis model publik dengan satu triliun parameter untuk pertama kalinya, sementara masih berada di bawah batas 40 miliar parameter per token, yang merupakan kemajuan signifikan dalam efisiensi model bahasa besar.

MuonClip – Stabilisasi dalam skala baru

Melatih transformer MoE yang sangat kuat seringkali mengalami lonjakan log perhatian yang sangat besar. Oleh karena itu, Moonshot menggabungkan optimizer Muon yang efisien token dengan proses penskalaan ulang "qk-clip" hilir yang menormalkan matriks kueri dan kunci setelah setiap langkah. Menurut Moonshot, tidak ada satu pun lonjakan kerugian yang terjadi dalam 15,5 triliun token pelatihan. Hasilnya adalah kurva pembelajaran yang sangat mulus dan model yang stabil sejak rilis awalnya.

basis data

Dengan 15,5 triliun token, Kimi K2 mencapai volume data model kelas GPT-4. Selain teks dan kode web klasik, panggilan alat simulasi dan dialog alur kerja dimasukkan ke dalam pra-pelatihan untuk membangun kompetensi agen. Tidak seperti DeepSeek R1, kompetensi agen karenanya tidak terutama didasarkan pada pengawasan rantai pemikiran, tetapi lebih pada skenario pembelajaran di mana model harus mengatur beberapa API.

Rincian kinerja benchmark

Hasil benchmark menunjukkan perbandingan detail antara tiga model AI di berbagai area tugas. Dalam pemrograman, Kimi K2-Instr. mencapai tingkat keberhasilan 65,8 persen dalam Tes Terverifikasi SWE-bench, sementara DeepSeek V3 mencetak 38,8 persen dan GPT-4.1 54,6 persen. Dalam LiveCodeBench v6, Kimi K2-Instr. memimpin dengan 53,7 persen, diikuti oleh DeepSeek V3 dengan 49,2 persen dan GPT-4.1 dengan 44,7 persen. Dalam tes keterkaitan alat, Tau2 Retail, dengan rata-rata empat percobaan, GPT-4.1 mencapai kinerja terbaik dengan 74,8 persen, sedikit di depan Kimi K2-Instr. dengan 70,6 persen dan DeepSeek V3 dengan 69,1 persen. Dalam kategori matematika MATH-500, dengan pencocokan tepat, Kimi K2-Instr. mendominasi. Dengan 97,4 persen, diikuti oleh DeepSeek V3 dengan 94,0 persen dan GPT-4.1 dengan 92,4 persen. Dalam tes pengetahuan umum MMLU tanpa batas waktu, GPT-4.1 berkinerja terbaik dengan 90,4 persen, diikuti oleh Kimi K2-Instr. dengan 89,5 persen, sedangkan DeepSeek V3 berada di urutan terakhir dengan 81,2 persen.

Interpretasi hasil

Dalam skenario pengkodean realistis, Kimi K2 jelas mengungguli semua model sumber terbuka sebelumnya dan mengalahkan GPT-4.1 pada SWE-bench Verified.
Matematika dan pemikiran simbolisnya hampir sempurna; model ini bahkan melampaui sistem berpemilik dalam hal ini.
Dalam hal pengetahuan dunia murni, GPT-4.1 masih sedikit lebih unggul, tetapi selisihnya lebih kecil dari sebelumnya.

Keterampilan agen dalam kehidupan sehari-hari

Banyak LLM (Learning Learning Manager) menjelaskan berbagai hal dengan baik tetapi tidak mengambil tindakan. Kimi K2 secara konsisten dilatih untuk menyelesaikan tugas secara mandiri – termasuk pemanggilan alat, eksekusi kode, dan manipulasi file.

Contoh 1: Perencanaan perjalanan bisnis

Model ini memecah sebuah permintaan (“Pesan penerbangan, hotel, dan meja untuk tiga orang di Berlin”) menjadi 17 panggilan API: kalender, agregator penerbangan, API kereta api, OpenTable, email perusahaan, Google Sheets – tanpa rekayasa prompt manual.

Contoh 2: Analisis data

Sebuah file CSV yang berisi 50.000 catatan data gaji diimpor, dianalisis secara statistik, dibuat grafik, dan disimpan sebagai halaman HTML interaktif. Seluruh proses berlangsung dalam satu sesi obrolan.

Mengapa ini penting?

Produktivitas: Respons model bukan hanya teks, tetapi tindakan yang dapat dieksekusi.
Ketahanan terhadap kesalahan: Melalui pelatihan RL pada alur kerja, Kimi K2 belajar menafsirkan pesan kesalahan dan memperbaikinya sendiri.
Biaya: Agen otomatis menghemat perpindahan tugas antar manusia dan mengurangi biaya kontekstual, karena lebih sedikit perjalanan bolak-balik yang dibutuhkan.

Perizinan, biaya, dan konsekuensi operasional

Lisensi

Bobot tersebut tunduk pada lisensi yang mirip dengan MIT. Moonshot hanya mensyaratkan pemberitahuan "Kimi K2" yang terlihat di UI untuk produk dengan lebih dari 100 juta pengguna aktif bulanan atau lebih dari $20 juta pendapatan bulanan. Hal ini tidak relevan bagi sebagian besar perusahaan Jerman.

Harga API dan self-hosting

Harga API dan hosting mandiri sangat bervariasi antar penyedia. Meskipun API Moonshot mengenakan biaya $0,15 per juta token input dan $2,50 per juta token output, API DeepSeek berharga $0,27 per input dan $1,10 per output. API GPT-4 jauh lebih mahal, rata-rata $10,00 per input dan $30,00 per output.

Yang patut diperhatikan adalah efisiensi biaya yang ditawarkan oleh teknologi MoE: Biaya cloud menjadi sangat kompetitif. Sebuah contoh praktis mengilustrasikan hal ini: Seorang pengembang hanya membayar sekitar $0,005 untuk obrolan 2.000 token dengan Kimi K2, sementara obrolan yang sama hanya berharga empat dolar dengan GPT-4.

Profil perangkat keras untuk pengoperasian internal

Model lengkap (FP16): minimal 8 × H100 80 GB atau 4 × B200.
Kuantisasi 4-bit: berjalan stabil pada 2 × H100 atau 2 × Apple M3 Ultra 512 GB.
Mesin inferensi: vLLM, SGLang, dan TensorRT-LLM secara bawaan mendukung Kimi K2.

Penerapan praktis di Eropa

Industri 4.0: Jadwal perawatan otomatis, diagnosis kerusakan, dan pemesanan suku cadang dapat dimodelkan sebagai alur agen.
Usaha kecil dan menengah (UKM): Chatbot lokal menjawab pertanyaan pemasok dan pelanggan secara real-time tanpa mengirim data ke server AS.
Pelayanan Kesehatan: Klinik menggunakan Kimi K2 untuk pengkodean surat medis, perhitungan kasus DRG, dan koordinasi janji temu – semuanya dilakukan di tempat.
Penelitian & Pengajaran: Universitas-universitas menampung model ini dalam klaster HPC untuk memungkinkan mahasiswa melakukan eksperimen gratis dengan LLM (Learning Learning Model) mutakhir.
Pihak berwenang: Lembaga publik mendapat manfaat dari bobot sumber terbuka, karena peraturan perlindungan data mempersulit penggunaan model cloud berpemilik.

Praktik terbaik untuk operasi yang produktif

Beberapa praktik terbaik telah ditetapkan untuk pengoperasian sistem AI yang produktif. Untuk asisten obrolan, suhu harus diatur ke 0,2 hingga 0,3 untuk memastikan jawaban yang faktual, sementara nilai p tertinggi harus maksimal 0,8. Untuk pembuatan kode, sangat penting untuk mendefinisikan perintah sistem dengan jelas, misalnya, dengan instruksi "Anda adalah asisten Python yang tepat," dan untuk menerapkan pengujian yang andal. Untuk panggilan alat, skema JSON harus ditentukan secara ketat sehingga model memformat panggilan fungsi dengan benar. Pipeline RAG bekerja paling baik dengan ukuran chunk tidak lebih dari 800 token dan pemeringkatan ulang dengan cross-encoder seperti bge-RERANK-L sebelum pengambilan. Untuk keamanan, sangat penting untuk mengeksekusi perintah keluar dalam sandbox, misalnya, di VM Firecracker, untuk meminimalkan risiko injeksi.

Berkaitan dengan ini:

Ekonomi AI sebagai kekuatan ekonomi: Analisis transformasi global, perkiraan, dan prioritas geopolitik

Tantangan dan keterbatasan

Jejak Memori

Meskipun hanya 32 parameter B yang aktif, router harus mempertahankan semua bobot ahli. Oleh karena itu, inferensi CPU murni tidak realistis.

Ketergantungan alat

Alat yang didefinisikan secara tidak tepat menyebabkan perulangan tanpa akhir; penanganan kesalahan yang kuat sangat penting.

Halusinasi

Dengan API yang sama sekali tidak dikenal, model tersebut dapat menciptakan fungsi-fungsi fiktif. Diperlukan validator yang ketat.

Klausul lisensi

Dengan pertumbuhan pengguna yang kuat, kebutuhan akan branding mungkin akan menjadi topik diskusi.

Etika & Pengendalian Ekspor

Keterbukaan ini juga memfasilitasi aplikasi yang berpotensi menyalahgunakan; perusahaan bertanggung jawab atas sistem filter.

Sumber terbuka sebagai mesin inovasi

Langkah Moonshot AI menunjukkan bahwa model terbuka tidak hanya tertinggal di belakang alternatif berpemilik, tetapi sudah mendominasi bidang-bidang tertentu. Di Tiongkok, ekosistem universitas, perusahaan rintisan, dan penyedia layanan cloud sedang muncul, mempercepat pengembangan melalui penelitian kolaboratif dan penetapan harga yang agresif.

Hal ini memberikan keuntungan ganda bagi Eropa:

Akses teknologi tanpa ketergantungan pada vendor tertentu dan di bawah kedaulatan data Eropa.
Tekanan biaya pada penyedia layanan komersial menunjukkan bahwa harga yang wajar untuk layanan yang sebanding dapat diharapkan dalam jangka menengah.

Dalam jangka panjang, kita dapat mengharapkan munculnya Model Eksistensi (MoE) senilai triliunan dolar lebih lanjut, bahkan mungkin yang multimodal. Jika Moonshot mengikuti tren ini, peningkatan visual atau audio dapat diungkapkan. Pada titik itu, persaingan untuk "agen terbuka" terbaik akan menjadi pendorong utama ekonomi AI.

Tidak ada lagi API kotak hitam yang mahal: Kimi K2 mendemokratisasi pengembangan AI

Kimi K2 menandai titik balik: Ia menggabungkan kinerja puncak, kelincahan, dan bobot terbuka dalam satu paket. Bagi pengembang, peneliti, dan perusahaan di Eropa, ini berarti kebebasan memilih yang sesungguhnya: Alih-alih bergantung pada API kotak hitam yang mahal, mereka dapat mengoperasikan, menyesuaikan, dan mengintegrasikan fondasi AI berkinerja tinggi yang terjangkau ke dalam produk mereka sendiri. Mereka yang memperoleh pengalaman awal dengan alur kerja berbasis agen dan infrastruktur MoE akan menciptakan keunggulan kompetitif yang berkelanjutan di pasar Eropa.

Berkaitan dengan ini:

Mitra pemasaran dan pengembangan bisnis global Anda

☑️ Bahasa bisnis kami adalah bahasa Inggris atau Jerman

☑️ BARU: Korespondensi dalam bahasa ibu Anda!

Konrad Wolfenstein

Saya dan tim saya dengan senang hati siap membantu Anda sebagai penasihat pribadi Anda.

Anda dapat menghubungi saya dengan mengisi formulir kontak di sini cukup hubungi saya di +49 7348 4088 965. Alamat email saya adalah wolfenstein@xpert.digital:atau

Model AI Kimi K2 dari Moonshot AI: Unggulan sumber terbuka terbaru dari Tiongkok – tonggak penting lainnya bagi sistem AI terbuka

Model Kimi K2 dengan triliunan parameter membuka jalan bagi pengembangan AI yang mandiri di Eropa

Revolusi sumber terbuka lainnya: Kimi K2 menghadirkan AI kelas dunia ke pusat data Eropa