DeepSeek V3.1 – Peringatan untuk OpenAI & Co: AI sumber terbuka Tiongkok menghadirkan tantangan baru bagi penyedia yang sudah mapan

Konrad Wolfenstein

12 bulan yang lalu

DeepSeek V3.1 – Peringatan untuk OpenAI & Co.: AI sumber terbuka Tiongkok menghadirkan tantangan baru bagi penyedia yang sudah mapan – Gambar: Xpert.Digital

Model AI baru dari Tiongkok: Model gratis ini 27 kali lebih murah dan secara langsung menantang ChatGPT

### Peringatan untuk OpenAI & Co.: AI baru Tiongkok sama kuatnya – tetapi sangat murah. Apa yang ada di baliknya? ### DeepSeek V3.1: Serangan AI senyap yang kini membalikkan dunia teknologi ### Lupakan AI mahal: Mengapa model open-source Tiongkok ini mengubah segalanya ### AI super baru Tiongkok: Bagaimana Beijing menekan Barat dengan strategi bebas radikal ### Lebih baik dan lebih murah daripada pesaing? Apa yang sebenarnya dapat dilakukan oleh AI ajaib baru Tiongkok ###

DeepSeek V3.1 merevolusi (sekali lagi) lanskap AI

Kecerdasan buatan Tiongkok menjadi tantangan serius bagi raksasa teknologi Amerika. Perusahaan rintisan DeepSeek yang berbasis di Hangzhou telah mencapai terobosan signifikan dengan model terbarunya, V3.1, yang secara fundamental menantang asumsi tradisional tentang pengembangan dan pendanaan AI. Model sumber terbuka ini mencapai kinerja sistem berpemilik terkemuka dengan biaya pengembangan yang jauh lebih rendah dan menunjukkan jalan menuju masa depan baru bagi kecerdasan buatan.

Berkaitan dengan ini:

DeepSeek: Revolusi AI China di bawah bayang-bayang pengawasan – Tuduhan serius dari Washington

Inovasi teknologi dengan arsitektur hibrida

DeepSeek V3.1 didasarkan pada arsitektur Mixture of Experts tingkat lanjut dengan total 685 miliar parameter, di mana 37 miliar di antaranya diaktifkan per token. Teknologi ini memungkinkan pemanfaatan sumber daya yang jauh lebih efisien daripada model tradisional tanpa mengorbankan kinerja.

Fitur unggulan dari model baru ini adalah arsitektur inferensi hibridanya, yang dapat beralih antara "mode berpikir" dan "mode tidak berpikir". Dalam mode berpikir, sistem mengembangkan proses penalaran internal yang lebih dalam dan sangat cocok untuk pemecahan masalah kompleks yang membutuhkan pemikiran logis multi-tahap. Sebaliknya, mode tidak berpikir memberikan jawaban langsung dan ringkas untuk tugas-tugas di mana kecepatan sangat penting.

Kemajuan teknis lainnya adalah perluasan jendela konteks hingga 128.000 token, yang setara dengan sekitar 96.000 kata atau dua novel setebal 200 halaman. Kapasitas ini memungkinkan pemrosesan dokumen yang sangat panjang, pemahaman seluruh repositori kode, dan skenario dialog multi-tahap.

Pengembangan lebih lanjut dicapai melalui pendekatan dua fase untuk perluasan konteks. Fase 32.000 token diperluas sepuluh kali lipat menjadi 630 miliar token, sementara fase 128.000 token ditingkatkan 3,3 kali lipat menjadi 209 miliar token. Selain itu, model ini menggunakan format data UE8M0 FP8 untuk kompatibilitas optimal dengan arsitektur perangkat keras modern.

Parameter dan tolok ukur kinerja yang mengesankan

DeepSeek V3.1 mencapai hasil yang luar biasa dalam tes standar. Dalam Aider Coding Benchmark yang terkenal, model ini mencetak skor 71,6 persen – skor yang menyaingi model-model terkemuka dari OpenAI dan Anthropic. Kinerja ini sangat mengesankan mengingat biayanya yang jauh lebih rendah.

Dalam tugas-tugas matematika, DeepSeek V3.1 bahkan melampaui para pesaing yang sudah mapan. Dalam tes Math-500, model ini mencapai 90,2 persen, sementara GPT-40 hanya mencapai 74,6 persen. Dalam tes MMLU-Pro, sistem ini meningkat sebesar 5,3 poin menjadi 81,2, dan dalam benchmark GPQA meningkat secara signifikan sebesar 9,3 poin menjadi 68,4.

Yang patut diperhatikan adalah peningkatan pada tugas penalaran multi-tahap, di mana versi 3.1 berkinerja 43 persen lebih baik daripada pendahulunya. Kemampuan pemrograman model ini memungkinkan untuk menghasilkan kode bebas kesalahan hingga sepanjang 700 baris – kinerja yang menyaingi solusi berpemilik yang mahal.

Efisiensi biaya yang revolusioner

Struktur biaya DeepSeek V3.1 benar-benar mengubah asumsi sebelumnya tentang pengembangan AI. Sementara tugas pemrograman dengan V3.1 hanya berharga sekitar satu dolar, sistem sebanding lainnya mengenakan biaya hampir 70 dolar untuk tugas serupa. Pengurangan biaya yang dramatis ini membuat teknologi AI canggih dapat diakses oleh perusahaan dan pengembang yang lebih kecil.

Menurut perusahaan, biaya pengembangan untuk model V3 yang mendasarinya hanya sekitar $5,6 juta – sebagian kecil dari ratusan juta dolar yang dihabiskan perusahaan Amerika untuk proyek serupa. Efisiensi ini dicapai melalui metode pelatihan yang inovatif dan penggunaan perangkat keras yang kurang canggih, tetapi lebih murah.

Harga API DeepSeek jauh lebih murah dibandingkan pesaingnya. Model obrolan berharga $0,07 per juta token input untuk cache hit dan $1,10 per juta token output. Model penalaran berharga $0,14 untuk token input dan $2,19 untuk token output. Sebagai perbandingan, OpenAI mengenakan biaya sekitar $2 hingga $2,50 per juta token output, sedangkan DeepSeek hanya mengenakan biaya $0,014.

Pentingnya strategis bagi persaingan AI global

Keberhasilan DeepSeek memiliki implikasi yang luas bagi lanskap AI global. Perusahaan ini menunjukkan bahwa kinerja AI tingkat lanjut tidak lagi membutuhkan sumber daya besar dan pendekatan eksklusif yang selama ini menjadi ciri khas pengembangan AI di Amerika. Perkembangan ini menantang fondasi model bisnis saat ini.

Kepemimpinan Tiongkok memberikan kepentingan strategis yang tinggi kepada DeepSeek, sebagaimana dibuktikan oleh pertemuan antara pendiri Liang Wenfeng dan Perdana Menteri Li Qiang. Perusahaan ini dipandang sebagai komponen kunci dalam ambisi Tiongkok untuk menjadi pemimpin global dalam kecerdasan buatan pada tahun 2030.

Strategi sumber terbuka DeepSeek memungkinkan perusahaan dan peneliti lain di seluruh dunia untuk memanfaatkan kemajuan yang telah dicapai dan mengembangkan inovasi mereka sendiri. Hal ini mendorong pengembangan teknologi AI yang terdesentralisasi dan mengurangi ketergantungan pada raksasa teknologi individual.

Latar belakang dan struktur perusahaan

DeepSeek didirikan di Hangzhou pada tahun 2023 oleh Liang Wenfeng dan sepenuhnya didanai oleh hedge fund Tiongkok, High-Flyer. Wenfeng, lahir pada tahun 1985 sebagai putra seorang guru sekolah dasar, mengembangkan minat pada penerapan AI di sektor keuangan saat belajar di Universitas Zhejiang.

Pada tahun 2016, Wenfeng mendirikan High-Flyer, sebuah hedge fund yang menggunakan pembelajaran mesin untuk strategi perdagangan kuantitatif. Pada tahun 2021, perusahaan tersebut telah sepenuhnya beralih ke pendekatan perdagangan berbasis AI dan menjadi salah satu hedge fund kuantitatif terkemuka di Tiongkok dengan aset kelolaan lebih dari 100 miliar RMB.

Bahkan sebelum mendirikan DeepSeek, Wenfeng mulai membeli ribuan GPU Nvidia – yang awalnya dicemooh sebagai hobi eksentrik seorang miliarder. Investasi jangka panjang dalam perangkat keras ini kemudian memungkinkan perusahaan untuk mengembangkan model AI yang kompetitif meskipun ada pembatasan ekspor AS.

Keamanan Data Uni Eropa/Jerman | Integrasi platform AI independen dan lintas sumber data untuk semua kebutuhan bisnis

Platform AI independen sebagai alternatif strategis bagi perusahaan-perusahaan Eropa - Gambar: Xpert.Digital

Pengubah Permainan AI: Platform AI paling fleksibel - Solusi yang dirancang khusus untuk mengurangi biaya, meningkatkan pengambilan keputusan, dan meningkatkan efisiensi

Platform AI independen: Mengintegrasikan semua sumber data perusahaan yang relevan

Integrasi AI yang cepat: Solusi AI yang dirancang khusus untuk bisnis dalam hitungan jam atau hari, bukan bulan
Infrastruktur fleksibel: Berbasis cloud atau hosting di pusat data Anda sendiri (Jerman, Eropa, pilihan lokasi bebas)

Keamanan data maksimal: penggunaannya di firma hukum adalah bukti yang tak terbantahkan
Penerapan di berbagai sumber data perusahaan
Pilihan model AI sendiri atau berbeda (DE, EU, USA, CN)

Informasi selengkapnya di sini:

Platform AI independen vs. penyedia layanan cloud berskala besar: Solusi mana yang tepat?

Chip, algoritma, inovasi: Perjalanan DeepSeek menuju puncak dunia

Dampak kontrol ekspor AS

Keberhasilan DeepSeek sangat luar biasa mengingat adanya pembatasan ekspor AS terhadap chip AI berkinerja tinggi ke China. Sanksi tersebut dimaksudkan untuk membatasi kemampuan China dalam mengembangkan sistem AI canggih, tetapi DeepSeek menunjukkan bahwa pendekatan perangkat lunak yang inovatif dan pemanfaatan sumber daya yang efisien dapat mengatasi keterbatasan ini.

Perusahaan tersebut menggunakan chip H800 yang kurang bertenaga, yang telah disetujui untuk diekspor ke Tiongkok, namun tetap mencapai kinerja terbaik melalui algoritma yang dioptimalkan dan metode pelatihan yang efisien. Pendekatan ini menantang efektivitas sanksi teknologi dan menunjukkan jalur alternatif untuk pengembangan AI.

Para ahli melihat terobosan DeepSeek sebagai titik balik yang dapat secara fundamental mengubah perkiraan yang ada tentang kemampuan dan potensi AI Tiongkok. Perkembangan ini menunjukkan bahwa inovasi dalam optimasi perangkat lunak mungkin lebih penting daripada sekadar keunggulan perangkat keras.

Berkaitan dengan ini:

Upaya China mengejar ketertinggalan dalam kecerdasan buatan: Kasus DeepSeek dan penggunaan data secara strategis

Sumber Terbuka sebagai keunggulan kompetitif

Strategi sumber terbuka DeepSeek menawarkan beberapa keunggulan strategis. Pengembang dan bisnis di seluruh dunia dapat menjalankan, menyesuaikan, dan mengintegrasikan model ini secara lokal ke dalam proyek mereka sendiri tanpa bergantung pada layanan cloud. Hal ini sangat penting untuk aplikasi yang sensitif terhadap data dan perusahaan yang ingin mempertahankan kendali atas informasi mereka.

Pengembangan berbasis komunitas memungkinkan perbaikan bug yang lebih cepat, peningkatan berkelanjutan, dan basis kontributor yang luas. Pada saat yang sama, pendekatan sumber terbuka mendemokratisasi akses ke teknologi AI canggih dan mendorong inovasi, termasuk di perusahaan kecil dan negara berkembang.

Berbeda dengan model berpemilik yang hanya dapat diakses melalui API atau platform cloud, AI sumber terbuka menawarkan ketersediaan jangka panjang dan kemandirian dari vendor individual. Pengguna tidak perlu khawatir tentang kenaikan harga, pembatasan akses, atau penghentian layanan.

Terobosan dan inovasi teknologi

DeepSeek V3.1 mengintegrasikan beberapa teknologi inovatif yang memungkinkan efisiensinya yang luar biasa. Arsitektur Latent Attention multi-head mengkompresi cache key-value menggunakan vektor laten, mengurangi konsumsi memori dan beban komputasi selama inferensi.

Metode prediksi multi-token memungkinkan setiap token untuk memprediksi beberapa token di masa mendatang secara bersamaan. Hal ini mengatasi kendala signifikan dari model autoregresif tradisional dan meningkatkan akurasi serta kecepatan inferensi.

Penggunaan pelatihan 8-bit secara signifikan mengurangi kebutuhan dan biaya memori tanpa mengorbankan akurasi. Teknik ini dulunya dianggap bermasalah, tetapi DeepSeek menunjukkan bahwa, jika diimplementasikan dengan benar, teknik ini menghasilkan hasil yang sebanding dengan metode tradisional.

Reaksi dan dampak pasar

Pengumuman DeepSeek V3.1 memicu reaksi keras di pasar keuangan. Nvidia kehilangan lebih dari $600 miliar kapitalisasi pasar – kerugian tunggal terbesar dalam sejarah pasar saham AS. Perusahaan perangkat keras AI lainnya juga mengalami penurunan harga saham yang signifikan.

Investor dan analis sedang mempertimbangkan kembali penilaian mereka terhadap industri AI. Anggapan bahwa investasi besar-besaran dalam perangkat keras dan pengembangan eksklusif merupakan prasyarat yang diperlukan untuk AI mutakhir sedang ditantang oleh keberhasilan DeepSeek.

Perusahaan-perusahaan Barat sudah menguji model DeepSeek dalam alur kerja mereka. Contoh yang menonjol adalah Merck, yang Kepala Bagian Datanya secara terbuka mendemonstrasikan integrasi DeepSeek sebagai salah satu dari beberapa opsi AI dalam proses internal.

Perkembangan dan prospek masa depan

DeepSeek memposisikan versi 3.1 sebagai langkah pertama menuju "era agen" AI. Model ini telah dioptimalkan secara khusus untuk penggunaan alat yang lebih baik dan tugas agen multi-langkah. Optimasi pasca-pelatihan telah menghasilkan peningkatan signifikan dalam penggunaan alat eksternal dan tugas pencarian yang kompleks.

Kecepatan pengembangan DeepSeek menunjukkan bahwa model V4 mungkin akan dirilis sebelum versi R2 OpenAI berikutnya. Dinamika ini dapat mempercepat siklus pengembangan industri AI tradisional dan menetapkan standar baru untuk frekuensi pembaruan.

Keberhasilan DeepSeek telah menginspirasi perusahaan AI Tiongkok lainnya dan para peneliti di seluruh dunia. Model sumber terbuka semakin dipandang sebagai alternatif yang valid untuk solusi berpemilik, yang dapat mengarah pada lanskap AI yang lebih beragam dan kompetitif.

Tantangan dan kritik

Terlepas dari pencapaiannya yang mengesankan, DeepSeek juga menuai kritik. Seperti model AI Tiongkok lainnya, DeepSeek tunduk pada langkah-langkah sensor tertentu, yang dapat diterapkan pada topik-topik yang sensitif secara politik. Namun, pembatasan ini seringkali dapat diatasi melalui penyesuaian teknis.

Transparansi terkait data dan metode pelatihan masih terbatas. Terdapat spekulasi bahwa pelatihan tersebut sebagian didasarkan pada respons dari ChatGPT, karena DeepSeek terkadang mengklaim sebagai ChatGPT itu sendiri. Ketidakjelasan ini menimbulkan pertanyaan tentang orisinalitas dan potensi masalah hak cipta.

Perkembangan pesat dan harga rendah dari model pencarian kedalaman juga menimbulkan kekhawatiran tentang keberlanjutan model bisnis tersebut. Para kritikus mempertanyakan apakah harga yang sangat rendah tersebut dapat dipertahankan dalam jangka panjang atau apakah itu merupakan bagian dari strategi penetrasi pasar yang strategis.

Implikasi global bagi industri AI

DeepSeek V3.1 menandai titik balik dalam pengembangan AI global. Model ini membuktikan bahwa pendekatan perangkat lunak yang inovatif dan pemanfaatan sumber daya yang efisien dapat lebih penting daripada investasi modal besar dan akses ke perangkat keras terbaru. Temuan ini akan memengaruhi strategi semua perusahaan AI besar.

Demokratisasi teknologi AI canggih melalui model sumber terbuka dapat mengarah pada distribusi kemampuan AI yang lebih merata di seluruh dunia. Negara dan perusahaan yang sebelumnya terhambat oleh biaya tinggi atau hambatan teknis akan mendapatkan akses ke teknologi mutakhir.

Pada saat yang sama, keberhasilan DeepSeek mempertanyakan efektivitas sanksi teknologi dan kontrol ekspor. Kemampuannya untuk mencapai kinerja kelas dunia dengan sumber daya terbatas dapat mendorong negara lain untuk mengejar pendekatan serupa dan mengembangkan ekosistem AI mereka sendiri.

DeepSeek V3.1 mewakili lebih dari sekadar model AI lainnya – ia melambangkan pergeseran mendasar dalam cara AI dikembangkan, didanai, dan diterapkan. Kombinasi inovasi teknologi, pengembangan yang hemat biaya, dan ketersediaan sumber terbuka menciptakan peluang baru dan menghadirkan tantangan serius bagi para pemimpin pasar yang sudah mapan. Perkembangan di masa depan akan menunjukkan apakah pendekatan ini akan membentuk masa depan industri AI.

Kami hadir untuk Anda - Konsultasi - Perencanaan - Implementasi - Manajemen Proyek

☑️ Dukungan UKM dalam strategi, konsultasi, perencanaan, dan implementasi

☑️ Pembuatan atau penyesuaian kembali strategi AI

☑️ Pengembangan Bisnis Perintis

Konrad Wolfenstein

Saya akan dengan senang hati menjadi penasihat pribadi Anda.

Anda dapat menghubungi saya dengan mengisi formulir kontak di bawah ini atau cukup hubungi saya di +49 7348 4088 965 .

Saya sangat menantikan proyek bersama kita.

Tulis surat kepadaku

➡️ Permintaan panggilan video 👩👱

Xpert.Digital - Konrad Wolfenstein

Xpert.Digital adalah pusat bagi industri yang berfokus pada digitalisasi, teknik mesin, logistik/intralogistik, dan fotovoltaik.

Dengan solusi Pengembangan Bisnis 360° kami, kami mendukung perusahaan-perusahaan ternama mulai dari bisnis baru hingga layanan purna jual.

Intelijen pasar, smarketing, otomatisasi pemasaran, pengembangan konten, PR, kampanye email, media sosial yang dipersonalisasi, dan pembinaan prospek adalah bagian dari alat digital kami.

Anda dapat menemukan informasi lebih lanjut di: www.xpert.digital - www.xpert.solar - www.xpert.plus

Tetaplah berhubungan