DeepSeek-R1-0528: DeepSeeki värskendus viib Hiina tehisintellekti mudeli tagasi lääne tööstusliidrite tasemele

Konrad Wolfenstein

1 aasta tagasi

DeepSeek-R1-0528: DeepSeeki värskendus viib Hiina tehisintellekti mudeli tagasi lääne tööstusliidrite tasemele – Pilt: Xpert.Digital

Avatud lähtekoodiga tehisintellekt oma piiril: DeepSeek varjutab OpenAI-d ja Google'it

60-lt 68-le: DeepSeek katapulteerib Hiina tehisintellekti tagasi tippu

Hiina tehisintellekti idufirma DeepSeek saavutas 28. mail 2025 DeepSeek-R1-0528 väljaandmisega olulise verstaposti, mis andis globaalsele tehisintellekti maastikule uue tähenduse. Avatud lähtekoodiga arutlusmudeli värskendus näitab dramaatilisi jõudluse parandusi, asetades DeepSeeki esmakordselt samale tasemele OpenAI o3 ja Google Gemini 2.5 Pro-ga. Eriti tähelepanuväärne on see, et see tippjõudlus saavutatakse murdosa hinnaga ja täiesti avatud mudeli kaaludega, mis tekitab põhimõttelisi küsimusi patenteeritud tehisintellekti süsteemide tuleviku kohta. Sõltumatu hindamisplatvorm Artificial Analysis andis uuele mudelile 68 punkti – hüpe 60 punktilt 68 punktile, mis vastab OpenAI o1 ja o3 jõudluse erinevusele.

Sellega seotud:

DeepSeek ja Alibaba: Läbimurre spetsialistide tasandil? Hiina tehisintellekti surve tervishoius

Värskendus ja selle tehnilised täiustused

DeepSeek-R1-0528 kujutab endast olulist täiustust, mis saavutab algoritmilise optimeerimise ja arvutusressursside suurema kasutamise kaudu järelkoolituses märkimisväärse jõudluse paranemise, muutmata seejuures alusarhitektuuri. Värskendus keskendub peamiselt arutlusvõime parandamisele, võimaldades DeepSeeki sõnul "oluliselt sügavamaid mõtlemisprotsesse". Eriti muljetavaldav näide sellest paranemisest on AIME 2025 matemaatikatest, kus täpsus suurenes 70 protsendilt 87,5 protsendile. Samal ajal suurenes keskmine žetoonide arv küsimuse kohta 12 000-lt 23 000-le, mis näitab intensiivsemat töötlemist.

Lisaks arutluskäigu täiustustele toob värskendus kaasa olulisi uusi funktsioone, sealhulgas JSON-väljundi ja funktsioonikõned, optimeeritud kasutajaliidese ja hallutsinatsioonide vähenemise. Need täiustused muudavad mudeli arendajate jaoks oluliselt praktilisemaks ja laiendavad märkimisväärselt selle ulatust. Saadavus jääb samaks: olemasolevad API kasutajad saavad värskenduse automaatselt, samas kui mudeli kaalud jäävad Hugging Face'is avatud MIT-litsentsi alusel kättesaadavaks.

Võrdlustulemused ja tulemuslikkuse võrdlused

DeepSeek-R1-0528 võrdlustulemused näitavad muljetavaldavat paranemist kõigis hindamiskategooriates. Matemaatilistes ülesannetes tõusis AIME-2024 tulemus 79,8 protsendilt 91,4 protsendile, HMMT-2025 41,7 protsendilt 79,4 protsendile ja CNMO-2024 78,8 protsendilt 86,9 protsendile. Need tulemused positsioneerivad mudeli kui üht võimsamat tehisintellekti süsteemi matemaatiliste probleemide lahendamiseks kogu maailmas.

DeepSeek-R1-0528 näitab märkimisväärset edu ka programmeerimise võrdlusalustes. LiveCodeBench paranes 63,5 protsendilt 73,3 protsendile, Aider-Polyglot 53,3 protsendilt 71,6 protsendile ja SWE Verified 49,2 protsendilt 57,6 protsendile. Codeforces'i hinnang tõusis 1530 punktilt 1930 punktile, asetades mudeli parimate algoritmiliste probleemide lahendajate hulka. Võrreldes konkureerivate mudelitega saavutab DeepSeek-R1 SWE Verifiedis 49,2 protsenti, mis asetab selle napilt OpenAI o1-1217 ette 48,9 protsendiga, samas kui Codeforces'is on see 96,3 protsentiili ja Elo reitinguga 2029 punktiga OpenAI juhtivale mudelile väga lähedal.

Üldteadmiste ja loogikatestid kinnitavad laiaulatuslikku jõudluse paranemist: GPQA-Diamond tõusis 71,5 protsendilt 81,0 protsendile, Humanity's Last Exam 8,5 protsendilt 17,7 protsendile, MMLU-Pro 84,0 protsendilt 85,0 protsendile ja MMLU-Redux 92,9 protsendilt 93,4 protsendile. Ainult OpenAI SimpleQA näitas väikest langust 30,1 protsendilt 27,8 protsendile. Need ulatuslikud parandused näitavad, et DeepSeek-R1-0528 on konkurentsivõimeline mitte ainult spetsialiseeritud valdkondades, vaid kogu kognitiivsete ülesannete spektris.

Tehniline arhitektuur ja uuendused

DeepSeek-R1-0528 tehniline alus põhineb keerukal MoE (Mixture of Experts) arhitektuuril, millel on 37 miljardit aktiivset parameetrit kokku 671 miljardist parameetrist ja konteksti pikkus 128 000 tokenit. Mudel rakendab täiustatud tugevdusõpet, et saavutada enesekontroll, mitmeastmeline refleksioon ja inimsarnased arutlusvõimed. See arhitektuur võimaldab mudelil lahendada keerulisi arutlusülesandeid iteratiivsete mõtlemisprotsesside abil, mis eristab seda traditsioonilistest keelemudelitest.

Eriti uuenduslik aspekt on destilleeritud variandi DeepSeek-R1-0528-Qwen3-8B väljatöötamine, mis loodi DeepSeek-R1-0528 mõtteprotsessi destilleerimise teel Qwen3-8B-Base'i järeltreeninguks. See väiksem versioon saavutab muljetavaldava jõudluse oluliselt väiksema ressursivajadusega ja töötab 8–12 GB videomäluga graafikakaartidel. AIME 2024 testis saavutas mudel avatud lähtekoodiga mudelite seas tipptasemel jõudluse, olles 10 protsenti parem kui Qwen3-8B ja võrreldav Qwen3-235B-Thinkinguga.

Arendusmetoodika näitab, et DeepSeek tugineb üha enam järelkoolitusele koos tugevdusõppega, mis viis hindamise käigus žetoonide tarbimise 40% suurenemiseni – 71 miljonilt žetoonilt 99 miljonile. See viitab sellele, et mudel genereerib pikemaid ja põhjalikumaid vastuseid ilma põhimõttelisi arhitektuurilisi muudatusi tegemata.

Turupositsioon ja konkurentsidünaamika

DeepSeek-R1-0528 on end kehtestamas tõsise konkurendina lääne tehnoloogiaettevõtete juhtivatele patenteeritud mudelitele. Artificial Analysis'i andmetel saab mudel 68 punkti, mis asetab selle samale tasemele Google'i Gemini 2.5 Pro-ga ja edestab selliseid mudeleid nagu xAI Grok 3 mini, Meta Llama 4 Maverick ja Nvidia Nemotron Ultra. Koodikategoorias jääb DeepSeek-R1-0528 napilt alla OpenAI o4-mini ja o3-le.

Värskenduse avaldamine on avaldanud märkimisväärset mõju ülemaailmsele tehisintellekti maastikule. DeepSeek-R1 esialgne väljalase 2025. aasta jaanuaris viis juba Hiinast väljaspool asuvate tehnoloogiaaktsiate languseni ja seadis kahtluse alla eelduse, et tehisintellekti skaleerimine nõuab tohutut arvutusvõimsust ja investeeringuid. Lääne konkurendid reageerisid kiiresti: Google kehtestas Gemini jaoks soodushinnaga juurdepääsuhinnad, samas kui OpenAI langetas hindu ja tutvustas o3 Mini mudelit, mis vajab vähem arvutusvõimsust.

Huvitaval kombel näitavad EQBenchi tekstistiili analüüsid, et DeepSeek-R1 stiili on tugevamalt mõjutanud Google kui OpenAI, mis viitab sellele, et selle arendamisel võidi kasutada rohkem sünteetilisi Gemini väljundeid. See tähelepanek rõhutab keerulisi mõjutusi ja tehnoloogiaülekannet erinevate tehisintellekti arendajate vahel.

Kulutõhusus ja kättesaadavus

DeepSeek-R1-0528 peamine konkurentsieelis seisneb erakordses kulutõhususes. Selle hinnastruktuur on oluliselt soodsam kui OpenAI-l: sisendtokenid maksavad vahemälu tabamuste korral 0,14 dollarit miljoni tokeni kohta ja vahemälu möödalaskmiste korral 0,55 dollarit, väljundtokenid aga 2,19 dollarit miljoni tokeni kohta. Võrdluseks, OpenAI o1 küsib sisendtokenide eest 15 dollarit ja väljundtokenide eest 60 dollarit miljoni tokeni kohta, mis teeb DeepSeek-R1 90–95 protsenti odavamaks.

Microsoft Azure pakub DeepSeek-R1 konkurentsivõimeliste hindadega: globaalne versioon maksab sisendtokenide eest 0,00135 dollarit ja väljundtokenide eest 0,0054 dollarit iga 1000 tokeni kohta, samas kui regionaalse versiooni hinnad on veidi kõrgemad. See hinnakujundus muudab mudeli eriti atraktiivseks ettevõtetele ja arendajatele, kes soovivad kasutada kvaliteetseid tehisintellekti funktsioone ilma patenteeritud lahenduste kõrgete kuludeta.

Selle kättesaadavus avatud lähtekoodiga mudelina MIT-litsentsi alusel võimaldab ka ärilist kasutamist ja muutmist ilma litsentsitasudeta. Arendajad saavad mudelit käivitada lokaalselt või kasutada seda erinevate API-de kaudu, pakkudes paindlikkust ja kontrolli rakendamise üle. Piiratud ressurssidega kasutajatele on saadaval destilleeritud 8 miljardi parameetriga versioon, mis töötab tarbijariistvaral 24 GB mäluga.

Sellega seotud:

Hiina järelejõudmine tehisintellekti vallas: DeepSeeki juhtum ja andmete strateegiline kasutamine

Hiina tehisintellekti järelejõudmine: mida DeepSeeki edu tähendab

DeepSeek-R1-0528 tähistab pöördepunkti globaalses tehisintellekti arengus, näidates, et Hiina ettevõtted suudavad arendada mudeleid, mis konkureerivad parimate lääne süsteemidega vaatamata USA ekspordipiirangutele. Värskendus tõestab, et märkimisväärsed jõudluse parandused on võimalikud ilma fundamentaalsete arhitektuuriliste muudatusteta, kui tõhusalt rakendatakse koolitusjärgseid optimeerimisi ja tugevdusõpet. Tippjõudluse, drastiliselt vähendatud kulude ja avatud lähtekoodiga tarkvara kättesaadavuse kombinatsioon seab tehisintellekti tööstuses väljakujunenud ärimudelid põhimõtteliselt proovile.

Lääne konkurentide reaktsioonid DeepSeeki edule näitavad juba esimesi turumuutusi: OpenAI ja Google'i hinnalangused ning ressursitõhusamate mudelite väljatöötamine. DeepSeek-R2 eeldatava väljalaskega, mis algselt oli kavandatud 2025. aasta maiks, võib see konkurentsisurve veelgi suureneda. DeepSeek-R1-0528 edulugu näitab, et tehisintellekti innovatsioon ei nõua tingimata suuri investeeringuid ja arvutusressursse, vaid seda saab saavutada nutikate algoritmide ja tõhusate arendusmeetodite abil.

Sellega seotud:

Teie tehisintellekti transformatsiooni, tehisintellekti integratsiooni ja tehisintellekti platvormide valdkonna ekspert

☑️ Meie ärikeel on inglise või saksa keel

☑️ UUS: Kirjavahetus teie emakeeles!

Konrad Wolfenstein

Mina ja minu meeskond oleme hea meelega teie käsutuses teie isikliku nõustajana.

Võite minuga ühendust võtta, täites siinse kontaktvormi wolfenstein@xpert.digital:või helistades mulle numbril +49 7348 4088 965. Minu e-posti aadress on

Ootan põnevusega meie ühist projekti.

DeepSeek-R1-0528: DeepSeeki värskendus viib Hiina tehisintellekti mudeli tagasi lääne tööstusliidrite tasemele

Avatud lähtekoodiga tehisintellekt oma piiril: DeepSeek varjutab OpenAI-d ja Google'it

60-lt 68-le: DeepSeek katapulteerib Hiina tehisintellekti tagasi tippu

Värskendus ja selle tehnilised täiustused