⭐️ Tehisintellekt (AI) – AI ajaveeb, leviala ja sisukeskus ⭐️ Digitaalne intelligentsus ⭐️ XPaper

Häälevalik 📢

Deepseek V3: muljetavaldava AI jõudlusega AI -mudel ületab võrdlusaluste tippmudeleid

Avaldatud: 26. märts 2025 / Uuendatud: 26. märts 2025 – Autor: Konrad Wolfenstein

DeepSeek V3 parandab arutluskäiku ja programmeerimist

Avatud lähtekoodiga tehisintellekti tulevik: DeepSeek avaldab V3 värskenduse

DeepSeek avaldas 25. märtsil 2025 oma V3 keelemudeli olulise uuenduse DeepSeek-V3-0324. See uus versioon tutvustab olulisi täiustusi sellistes valdkondades nagu arutluskäik, programmeerimine ja esiotsa arendus. Muljetavaldavate võrdlustulemuste ja võimsa tarbijariistvaraga töötamise võimega positsioneerib DeepSeek-V3-0324 end juhtiva avatud lähtekoodiga tehisintellekti mudelina, mis seab kahtluse alla patenteeritud lahendused.

Sobib selleks:

Juhtivate AI-mudelite võrdlev analüüs: Google Gemini 2.0, Deepseek R2 ja GPT-44.5 OpenAai'st

Tehnoloogilised alused ja arhitektuur

Ekspertide segu kui võtmetehnoloogia

DeepSeek V3-0324 põhineb uuenduslikul ekspertide segu (MoE) arhitektuuril, mis eristab seda paljudest teistest tehisintellekti mudelitest. See arhitektuur võimaldab süsteemil aktiveerida iga ülesande jaoks mitte kõiki mudeli osi, vaid ainult konkreetse päringu jaoks vajalikke komponente. See toimib nagu spetsialistide meeskond, kus probleemi lahendamiseks kutsutakse kohale ainult õige ekspert.

Praegusel mudelil on kokku 685 miljardit parameetrit, kuid iga ülesande jaoks aktiveeritakse neist ainult umbes 37 miljardit. See valikuline aktiveerimine võimaldab oluliselt tõhusamat töötlemist ja vähendab märkimisväärselt ressursivajadust.

Innovatiivsed tehnoloogiad parema jõudluse saavutamiseks

DeepSeek-V3-0324 tutvustab kahte peamist tehnilist uuendust, mis parandavad selle jõudlust:

Mitmepealine latentne tähelepanu (MLA): see tehnoloogia tihendab võtme-väärtuse vahemälu latentseks vektoriks, mis optimeerib pikemate tekstide töötlemist ja vähendab oluliselt mäluvajadust.
Mitme žetooni ennustamine (MTP): võimaldab samaaegselt genereerida mitu žetooni, suurendades väljastamise kiirust kuni 80 protsenti.
Lisaks kasutab DeepSeek V3 segatud täpsusega aritmeetikat, mis teostab ujukomaaritmeetikat erineva pikkuse ja täpsusega arvudega sama operatsiooni raames. Väiksem täpsus säästab aega ilma tulemuste kvaliteeti oluliselt kahjustamata.

Toimivuse täiustused ja võrdlustulemused

Märkimisväärne edasiminek erinevates valdkondades

DeepSeek-V3-0324 näitab oma eelkäijaga võrreldes märkimisväärseid edusamme mitmes võtmevaldkonnas:

Arutlusoskus – võrdlustulemused näitavad märkimisväärset paranemist, eriti keerukate ülesannete puhul:
- MMLU-Pro: 75,9-lt 81,2-le (+5,3 punkti)
- GPQA: 59,1-lt 68,4-le (+9,3 punkti)
- AIME (Ameerika kutseõppe matemaatikaeksam): 39,6-lt 59,4-le (+19,8 punkti)
- LiveCodeBench: 39,2-lt 49,2-le (+10,0 punkti)
Front-end arendus: Täiustatud oskused käivitatava koodi ja esteetiliselt meeldivate veebilehtede ning mängude front-end'ide loomisel.
Hiina keele oskus: Täiustatud kirjutamisoskus parema stiili ja kvaliteediga keskmise ja pika formaadiga tekstides, optimeeritud tõlkekvaliteet ja kirjade kirjutamine.

Positsioneerimine tehisintellekti võistlusel

DeepSeek-V3-0324 on nüüd Artificial Analysis'i intelligentsuse indeksis kõrgeima hinnanguga mitte-arusaav mudel. See edestab kõiki patenteeritud mitte-arusaav mudeleid, sealhulgas Gemini 2.0 Pro, Claude 3.7 Sonnet ja Llama 3.3 70B. Intelligentsusindeksis jääb see napilt alla DeepSeeki enda R1 mudelile ja teistele OpenAI, Anthropicu ja Alibaba arutlusmudelitele.

Sellistes testides nagu DROP saavutas DeepSeek muljetavaldava 91,6%, samas kui GPT-4o ulatus 83,7%-ni ja Claude-3.5 88,3%-ni. Need tulemused rõhutavad mudeli konkurentsivõimet juhtivate patenteeritud lahenduste ees.

Tõhusus ja ligipääsetavus

Ressursside optimeerimine ja riistvaranõuded

DeepSeek-V3-0324 üks tähelepanuväärsemaid omadusi on selle efektiivsus. Tänu MoE arhitektuurile ja muudele optimeerimistele saab mudel töötada võimsates tarbijaseadmetes, näiteks M3 Ultra kiibiga Mac Studios, saavutades kiiruse üle 20 žetooni sekundis.

Mudeli 4-bitine versioon vajab vaid umbes 352 GB salvestusruumi ja tarbib järelduse ajal vähem kui 200 vatti – oluliselt vähem kui tavalised tehisintellekti süsteemid, mis vajavad sageli mitu kilovatti. See efektiivsus võiks muuta tehisintellekti infrastruktuuri nõudeid.

Avatud litsentsimine ja kättesaadavus

Erinevalt lääne konkurentidest nagu OpenAI või Anthropic, kes pakuvad oma mudeleid ainult tasuliste API-de kaudu, avaldati DeepSeek-V3-0324 MIT litsentsi alusel. See võimaldab tasuta kasutamist ja ärilisi rakendusi ilma piiranguteta.

Mudel on saadaval erinevatel platvormidel:

DeepSeeki rakenduse kaudu
Ametlikul veebisaidil
Rakendusliidese (API) kaudu
Installatsioonina teie enda arvutitesse
Microsoft Azure'i pilveteenuse kaudu

Sobib selleks:

Majanduslik turbo sügavkviit: Hiina uus AI lootus kui majandusmootor?

Ettevõtte ajalugu ja visioon

Finantsmaailmast tehisintellekti uuringuteni

DeepSeeki asutas 2023. aasta aprillis Liang Wenfeng, kes oli varem 2015. aastal asutanud riskifondi High-Flyer. Riskifond spetsialiseerus matemaatilistele ja tehisintellektil põhinevatele kauplemisstrateegiatele, pannes aluse oma edasisele tehisintellekti arendamisele.

Ettevõte asutati vastusena USA kehtestatud kõrgtehnoloogiliste kiipide ekspordikeelule Hiinasse. DeepSeeki strateegiline eesmärk on pakkuda võimsat ja konkurentsivõimelist alternatiivi lääne tehisintellekti lahendustele, tugevdades samal ajal Hiina tehnoloogilist suveräänsust.

Avatuse filosoofia

Liang Wenfengi sõnul avaldatakse ettevõtte uurimistulemused ja mudelid alati avatud lähtekoodiga litsentside alusel, mis on osa ettevõtte kultuurist. See avatus on kontrastiks arvukatele patenteeritud tehisintellekti süsteemidele, mida iseloomustavad piiravad litsentsid.

„Usume kindlalt, et 99 protsenti edust tuleneb raskest tööst ja ainult üks protsent andest,“ kirjeldab ettevõte oma filosoofiat oma veebisaidil.

Väljavaated ja edasised arengud

Uute mudelite alus

DeepSeek-V3-0324 võiks olla aluseks uuele arutlusmudelile nimega R2, mis peaks ilmuma lähikuudel. Praegune R1 mudel on juba pälvinud tähelepanu oma probleemide lahendamise võimete poolest.

DeepSeeki mudelite pidev arendamine viitab dünaamilisele tegevuskavale, mis võib hõlmata ka multimodaalset tuge ja muid tulevikku suunatud funktsioone DeepSeeki ökosüsteemis.

Tehisintellekti demokratiseerimine: kuidas DeepSeek-V3-0324 seab uusi standardeid

DeepSeek-V3-0324 kujutab endast märkimisväärset edasiminekut suurte keelemudelite arendamisel. Oma uuendusliku arhitektuuri, muljetavaldava jõudluse ja avatud litsentsimise kaudu seab see väljakutse väljakujunenud patenteeritud mudelitele ja võib edendada tehisintellekti tehnoloogiate demokratiseerimist.

Tehnoloogilise innovatsiooni, tõhususe ja ligipääsetavuse kombinatsioon teeb DeepSeek-V3-0324-st olulise verstaposti tehisintellekti maastikul. Oma võimega töötada tarbijariistvaral ja täiustatud võimalustega sellistes valdkondades nagu arutluskäik, programmeerimine ja esiotsa arendus positsioneerib DeepSeek end tõsise konkurendina juhtivatele tehisintellekti ettevõtetele nagu OpenAI, Google ja Anthropic.

Sobib selleks:

Teie ülemaailmne turundus- ja äriarenduspartner

☑️ Meie ärikeel on inglise või sakslane

☑️ Uus: kirjavahetus teie riigikeeles!

Konrad Wolfenstein

Mul on hea meel, et olete teile ja minu meeskonnale isikliku konsultandina kättesaadav.

Võite minuga ühendust võtta, täites siin kontaktvormi või helistage mulle lihtsalt telefonil +49 89 674 804 (München) . Minu e -posti aadress on: Wolfenstein ∂ xpert.digital

Ootan meie ühist projekti.