DeepSeek V3.1 – häirekell OpenAI-le ja teistele: Hiina avatud lähtekoodiga tehisintellekt esitab väljakujunenud pakkujatele uusi väljakutseid

Konrad Wolfenstein

10 kuud tagasi

DeepSeek V3.1 – häirekella OpenAI & Co. jaoks: Hiina avatud lähtekoodiga tehisintellekt esitab väljakujunenud pakkujatele uusi väljakutseid – Pilt: Xpert.Digital

Uus tehisintellekti mudel Hiinast: see tasuta mudel on 27 korda odavam ja esitab otsese väljakutse ChatGPT-le

### Häirekell OpenAI-le ja teistele: Hiina uus tehisintellekt on sama võimas – aga üliodav. Mis selle taga on? ### DeepSeek V3.1: Vaikne tehisintellekti rünnak, mis pöörab nüüd tehnoloogiamaailma pea peale ### Unusta kallis tehisintellekt: Miks see Hiina avatud lähtekoodiga mudel kõike muudab ### Hiina uus supertehisintellekt: Kuidas Peking avaldab läänele radikaalivaba strateegiaga survet ### Parem ja odavam kui konkurents? Mida Hiina uus imeline tehisintellekt tegelikult teha suudab ###

DeepSeek V3.1 muudab (taas kord) tehisintellekti maastikku

Hiina tehisintellektist on saamas tõsine väljakutse Ameerika tehnoloogiahiiglastele. Hangzhous asuv idufirma DeepSeek on oma uusima mudeliga V3.1 saavutanud olulise läbimurde, seades põhimõtteliselt kahtluse alla traditsioonilised eeldused tehisintellekti arendamise ja rahastamise kohta. See avatud lähtekoodiga mudel saavutab juhtivate patenteeritud süsteemide jõudluse murdosa arenduskuludest ja näitab teed tehisintellekti uuele tulevikule.

Sellega seotud:

DeepSeek: Hiina tehisintellekti revolutsioon jälgimise varjus – tõsised süüdistused Washingtonist

Tehniline innovatsioon hübriidarhitektuuriga

DeepSeek V3.1 põhineb täiustatud Mixture of Experts arhitektuuril, millel on kokku 685 miljardit parameetrit, millest 37 miljardit aktiveeritakse iga žetooni kohta. See tehnoloogia võimaldab oluliselt tõhusamat ressursside kasutamist kui traditsioonilised mudelid, ilma et see kahjustaks jõudlust.

Uue mudeli silmapaistev omadus on hübriidne järeldusarhitektuur, mis suudab lülituda „mõtlemisrežiimi“ ja „mitte-mõtlemisrežiimi“ vahel. Mõtlemisrežiimis arendab süsteem sügavamaid sisemisi arutlusprotsesse ja sobib ideaalselt keerukate probleemide lahendamiseks, mis nõuavad mitmeastmelist loogilist mõtlemist. Seevastu mitte-mõtlemisrežiim annab otseseid ja kokkuvõtlikke vastuseid ülesannetele, kus kiirus on ülioluline.

Teine tehniline edasiminek on laiendatud kontekstiaken 128 000 märgini, mis vastab ligikaudu 96 000 sõnale või kahele 200-leheküljelisele romaanile. See maht võimaldab töödelda äärmiselt pikki dokumente, mõista terveid koodihoidlaid ja luua mitmeastmelisi dialoogistsenaariume.

Edasine arendus saavutati konteksti laiendamise kahefaasilise lähenemisviisi abil. 32 000 žetooni etappi laiendati kümme korda 630 miljardi žetoonini, samas kui 128 000 žetooni etappi suurendati 3,3 korda 209 miljardi žetoonini. Lisaks kasutab mudel optimaalse ühilduvuse tagamiseks kaasaegsete riistvaraarhitektuuridega UE8M0 FP8 andmevormingut.

Muljetavaldavad jõudlusparameetrid ja võrdlusnäitajad

DeepSeek V3.1 saavutab standardiseeritud testides märkimisväärseid tulemusi. Tuntud Aideri kodeerimisnäitajas saavutas mudel 71,6 protsenti – tulemus, mis konkureerib OpenAI ja Anthropicu juhtivate mudelitega. See tulemus on eriti muljetavaldav, arvestades oluliselt madalamat hinda.

Matemaatilistes ülesannetes edestab DeepSeek V3.1 isegi oma konkurente. Math-500 testis saavutab mudel 90,2 protsenti, samas kui GPT-4o suudab saavutada vaid 74,6 protsenti. MMLU-Pro testis paranes süsteem 5,3 punkti võrra 81,2 punktini ja GPQA võrdlusaluses märkimisväärselt 9,3 punkti võrra 68,4 punktini.

Eriti tähelepanuväärne on mitmeastmeliste arutlusülesannete täiustumine, kus versioon 3.1 toimib 43 protsenti paremini kui eelkäija. Mudeli programmeerimisvõimalused võimaldavad genereerida kuni 700 rea pikkust veavaba koodi – see jõudlus konkureerib kallite patenteeritud lahendustega.

Revolutsiooniline kulutõhusus

DeepSeek V3.1 kulustruktuur pöörab täielikult pea peale varasemad eeldused tehisintellekti arendamise kohta. Kui V3.1-ga programmeerimisülesanne maksab umbes ühe dollari, siis võrreldavad süsteemid küsivad sarnaste ülesannete eest peaaegu 70 dollarit. See dramaatiline kulude vähenemine muudab täiustatud tehisintellekti tehnoloogia kättesaadavaks väiksematele ettevõtetele ja arendajatele.

Ettevõtte sõnul ulatusid alusmudeli V3 arenduskulud vaid umbes 5,6 miljoni dollarini – murdosa sadadest miljonitest dollaritest, mida Ameerika ettevõtted sarnastele projektidele kulutavad. See efektiivsus saavutati uuenduslike koolitusmeetodite ja vähem võimsa, kuid odavama riistvara kasutamise abil.

DeepSeeki API hinnakujundus on konkurentidest oluliselt madalam. Vestlusmudel maksab vahemälu tabamuste puhul 0,07 dollarit miljoni sisendtokeni ja 1,10 dollarit miljoni väljundtokeni kohta. Arutlusmudel maksab sisendtokeni 0,14 dollarit ja väljundtokeni 2,19 dollarit. Võrdluseks, OpenAI küsib miljoni väljundtokeni kohta umbes 2–2,50 dollarit, samas kui DeepSeek küsib vaid 0,014 dollarit.

Strateegiline tähtsus ülemaailmse tehisintellekti konkurentsi jaoks

DeepSeeki edul on kaugeleulatuvad tagajärjed ülemaailmsele tehisintellekti maastikule. Ettevõte näitab, et täiustatud tehisintellekti jõudlus ei nõua enam tohutuid ressursse ja patenteeritud lähenemisviise, mis on Ameerika tehisintellekti arendust seni iseloomustanud. See areng seab kahtluse alla praeguste ärimudelite alused.

Hiina juhtkond peab DeepSeeki strateegiliselt väga oluliseks, mida tõendab ka asutaja Liang Wenfengi ja peaminister Li Qiangi kohtumine. Ettevõtet peetakse võtmekomponendiks Hiina ambitsioonides saada 2030. aastaks tehisintellekti globaalseks liidriks.

DeepSeeki avatud lähtekoodiga strateegia võimaldab teistel ettevõtetel ja teadlastel kogu maailmas selle edusammudele tugineda ja oma uuendusi arendada. See edendab tehisintellekti tehnoloogia detsentraliseeritud arendamist ja vähendab sõltuvust üksikutest tehnoloogiahiiglastest.

Taust ja ettevõtte struktuur

DeepSeeki asutas Hangzhous 2023. aastal Liang Wenfeng ja seda rahastab täielikult Hiina riskifond High-Flyer. Wenfeng, kes sündis 1985. aastal algkooliõpetaja pojana, hakkas Zhejiangi ülikoolis õppides huvi tundma tehisintellekti rakendamise vastu finantssektoris.

2016. aastal asutas Wenfeng riskifondi High-Flyer, mis kasutab kvantitatiivsete kauplemisstrateegiate jaoks masinõpet. 2021. aastaks oli ettevõte täielikult üle läinud tehisintellektil põhinevatele kauplemismeetoditele ja sellest oli saanud üks Hiina juhtivaid kvantitatiivseid fonde, mille hallatavate varade maht on üle 100 miljardi RMB.

Juba enne DeepSeeki asutamist hakkas Wenfeng ostma tuhandeid Nvidia graafikaprotsessoreid – algselt naeruvääristati seda kui miljardäri ekstsentrilist hobi. See ettenägelik investeering riistvarasse võimaldas ettevõttel hiljem arendada konkurentsivõimelisi tehisintellekti mudeleid vaatamata USA ekspordipiirangutele.

EL/DE andmeturve | Sõltumatu ja andmeallikateülese tehisintellekti platvormi integreerimine kõigi ärivajaduste jaoks

Sõltumatud tehisintellekti platvormid kui strateegiline alternatiiv Euroopa ettevõtetele - Pilt: Xpert.Digital

Tehisintellekti mängumuutja: kõige paindlikum tehisintellekti platvorm – rätsepatööna valminud lahendused, mis vähendavad kulusid, parandavad teie otsuseid ja suurendavad tõhusust

Sõltumatu tehisintellekti platvorm: integreerib kõik olulised ettevõtte andmeallikad

Kiire tehisintellekti integreerimine: ettevõtetele kohandatud tehisintellekti lahendused tundide või päevadega, mitte kuude jooksul
Paindlik infrastruktuur: pilvepõhine või majutamine teie enda andmekeskuses (Saksamaa, Euroopa, asukoha vaba valik)

Maksimaalne andmeturve: selle kasutamine advokaadibüroodes on ümberlükkamatu tõend
Juurutamine paljudes erinevates ettevõtte andmeallikates
Oma või erinevate tehisintellekti mudelite valik (Saksamaa, EL, USA, CN)

Lisateavet leiate siit:

Sõltumatud tehisintellekti platvormid vs hüperskaleerijad: kumb lahendus sobib?

Kiibid, algoritmid, innovatsioon: DeepSeeki tee maailma tippu

USA ekspordikontrolli mõju

DeepSeeki edu on eriti tähelepanuväärne, arvestades USA ekspordipiiranguid Hiinale suure jõudlusega tehisintellekti kiipidele. Sanktsioonide eesmärk oli piirata Hiina võimet arendada täiustatud tehisintellekti süsteeme, kuid DeepSeek näitab, et uuenduslikud tarkvaralised lähenemisviisid ja ressursside tõhus kasutamine suudavad need piirangud ületada.

Ettevõte kasutas vähem võimsaid H800 kiipe, mis on Hiinasse eksportimiseks heaks kiidetud, kuid saavutas siiski tippjõudluse optimeeritud algoritmide ja tõhusate treeningmeetodite abil. See lähenemisviis seab kahtluse alla tehnoloogiliste sanktsioonide tõhususe ja demonstreerib alternatiivseid teid tehisintellekti arendamiseks.

Eksperdid näevad DeepSeeki läbimurret pöördepunktina, mis võib põhjalikult muuta olemasolevaid hinnanguid Hiina tehisintellekti võimekuse ja potentsiaali kohta. See areng viitab sellele, et tarkvara optimeerimise uuendused võivad olla olulisemad kui pelgalt riistvaraline paremus.

Sellega seotud:

Hiina järelejõudmine tehisintellekti vallas: DeepSeeki juhtum ja andmete strateegiline kasutamine

Avatud lähtekood kui konkurentsieelis

DeepSeeki avatud lähtekoodiga strateegia pakub mitmeid strateegilisi eeliseid. Arendajad ja ettevõtted üle maailma saavad mudelit lokaalselt oma projektidesse käitada, kohandada ja integreerida ilma pilveteenustele toetumata. See on eriti oluline andmetundlike rakenduste ja ettevõtete jaoks, kes soovivad säilitada kontrolli oma teabe üle.

Kogukonnapõhine arendus võimaldab kiiremat vigade parandamist, pidevat täiustamist ja laia panustajate baasi. Samal ajal demokratiseerib avatud lähtekoodiga lähenemine juurdepääsu täiustatud tehisintellekti tehnoloogiale ja soodustab innovatsiooni, sealhulgas väiksemates ettevõtetes ja arengumaades.

Erinevalt patenteeritud mudelitest, millele pääseb ligi ainult API-de või pilveplatvormide kaudu, pakub avatud lähtekoodiga tehisintellekt pikaajalist kättesaadavust ja sõltumatust üksikutest müüjatest. Kasutajad ei pea muretsema hinnatõusude, juurdepääsupiirangute ega teenuste katkemise pärast.

Tehnoloogilised läbimurded ja uuendused

DeepSeek V3.1 integreerib mitmeid murrangulisi tehnoloogiaid, mis võimaldavad selle erakordset tõhusust. Mitmepealine Latent Attention arhitektuur tihendab võtme-väärtuse vahemälusid latentsete vektorite abil, vähendades mälukasutust ja arvutuslikku lisakoormust järelduse ajal.

Mitme märgi ennustusmeetod võimaldab igal märgil ennustada samaaegselt mitut tulevast märgist. See ületab traditsiooniliste autoregressiivsete mudelite olulise kitsaskoha ning parandab nii täpsust kui ka järelduste kiirust.

8-bitise treeningu kasutamine vähendab oluliselt mäluvajadust ja kulusid, ohverdamata täpsust. Seda tehnikat peeti pikka aega problemaatiliseks, kuid DeepSeek näitab, et õigesti rakendatuna annab see traditsiooniliste meetoditega võrreldavaid tulemusi.

Turureaktsioonid ja mõjud

DeepSeek V3.1 väljakuulutamine vallandas finantsturgudel ägeda reaktsiooni. Nvidia kaotas turukapitalisatsiooni üle 600 miljardi dollari – see on USA aktsiaturu ajaloo suurim ühekordne kaotus. Ka teised tehisintellekti riistvaraettevõtted kogesid märkimisväärset aktsiahinna langust.

Investorid ja analüütikud on oma hinnanguid tehisintellekti tööstusele ümber hindamas. DeepSeeki edu seab kahtluse alla eelduse, et massiivsed investeeringud riistvarasse ja patenteeritud arendusse on tipptasemel tehisintellekti jaoks vajalikud eeltingimused.

Lääne ettevõtted testivad juba DeepSeeki mudeleid oma töövoogudes. Silmapaistev näide on Merck, kelle andmejuht demonstreeris avalikult DeepSeeki integreerimist ühe mitme tehisintellekti valikuna siseprotsessidesse.

Tulevased arengud ja väljavaated

DeepSeek positsioneerib versiooni 3.1 esimese sammuna tehisintellekti „agentide ajastu“ suunas. Mudel on spetsiaalselt optimeeritud tööriistade kasutamise parandamiseks ja mitmeastmeliste agentide ülesannete täitmiseks. Koolitusjärgsed optimeerimised on toonud kaasa olulisi edusamme väliste tööriistade ja keerukate otsinguülesannete kasutamisel.

DeepSeeki arenduskiirus viitab sellele, et V4 mudel võidakse välja anda enne OpenAI järgmist R2 versiooni. See dünaamika võib kiirendada traditsioonilisi tehisintellekti tööstuse arendustsükleid ja seada uued standardid värskendussagedustele.

DeepSeeki edu inspireerib juba teisi Hiina tehisintellekti ettevõtteid ja teadlasi kogu maailmas. Avatud lähtekoodiga mudeleid peetakse üha enam patenteeritud lahenduste kehtivaks alternatiiviks, mis võib viia mitmekesisema ja konkurentsivõimelisema tehisintellekti maastikuni.

Väljakutsed ja kriitika

Vaatamata muljetavaldavatele saavutustele on DeepSeek pälvinud ka kriitikat. Nagu teisedki Hiina tehisintellekti mudelid, allub ka DeepSeek teatud tsensuurimeetmetele, mida saab rakendada poliitiliselt tundlikele teemadele. Neid piiranguid saab aga tehniliste kohanduste abil sageli mööda hiilida.

Koolitusandmete ja -meetodite läbipaistvus on piiratud. On spekuleeritud, et koolitus põhineb osaliselt ChatGPT vastustel, kuna DeepSeek väidab end aeg-ajalt olevat ChatGPT ise. Need ebaselgused tekitavad küsimusi originaalsuse ja võimalike autoriõiguste probleemide kohta.

Sügavotsingu mudelite kiire areng ja madal hind tekitavad samuti muret ärimudeli jätkusuutlikkuse pärast. Kriitikud seavad kahtluse alla, kas äärmiselt madalaid hindu on võimalik pikas perspektiivis säilitada või on need osa strateegilisest turuletoomise strateegiast.

Globaalsed tagajärjed tehisintellekti tööstusele

DeepSeek V3.1 tähistab pöördepunkti globaalses tehisintellekti arengus. Mudel tõestab, et uuenduslikud tarkvaralahendused ja ressursside tõhus kasutamine võivad olla olulisemad kui suured kapitaliinvesteeringud ja juurdepääs uusimale riistvarale. See leid mõjutab kõigi suuremate tehisintellekti ettevõtete strateegiaid.

Avatud lähtekoodiga mudelite kaudu täiustatud tehisintellekti tehnoloogia demokratiseerimine võiks viia tehisintellekti võimekuste ühtlasema jaotumiseni kogu maailmas. Riigid ja ettevõtted, mis olid varem kõrgete kulude või tehniliste takistuste tõttu sellest välja jäetud, saaksid juurdepääsu tipptehnoloogiale.

Samal ajal seab DeepSeeki edu kahtluse alla tehnoloogiliste sanktsioonide ja ekspordikontrolli tõhususe. Selle võime saavutada piiratud ressurssidega maailmatasemel jõudlust võiks julgustada teisi riike sarnaseid lähenemisviise järgima ja oma tehisintellekti ökosüsteeme arendama.

DeepSeek V3.1 esindab enamat kui lihtsalt järjekordset tehisintellekti mudelit – see sümboliseerib põhimõttelist muutust tehisintellekti arendamises, rahastamises ja juurutamises. Tehnoloogilise innovatsiooni, kulutõhusa arenduse ja avatud lähtekoodiga tarkvara kättesaadavuse kombinatsioon loob uusi võimalusi ja esitab tõsiseid väljakutseid väljakujunenud turuliidritele. Edasised arengud näitavad, kas see lähenemisviis kujundab tehisintellekti tööstuse tulevikku.

Oleme teie jaoks olemas - Konsultatsioon - Planeerimine - Teostus - Projektijuhtimine

☑️ VKEde tugi strateegia, konsultatsioonide, planeerimise ja rakendamise alal

☑️ Tehisintellekti strateegia loomine või ümberkorraldamine

☑️ Pioneer Äriarendus

Konrad Wolfenstein

Mul oleks hea meel olla teie isiklik nõustaja.

Võite minuga ühendust võtta, täites alloleva kontaktvormi või helistades mulle numbril +49 7348 4088 965 .

Ootan põnevusega meie ühist projekti.

Kirjuta mulle

➡️ Videokõne taotlus 👩👱

Xpert.Digital - Konrad Wolfenstein

Xpert.Digital on tööstuskeskus, mis keskendub digitaliseerimisele, masinaehitusele, logistikale/siselogistikale ja fotogalvaanikale.

Meie 360° äriarenduslahendusega toetame tuntud ettevõtteid alates uutest klientidest kuni järelmüügini.

Turu-uuring, s-turundus, turunduse automatiseerimine, sisu loomine, suhtekorraldus, meilikampaaniad, personaalne sotsiaalmeedia ja müügivihjete haldamine on osa meie digitaalsetest tööriistadest.

Lisateavet leiate aadressilt: www.xpert.digital - www.xpert.solar - www.xpert.plus

Hoidke ühendust