DeepSeek V3.1 – Larm för OpenAI & Co: Kinesisk öppen källkods-AI innebär nya utmaningar för etablerade leverantörer

Konrad Wolfenstein

för 12 månader sedan

DeepSeek V3.1 – Larm för OpenAI & Co.: Kinesisk öppen källkods-AI innebär nya utmaningar för etablerade leverantörer – Bild: Xpert.Digital

Ny AI-modell från Kina: Denna gratismodell är 27 gånger billigare och utmanar direkt ChatGPT

### Larm för OpenAI & Co.: Kinas nya AI är lika kraftfull – men billig. Vad ligger bakom den? ### DeepSeek V3.1: Den tysta AI-attacken som nu vänder upp och ner på teknikvärlden ### Glöm dyr AI: Varför denna kinesiska modell med öppen källkod förändrar allt ### Kinas nya super-AI: Hur Peking sätter press på väst med en radikal fri strategi ### Bättre och billigare än konkurrenterna? Vad Kinas nya mirakel-AI verkligen kan göra ###

DeepSeek V3.1 revolutionerar (återigen) AI-landskapet

Kinesisk artificiell intelligens håller på att bli en allvarlig utmaning för amerikanska teknikjättar. Den Hangzhou-baserade startupen DeepSeek har gjort ett betydande genombrott med sin senaste modell, V3.1, som fundamentalt utmanar traditionella antaganden om AI-utveckling och finansiering. Denna modell med öppen källkod uppnår prestandan hos ledande proprietära system till en bråkdel av utvecklingskostnaderna och pekar vägen mot en ny framtid för artificiell intelligens.

Relaterat till detta:

DeepSeek: Kinas AI-revolution i skuggan av övervakning – Allvarliga anklagelser från Washington

Teknisk innovation med hybridarkitektur

DeepSeek V3.1 är baserad på en avancerad Mixture of Experts-arkitektur med totalt 685 miljarder parametrar, varav 37 miljarder aktiveras per token. Denna teknik möjliggör betydligt effektivare resursutnyttjande än traditionella modeller utan att kompromissa med prestandan.

Den nya modellens enastående egenskap är dess hybrida inferensarkitektur, som kan växla mellan ett "tänkläge" och ett "icke-tänkläge". I tänkande läge utvecklar systemet djupare interna resonemangsprocesser och är idealiskt lämpat för komplex problemlösning som kräver logiskt tänkande i flera steg. Icke-tänkläge ger däremot direkta och koncisa svar för uppgifter där hastighet är avgörande.

En annan teknisk utveckling är det utökade kontextfönstret på 128 000 tokens, vilket motsvarar cirka 96 000 ord eller två romaner på 200 sidor. Denna kapacitet möjliggör bearbetning av extremt långa dokument, förståelse av hela koddatabaser och dialogscenarier i flera steg.

Den vidare utvecklingen uppnåddes genom en tvåfasig metod för kontextutvidgning. Fasen med 32 000 tokens utökades tiofaldigt till 630 miljarder tokens, medan fasen med 128 000 tokens ökades 3,3 gånger till 209 miljarder tokens. Dessutom använder modellen dataformatet UE8M0 FP8 för optimal kompatibilitet med moderna hårdvaruarkitekturer.

Imponerande prestandaparametrar och riktmärken

DeepSeek V3.1 uppnår anmärkningsvärda resultat i standardiserade tester. I det välrenommerade Aider Coding Benchmark fick modellen 71,6 procent – ett resultat som kan mäta sig med ledande modeller från OpenAI och Anthropic. Denna prestanda är särskilt imponerande med tanke på dess betydligt lägre kostnad.

I matematiska uppgifter överträffar DeepSeek V3.1 till och med etablerade konkurrenter. I Math-500-testet uppnår modellen 90,2 procent, medan GPT-4o bara klarar 74,6 procent. I MMLU-Pro-testet förbättrades systemet med 5,3 poäng till 81,2, och i GPQA-riktmärket med anmärkningsvärda 9,3 poäng till 68,4.

Särskilt anmärkningsvärt är förbättringen i flerstegs resonemangsuppgifter, där version 3.1 presterar 43 procent bättre än sin föregångare. Modellens programmeringsmöjligheter gör att den kan generera felfri kod på upp till 700 rader – en prestanda som kan konkurrera med dyra proprietära lösningar.

Revolutionerande kostnadseffektivitet

DeepSeek V3.1:s kostnadsstruktur vänder helt upp och ner på tidigare antaganden om AI-utveckling. Medan en programmeringsuppgift med V3.1 kostar ungefär en dollar, tar jämförbara system nästan 70 dollar för liknande uppgifter. Denna dramatiska kostnadsminskning gör avancerad AI-teknik tillgänglig för mindre företag och utvecklare.

Enligt företaget uppgick utvecklingskostnaderna för den underliggande V3-modellen till endast cirka 5,6 miljoner dollar – en bråkdel av de hundratals miljoner dollar som amerikanska företag spenderar på jämförbara projekt. Denna effektivitet uppnåddes genom innovativa träningsmetoder och användning av mindre kraftfull, men billigare, hårdvara.

DeepSeeks API-prissättning undergräver konkurrensen avsevärt. Chattmodellen kostar 0,07 dollar per miljon input-tokens för cacheträffar och 1,10 dollar per miljon output-tokens. Reasoningmodellen kostar 0,14 dollar för input-tokens och 2,19 dollar för output-tokens. Som jämförelse tar OpenAI cirka 2 till 2,50 dollar per miljon output-tokens, medan DeepSeek bara tar 0,014 dollar.

Strategisk betydelse för global AI-konkurrens

DeepSeeks framgångar har långtgående konsekvenser för det globala AI-landskapet. Företaget visar att avancerad AI-prestanda inte längre kräver de massiva resurser och proprietära metoder som hittills har präglat amerikansk AI-utveckling. Denna utveckling utmanar grunden för nuvarande affärsmodeller.

Kinas ledning fäster stor strategisk vikt vid DeepSeek, vilket framgår av mötet mellan grundaren Liang Wenfeng och premiärminister Li Qiang. Företaget ses som en nyckelkomponent i Kinas ambition att bli en global ledare inom artificiell intelligens år 2030.

DeepSeeks strategi med öppen källkod gör det möjligt för andra företag och forskare världen över att bygga vidare på dess framsteg och utveckla sina egna innovationer. Detta främjar en decentraliserad utveckling av AI-teknik och minskar beroendet av enskilda teknikjättar.

Bakgrund och företagsstruktur

DeepSeek grundades i Hangzhou år 2023 av Liang Wenfeng och är helt finansierat av den kinesiska hedgefonden High-Flyer. Wenfeng, född 1985 som son till en grundskollärare, utvecklade ett intresse för tillämpningen av AI inom finanssektorn under sina studier vid Zhejiang University.

År 2016 grundade Wenfeng High-Flyer, en hedgefond som använder maskininlärning för kvantitativa handelsstrategier. År 2021 hade företaget helt övergått till AI-drivna handelsmetoder och blivit en av Kinas ledande kvantitativa fonder med över 100 miljarder RMB i förvaltat kapital.

Redan innan han grundade DeepSeek började Wenfeng köpa tusentals Nvidia-grafikprocessorer – initialt förlöjligade som miljardärernas excentriska hobby. Denna framsynta investering i hårdvara gjorde det senare möjligt för företaget att utveckla konkurrenskraftiga AI-modeller trots amerikanska exportrestriktioner.

Datasäkerhet i EU/DE | Integrering av en oberoende och källöverskridande AI-plattform för alla affärsbehov

Oberoende AI-plattformar som ett strategiskt alternativ för europeiska företag - Bild: Xpert.Digital

AI-spelförändrare: Den mest flexibla AI-plattformen - Skräddarsydda lösningar som minskar kostnader, förbättrar dina beslut och ökar effektiviteten

Oberoende AI-plattform: Integrerar alla relevanta företagsdatakällor

Snabb AI-integration: Skräddarsydda AI-lösningar för företag på timmar eller dagar, istället för månader
Flexibel infrastruktur: Molnbaserat eller hosting i eget datacenter (Tyskland, Europa, fritt val av plats)

Maximal datasäkerhet: dess användning i advokatbyråer är ett obestridligt bevis
Implementering över en mängd olika företagsdatakällor
Val av egna eller olika AI-modeller (Tyskland, EU, USA, Kanada)

Mer information här:

Oberoende AI-plattformar kontra hyperskalare: Vilken lösning passar bäst?

Chips, algoritmer, innovation: DeepSeeks väg till världens topp

Effekten av amerikanska exportkontroller

DeepSeeks framgång är särskilt anmärkningsvärd med tanke på de amerikanska exportrestriktioner för högpresterande AI-chip till Kina. Sanktionerna var avsedda att begränsa Kinas förmåga att utveckla avancerade AI-system, men DeepSeek visar att innovativa mjukvarumetoder och effektivt resursutnyttjande kan övervinna dessa begränsningar.

Företaget använde mindre kraftfulla H800-chip, som är godkända för export till Kina, men uppnådde ändå topprestanda genom optimerade algoritmer och effektiva träningsmetoder. Denna metod utmanar effektiviteten hos tekniska sanktioner och visar på alternativa vägar till AI-utveckling.

Experter ser DeepSeeks genombrott som en vändpunkt som fundamentalt kan förändra befintliga uppskattningar av Kinas AI-kapacitet och potential. Utvecklingen tyder på att innovationer inom mjukvaruoptimering kan vara viktigare än ren hårdvaruöverlägsenhet.

Relaterat till detta:

Kinas upphämtning inom artificiell intelligens: DeepSeek-fallet och strategisk användning av data

Öppen källkod som en konkurrensfördel

DeepSeeks strategi med öppen källkod erbjuder flera strategiska fördelar. Utvecklare och företag världen över kan köra, anpassa och integrera modellen lokalt i sina egna projekt utan att förlita sig på molntjänster. Detta är särskilt viktigt för datakänsliga applikationer och företag som vill behålla kontrollen över sin information.

Gemenskapsbaserad utveckling möjliggör snabbare buggfixning, kontinuerliga förbättringar och en bred bas av bidragsgivare. Samtidigt demokratiserar öppen källkodsstrategi tillgången till avancerad AI-teknik och främjar innovation, även i mindre företag och utvecklingsländer.

Till skillnad från proprietära modeller som endast är tillgängliga via API:er eller molnplattformar, erbjuder öppen källkods-AI långsiktig tillgänglighet och oberoende från enskilda leverantörer. Användare behöver inte oroa sig för prisökningar, åtkomstbegränsningar eller avbrott i tjänster.

Teknologiska genombrott och innovationer

DeepSeek V3.1 integrerar flera banbrytande tekniker som möjliggör dess exceptionella effektivitet. Multihead-arkitekturen Latent Attention komprimerar nyckel-värde-cacher med hjälp av latenta vektorer, vilket minskar minnesförbrukning och beräkningsoverhead under inferens.

Metoden för att förutsäga flera tokens med flera tokens gör det möjligt för varje token att förutsäga flera framtida tokens samtidigt. Detta övervinner en betydande flaskhals i traditionella autoregressiva modeller och förbättrar både noggrannhet och inferenshastighet.

Att använda 8-bitars träning minskar minneskrav och kostnader avsevärt utan att kompromissa med noggrannheten. Denna teknik ansågs länge vara problematisk, men DeepSeek visar att den, när den implementeras korrekt, ger resultat som är jämförbara med traditionella metoder.

Marknadsreaktioner och effekter

Tillkännagivandet av DeepSeek V3.1 utlöste en stark reaktion på finansmarknaderna. Nvidia förlorade över 600 miljarder dollar i börsvärde – den största enskilda förlusten i den amerikanska aktiemarknadens historia. Andra AI-hårdvaruföretag upplevde också betydande aktiekursnedgångar.

Investerare och analytiker omprövar sina bedömningar av AI-branschen. Antagandet att massiva investeringar i hårdvara och egenutvecklad utveckling är nödvändiga förutsättningar för banbrytande AI utmanas av DeepSeeks framgångar.

Västerländska företag testar redan DeepSeek-modeller i sina arbetsflöden. Ett framträdande exempel är Merck, vars datachef offentligt demonstrerade integrationen av DeepSeek som ett av flera AI-alternativ i interna processer.

Framtida utveckling och utsikter

DeepSeek positionerar version 3.1 som det första steget mot AI:s "agentålder". Modellen har specifikt optimerats för förbättrad verktygsanvändning och agentuppgifter i flera steg. Optimeringarna efter träning har resulterat i betydande förbättringar i användningen av externa verktyg och komplexa sökuppgifter.

DeepSeeks utvecklingshastighet tyder på att en V4-modell kan komma att släppas före OpenAI:s nästa R2-version. Denna dynamik skulle kunna accelerera traditionella AI-industriutvecklingscykler och sätta nya standarder för uppdateringsfrekvenser.

DeepSeeks framgångar inspirerar redan andra kinesiska AI-företag och forskare världen över. Öppen källkodsmodeller ses alltmer som ett giltigt alternativ till proprietära lösningar, vilket skulle kunna leda till ett mer diversifierat och konkurrenskraftigt AI-landskap.

Utmaningar och kritik

Trots sina imponerande framsteg har DeepSeek också kritiserats. Liksom andra kinesiska AI-modeller är DeepSeek föremål för vissa censuråtgärder, som kan tillämpas på politiskt känsliga ämnen. Dessa begränsningar kan dock ofta kringgås genom tekniska justeringar.

Transparensen gällande träningsdata och metoder är begränsad. Det spekuleras i att träningen delvis baseras på svar från ChatGPT, eftersom DeepSeek ibland påstår sig vara ChatGPT självt. Dessa oklarheter väcker frågor om originalitet och potentiella upphovsrättsproblem.

Den snabba utvecklingen och det låga priset för deepseeking-modeller väcker också oro kring affärsmodellens hållbarhet. Kritiker ifrågasätter om de extremt låga priserna kan upprätthållas på lång sikt eller om de är en del av en strategisk marknadspenetrationsstrategi.

Globala konsekvenser för AI-industrin

DeepSeek V3.1 markerar en vändpunkt i den globala AI-utvecklingen. Modellen bevisar att innovativa mjukvarumetoder och effektivt resursutnyttjande kan vara viktigare än massiva kapitalinvesteringar och tillgång till den senaste hårdvaran. Detta resultat kommer att påverka strategierna för alla större AI-företag.

Demokratiseringen av avancerad AI-teknik genom modeller med öppen källkod skulle kunna leda till en jämnare fördelning av AI-kapacitet över hela världen. Länder och företag som tidigare varit utestängda av höga kostnader eller tekniska hinder skulle få tillgång till spjutspetsteknik.

Samtidigt ifrågasätter DeepSeeks framgångar effektiviteten hos tekniska sanktioner och exportkontroller. Dess förmåga att uppnå prestanda i världsklass med begränsade resurser skulle kunna uppmuntra andra länder att följa liknande metoder och utveckla sina egna AI-ekosystem.

DeepSeek V3.1 representerar mer än bara ytterligare en AI-modell – den symboliserar ett fundamentalt skifte i hur AI utvecklas, finansieras och distribueras. Kombinationen av teknisk innovation, kostnadseffektiv utveckling och tillgänglighet av öppen källkod skapar nya möjligheter och innebär allvarliga utmaningar för etablerade marknadsledare. Framtida utvecklingar kommer att visa om detta tillvägagångssätt kommer att forma AI-industrins framtid.

Vi finns här för dig - Konsulttjänster - Planering - Implementering - Projektledning

☑️ Stöd till små och medelstora företag inom strategi, konsultation, planering och implementering

☑️ Skapande eller omstrukturering av AI-strategin

☑️ Pionjär inom affärsutveckling

Konrad Wolfenstein

Jag skulle gärna fungera som din personliga rådgivare.

Du kan kontakta mig genom att fylla i kontaktformuläret nedan eller helt enkelt ringa mig på +49 7348 4088 965 .

Jag ser fram emot vårt gemensamma projekt.

Skriv till mig

➡️ Förfrågan om videosamtal 👩👱

Xpert.Digital - Konrad Wolfenstein

Xpert.Digital är ett nav för industrin med fokus på digitalisering, maskinteknik, logistik/intralogistik och solceller.

Med vår 360° affärsutvecklingslösning stödjer vi välrenommerade företag från nya affärer till eftermarknadsförsäljning.

Marknadsinformation, smarketing, marknadsautomation, innehållsutveckling, PR, utskick, personliga sociala medier och lead nurturing är en del av våra digitala verktyg.

Du hittar mer information på: www.xpert.digital - www.xpert.solar - www.xpert.plus

Håll kontakten