DeepSeek V3.1 – Riasztás az OpenAI és társai számára: A kínai nyílt forráskódú mesterséges intelligencia új kihívások elé állítja a már befutott szolgáltatókat

Konrad Wolfenstein

10 hónappal ezelőtt

DeepSeek V3.1 – Riasztás az OpenAI és társai számára: A kínai nyílt forráskódú mesterséges intelligencia új kihívások elé állítja a már befutott szolgáltatókat – Kép: Xpert.Digital

Új mesterséges intelligencia modell Kínából: Ez az ingyenes modell 27-szer olcsóbb, és közvetlenül kihívja a ChatGPT-t

### Riasztás az OpenAI-nak és társainak: Kína új MI-je ugyanolyan erős – de fillérekért cserébe. Mi áll mögötte? ### DeepSeek V3.1: A csendes MI-támadás, ami most a feje tetejére állítja a tech világot ### Felejtsd el a drága MI-t: Miért változtat meg mindent ez a kínai nyílt forráskódú modell ### Kína új szuper-MI-je: Hogyan gyakorol nyomást Peking a Nyugatra egy radikálismentes stratégiával ### Jobb és olcsóbb, mint a versenytársak? Mit tud valójában Kína új MI-csodája? ###

A DeepSeek V3.1 forradalmasítja (ismét) a mesterséges intelligencia világát

A kínai mesterséges intelligencia egyre komolyabb kihívást jelent az amerikai technológiai óriások számára. A hangcsoui székhelyű DeepSeek startup jelentős áttörést ért el legújabb modelljével, a V3.1-gyel, amely alapvetően megkérdőjelezi a mesterséges intelligencia fejlesztésével és finanszírozásával kapcsolatos hagyományos feltételezéseket. Ez a nyílt forráskódú modell a fejlesztési költségek töredékéért éri el a vezető, saját fejlesztésű rendszerek teljesítményét, és utat mutat a mesterséges intelligencia új jövője felé.

Ehhez kapcsolódóan:

DeepSeek: Kína mesterséges intelligencia forradalma a megfigyelés árnyékában – Súlyos vádak Washingtonból

Műszaki innováció hibrid architektúrával

A DeepSeek V3.1 egy fejlett „Mixture of Experts” architektúrán alapul, összesen 685 milliárd paraméterrel, amelyek közül tokenenként 37 milliárd aktiválható. Ez a technológia jelentősen hatékonyabb erőforrás-kihasználást tesz lehetővé a hagyományos modellekhez képest a teljesítmény feláldozása nélkül.

Az új modell kiemelkedő tulajdonsága a hibrid következtetési architektúra, amely képes váltani a „gondolkodási mód” és a „nem gondolkodási mód” között. Gondolkodási módban a rendszer mélyebb belső gondolkodási folyamatokat fejleszt ki, és ideális az összetett problémamegoldáshoz, amely többlépcsős logikai gondolkodást igényel. Ezzel szemben a nem gondolkodási mód közvetlen és tömör válaszokat ad azokra a feladatokra, ahol a sebesség kulcsfontosságú.

Egy másik technikai előrelépés a kibővített, 128 000 tokenre kiterjedő kontextusablak, ami körülbelül 96 000 szónak vagy két 200 oldalas regénynek felel meg. Ez a kapacitás lehetővé teszi rendkívül hosszú dokumentumok feldolgozását, teljes kódtárak megértését és többlépcsős párbeszédes forgatókönyvek létrehozását.

A további fejlesztést a kontextusbővítés kétfázisú megközelítésével valósították meg. A 32 000 tokenes fázist tízszeresére, 630 milliárd tokenre bővítették, míg a 128 000 tokenes fázist 3,3-szorosára, 209 milliárd tokenre növelték. Ezenkívül a modell az UE8M0 FP8 adatformátumot használja a modern hardverarchitektúrákkal való optimális kompatibilitás érdekében.

Lenyűgöző teljesítményparaméterek és referenciaértékek

A DeepSeek V3.1 figyelemre méltó eredményeket ér el a szabványosított teszteken. A neves Aider kódolási benchmark teszten a modell 71,6 százalékot ért el – ez az eredmény vetekszik az OpenAI és az Anthropic vezető modelljeivel. Ez a teljesítmény különösen lenyűgöző a jelentősen alacsonyabb költség miatt.

Matematikai feladatokban a DeepSeek V3.1 még a már meglévő versenytársait is felülmúlja. A Math-500 tesztben a modell 90,2 százalékot ér el, míg a GPT-4o csak 74,6 százalékot. Az MMLU-Pro tesztben a rendszer 5,3 ponttal 81,2 pontra, a GPQA benchmarkban pedig figyelemre méltó 9,3 ponttal 68,4 pontra javult.

Különösen figyelemre méltó a többlépcsős gondolkodási feladatokban elért javulás, ahol a 3.1-es verzió 43 százalékkal jobban teljesít, mint elődje. A modell programozási képességei lehetővé teszik akár 700 sor hosszúságú hibamentes kód generálását – ez a teljesítmény vetekszik a drága, saját fejlesztésű megoldásokkal.

Forradalmi költséghatékonyság

A DeepSeek V3.1 költségstruktúrája teljesen felborítja a mesterséges intelligencia fejlesztésével kapcsolatos korábbi feltételezéseket. Míg egy V3.1-es programozási feladat körülbelül egy dollárba kerül, a hasonló rendszerek közel 70 dollárt kérnek hasonló feladatokért. Ez a drámai költségcsökkenés a fejlett mesterséges intelligencia technológiát a kisebb vállalatok és fejlesztők számára is elérhetővé teszi.

A vállalat szerint az alapul szolgáló V3 modell fejlesztési költsége mindössze 5,6 millió dollár körül mozgott – ez töredéke annak a több százmillió dollárnak, amelyet az amerikai vállalatok hasonló projektekre költenek. Ezt a hatékonyságot innovatív képzési módszereknek és kevésbé hatékony, de olcsóbb hardverek használatának köszönhetően érték el.

A DeepSeek API-árazása jelentősen elmarad a versenytársak árától. A chat modell ára 0,07 dollár millió bemeneti tokenenként a gyorsítótár-találatokért és 1,10 dollár millió kimeneti tokenenként. Az érvelési modell ára 0,14 dollár a bemeneti tokenért és 2,19 dollár a kimeneti tokenért. Összehasonlításképpen, az OpenAI körülbelül 2-2,50 dollárt kér millió kimeneti tokenenként, míg a DeepSeek mindössze 0,014 dollárt.

Stratégiai jelentőség a globális mesterséges intelligencia versenyben

A DeepSeek sikerei messzemenő következményekkel járnak a globális mesterséges intelligencia környezetére nézve. A vállalat bebizonyítja, hogy a fejlett mesterséges intelligencia teljesítménye már nem igényli azokat a hatalmas erőforrásokat és szabadalmaztatott megközelítéseket, amelyek a mai napig jellemzik az amerikai mesterséges intelligencia fejlesztését. Ez a fejlesztés alapjaiban kérdőjelezi meg a jelenlegi üzleti modelleket.

Kína vezetése nagy stratégiai jelentőséget tulajdonít a DeepSeeknek, amint azt Liang Wenfeng alapító és Li Qiang miniszterelnök találkozója is bizonyítja. A vállalatot kulcsfontosságú elemnek tekintik Kína azon törekvésében, hogy 2030-ra globális vezetővé váljon a mesterséges intelligencia területén.

A DeepSeek nyílt forráskódú stratégiája lehetővé teszi más vállalatok és kutatók számára világszerte, hogy építsenek a fejlesztéseire és saját innovációkat fejlesszenek ki. Ez elősegíti a mesterséges intelligencia technológia decentralizált fejlesztését, és csökkenti a függőséget az egyes technológiai óriásoktól.

Háttér és vállalati struktúra

A DeepSeeket 2023-ban alapította Liang Wenfeng Hangcsouban, és teljes mértékben a kínai High-Flyer hedge fund finanszírozza. Wenfeng, aki 1985-ben született egy általános iskolai tanár fiaként, a Zhejiang Egyetemen folytatott tanulmányai során kezdett érdeklődni a mesterséges intelligencia pénzügyi szektorban való alkalmazása iránt.

2016-ban Wenfeng megalapította a High-Flyer hedge fundot, amely gépi tanulást használ a kvantitatív kereskedési stratégiáihoz. 2021-re a vállalat teljes mértékben áttért a mesterséges intelligencia alapú kereskedési megközelítésekre, és Kína egyik vezető kvantitatív alapjának számított, több mint 100 milliárd RMB értékű vagyonnal.

Már a DeepSeek megalapítása előtt a Wenfeng több ezer Nvidia GPU-t vásárolt – kezdetben egy milliárdos különc hobbijának nevetségessé téve ezt. Ez az előrelátó hardverbefektetés később lehetővé tette a vállalat számára, hogy versenyképes MI-modelleket fejlesszen ki az amerikai exportkorlátozások ellenére.

EU/DE adatbiztonság | Független és adatforrásokon átívelő mesterséges intelligencia platform integrációja minden üzleti igény kielégítésére

Független mesterséges intelligencia platformok, mint stratégiai alternatíva az európai vállalatok számára - Kép: Xpert.Digital

AI Game Changer: A legrugalmasabb AI platform – Testreszabott megoldások, amelyek csökkentik a költségeket, javítják a döntéseit és növelik a hatékonyságot

Független mesterséges intelligencia platform: Integrálja az összes releváns vállalati adatforrást

Gyors MI-integráció: Testreszabott MI-megoldások vállalkozások számára órák vagy napok alatt, hónapok helyett
Rugalmas infrastruktúra: Felhőalapú vagy saját adatközpontban történő üzemeltetés (Németország, Európa, szabad helyszínválasztás)

Maximális adatbiztonság: ügyvédi irodákban való alkalmazása cáfolhatatlan bizonyíték
Telepítés számos vállalati adatforráson
Saját vagy különböző MI-modellek választhatók (DE, EU, USA, CN)

További információ itt:

Független MI platformok kontra hiperskálázók: Melyik megoldás a megfelelő?

Chipek, algoritmusok, innováció: A DeepSeek útja a világ csúcsára

Az amerikai exportellenőrzések hatása

A DeepSeek sikere különösen figyelemre méltó az Egyesült Államok Kínába irányuló nagy teljesítményű mesterséges intelligencia chipekre vonatkozó exportkorlátozásai fényében. A szankciók célja az volt, hogy korlátozzák Kína azon képességét, hogy fejlett mesterséges intelligencia rendszereket fejlesszen ki, de a DeepSeek bizonyítja, hogy az innovatív szoftveres megközelítések és a hatékony erőforrás-felhasználás leküzdheti ezeket a korlátozásokat.

A vállalat kevésbé erős, Kínába exportálható H800 chipeket használt, de optimalizált algoritmusoknak és hatékony betanítási módszereknek köszönhetően mégis csúcsteljesítményt ért el. Ez a megközelítés megkérdőjelezi a technológiai szankciók hatékonyságát, és alternatív utakat mutat be a mesterséges intelligencia fejlesztéséhez.

A szakértők a DeepSeek áttörését fordulópontnak tekintik, amely alapvetően megváltoztathatja Kína mesterséges intelligencia képességeiről és potenciáljáról alkotott jelenlegi becsléseket. A fejlemény arra utal, hogy a szoftveroptimalizálási innovációk fontosabbak lehetnek, mint a puszta hardverfölény.

Ehhez kapcsolódóan:

Kína felzárkózása a mesterséges intelligencia terén: A DeepSeek-ügy és az adatok stratégiai felhasználása

A nyílt forráskód, mint versenyelőny

A DeepSeek nyílt forráskódú stratégiája számos stratégiai előnyt kínál. A fejlesztők és a vállalkozások világszerte lokálisan futtathatják, testreszabhatják és integrálhatják a modellt saját projektjeikbe anélkül, hogy felhőszolgáltatásokra kellene támaszkodniuk. Ez különösen fontos az adatérzékeny alkalmazások és az olyan vállalatok számára, amelyek meg akarják őrizni az információik feletti ellenőrzést.

A közösségi alapú fejlesztés gyorsabb hibajavítást, folyamatos fejlesztéseket és széles közreműködői kört tesz lehetővé. Ugyanakkor a nyílt forráskódú megközelítés demokratizálja a fejlett mesterséges intelligencia technológiához való hozzáférést, és elősegíti az innovációt, többek között a kisebb vállalatoknál és a fejlődő országokban.

A kizárólag API-kon vagy felhőplatformokon keresztül elérhető, zárt modellekkel ellentétben a nyílt forráskódú mesterséges intelligencia hosszú távú elérhetőséget és függetlenséget kínál az egyes szállítóktól. A felhasználóknak nem kell aggódniuk az áremelkedések, a hozzáférési korlátozások vagy a szolgáltatások megszűnése miatt.

Technológiai áttörések és innovációk

A DeepSeek V3.1 számos úttörő technológiát integrál, amelyek kivételes hatékonyságot tesznek lehetővé. A többfejes Latent Attention architektúra látens vektorok segítségével tömöríti a kulcs-érték gyorsítótárakat, csökkentve a memóriafogyasztást és a számítási terhelést a következtetés során.

A több tokenből álló predikciós módszer lehetővé teszi, hogy minden token egyszerre több jövőbeli tokent jósoljon meg. Ez kiküszöböli a hagyományos autoregresszív modellek jelentős szűk keresztmetszetét, és javítja mind a pontosságot, mind a következtetés sebességét.

A 8 bites betanítás használata jelentősen csökkenti a memóriaigényt és a költségeket a pontosság feláldozása nélkül. Ezt a technikát sokáig problémásnak tartották, de a DeepSeek bizonyítja, hogy helyes megvalósítás esetén a hagyományos módszerekkel összehasonlítható eredményeket hoz.

Piaci reakciók és hatások

A DeepSeek V3.1 bejelentése heves reakciót váltott ki a pénzügyi piacokon. Az Nvidia több mint 600 milliárd dolláros piaci kapitalizációt veszített – ez volt az amerikai tőzsde történetének legnagyobb egyszeri vesztesége. Más mesterséges intelligencia hardvergyártó vállalatok is jelentős részvényárfolyam-esést tapasztaltak.

A befektetők és az elemzők újragondolják a mesterséges intelligencia iparágról alkotott véleményüket. A DeepSeek sikere megkérdőjelezi azt a feltételezést, hogy a hardverbe és a saját fejlesztésbe történő hatalmas beruházások szükséges előfeltételei a legmodernebb mesterséges intelligencia kifejlesztésének.

Nyugati vállalatok már tesztelik a DeepSeek modelleket a munkafolyamataikban. Kiemelkedő példa erre a Merck, amelynek adatvédelmi igazgatója nyilvánosan bemutatta a DeepSeek integrálását a belső folyamatokba, mint a mesterséges intelligencia egyik lehetőségét.

Jövőbeli fejlemények és kilátások

A DeepSeek a 3.1-es verziót az első lépésként tartja számon a mesterséges intelligencia „ügynökkorszaka” felé. A modellt kifejezetten a jobb eszközhasználat és a többlépéses ügynöki feladatok optimalizálására tervezték. A betanítás utáni optimalizálások jelentős javulást eredményeztek a külső eszközök használatában és az összetett keresési feladatokban.

A DeepSeek fejlesztési sebessége arra utal, hogy egy V4 modell megjelenhet az OpenAI következő R2 verziója előtt. Ez a dinamika felgyorsíthatja a hagyományos MI-iparág fejlesztési ciklusait, és új szabványokat állíthat fel a frissítési gyakoriság tekintetében.

A DeepSeek sikerei már most is inspirálnak más kínai mesterséges intelligencia fejlesztő cégeket és kutatókat világszerte. A nyílt forráskódú modelleket egyre inkább a saját fejlesztésű megoldások érvényes alternatívájának tekintik, ami egy diverzifikáltabb és versenyképesebb mesterséges intelligencia környezethez vezethet.

Kihívások és kritikák

Lenyűgöző eredményei ellenére a DeepSeek kritikákat is kapott. Más kínai MI-modellekhez hasonlóan a DeepSeek is bizonyos cenzúraintézkedéseknek van kitéve, amelyek politikailag érzékeny témákra alkalmazhatók. Ezeket a korlátozásokat azonban gyakran meg lehet kerülni technikai módosításokkal.

A betanítási adatokkal és módszerekkel kapcsolatos átláthatóság korlátozott. Felmerült, hogy a betanítás részben a ChatGPT válaszain alapul, mivel a DeepSeek időnként azt állítja magáról, hogy ő maga a ChatGPT. Ezek a kétértelműségek kérdéseket vetnek fel az eredetiséggel és a lehetséges szerzői jogi problémákkal kapcsolatban.

A mélykereső modellek gyors fejlődése és alacsony ára aggályokat vet fel az üzleti modell fenntarthatóságával kapcsolatban is. A kritikusok megkérdőjelezik, hogy a rendkívül alacsony árak hosszú távon fenntarthatók-e, vagy egy stratégiai piacra lépési stratégia részét képezik-e.

Globális következmények a mesterséges intelligencia iparágra nézve

A DeepSeek V3.1 fordulópontot jelent a globális mesterséges intelligencia fejlesztésében. A modell bizonyítja, hogy az innovatív szoftveres megközelítések és a hatékony erőforrás-kihasználás fontosabbak lehetnek, mint a hatalmas tőkebefektetések és a legújabb hardverekhez való hozzáférés. Ez a megállapítás minden nagyobb mesterséges intelligencia-vállalat stratégiáját befolyásolni fogja.

A fejlett mesterséges intelligencia technológia demokratizálása nyílt forráskódú modelleken keresztül a mesterséges intelligencia képességeinek egyenletesebb eloszlásához vezethet világszerte. Azok az országok és vállalatok is hozzáférhetnének a legmodernebb technológiához, amelyeket korábban a magas költségek vagy a technikai akadályok kizártak.

A DeepSeek sikere ugyanakkor megkérdőjelezi a technológiai szankciók és az exportkorlátozások hatékonyságát. Az a képessége, hogy korlátozott erőforrásokkal világszínvonalú teljesítményt ér el, arra ösztönözhet más országokat, hogy hasonló megközelítéseket alkalmazzanak, és saját MI-ökoszisztémákat fejlesszenek ki.

A DeepSeek V3.1 többet képvisel, mint egy újabb MI-modellt – alapvető változást szimbolizál a mesterséges intelligencia fejlesztésében, finanszírozásában és alkalmazásában. A technológiai innováció, a költséghatékony fejlesztés és a nyílt forráskódú szoftverek elérhetőségének kombinációja új lehetőségeket teremt, és komoly kihívások elé állítja a már bejáratott piacvezetőket. A jövőbeli fejlemények fogják megmutatni, hogy ez a megközelítés fogja-e alakítani a mesterséges intelligencia iparág jövőjét.

Itt vagyunk Önnek - Tanácsadás - Tervezés - Megvalósítás - Projektmenedzsment

☑️ KKV-támogatás a stratégiában, tanácsadásban, tervezésben és megvalósításban

☑️ A mesterséges intelligencia stratégiájának létrehozása vagy átalakítása

☑️ Úttörő üzletfejlesztés

Konrad Wolfenstein

Örömmel lennék az Ön személyes tanácsadója.

Kapcsolatba léphet velem az alábbi kapcsolatfelvételi űrlap kitöltésével, vagy egyszerűen hívjon a +49 7348 4088 965 .

Alig várom a közös projektünket.

Írj nekem

➡️ Videóhívás kérése 👩👱

Xpert.Digital - Konrad Wolfenstein

Az Xpert.Digital egy iparági központ, amely a digitalizációra, a gépészetre, a logisztikára/intralogisztikára és a fotovoltaikus elemekre összpontosít.

360°-os üzletfejlesztési megoldásunkkal elismert vállalatokat támogatunk az új üzletektől az értékesítés utáni szolgáltatásokig.

Piackutatás, smarketing, marketingautomatizálás, tartalomfejlesztés, PR, levelezési kampányok, személyre szabott közösségi média és érdeklődőgondozás digitális eszközeink részét képezik.

További információkat a következő weboldalakon talál: www.xpert.digital - www.xpert.solar - www.xpert.plus

Tartsuk a kapcsolatot