⭐️ Вештачка интелигенција (ВИ) - Блог о ВИ, жариште и центар за садржај ⭐️ Дигитална интелигенција ⭐️ XPaper

Available in 27 languages 📢

DeepSeek V3: Побољшани AI модел са импресивним AI перформансама надмашује врхунске моделе у бенчмарковима

Објављено: 26. марта 2025. / Ажурирано: 26. марта 2025. – Аутор: Konrad Wolfenstein

DeepSeek V3 побољшава расуђивање и програмирање

Будућност вештачке интелигенције отвореног кода: DeepSeek објављује V3 ажурирање

Компанија DeepSeek је 25. марта 2025. објавила значајно ажурирање свог V3 језичког модела, DeepSeek-V3-0324. Ова нова верзија приказује значајна побољшања у областима као што су резоновање, програмирање и развој фронт-енда. Са импресивним резултатима бенчмаркова и могућношћу рада на моћном потрошачком хардверу, DeepSeek-V3-0324 се позиционира као водећи модел вештачке интелигенције отвореног кода, изазивајући власничка решења.

У вези са овим:

Упоредна анализа водећих AI модела: Google Gemini 2.0, DeepSeek R2 и GPT-4.5 од OpenAI-а

Технолошке основе и архитектура

Мешавина стручњака као кључна технологија

DeepSeek V3-0324 је базиран на иновативној архитектури мешавине стручњака (MoE) која га издваја од многих других вештачких интелигенцијских модела. Ова архитектура омогућава систему да активира не све делове модела за сваки задатак, већ само специфичне компоненте потребне за одређени упит. Функционише као тим стручњака, где се само прави стручњак позива да реши проблем.

Тренутни модел има укупно 685 милијарди параметара, али се за сваки задатак активира само око 37 милијарди. Ова селективна активација омогућава знатно ефикаснију обраду и знатно смањује потребе за ресурсима.

Иновативне технологије за побољшане перформансе

DeepSeek-V3-0324 представља две кључне техничке иновације које побољшавају његове перформансе:

Вишеструка латентна пажња (MLA): Ова технологија компресује кеш меморију кључ-вредност у латентни вектор, што оптимизује обраду дужих текстова и значајно смањује захтеве за меморијом.
Предвиђање вишеструких токена (MTP): Омогућава истовремено генерисање више токена, повећавајући брзину издавања до 80 процената.
Поред тога, DeepSeek V3 користи аритметику мешовите прецизности, која изводи аритметику са покретним зарезом са бројевима различите дужине и прецизности у оквиру исте операције. Смањена прецизност штеди време без значајног угрожавања квалитета резултата.

Побољшања перформанси и резултати бенчмарка

Значајан напредак у различитим областима

DeepSeek-V3-0324 показује изузетна побољшања у односу на свог претходника у неколико кључних области:

Вештине расуђивања – Резултати бенчмаркинга показују значајна побољшања, посебно у сложеним задацима:
- ММЛУ-Про: од 75,9 до 81,2 (+5,3 поена)
- GPQA: од 59,1 до 68,4 (+9,3 поена)
- AIME (Амерички позивни математички испит): од 39,6 до 59,4 (+19,8 поена)
- LiveCodeBench: од 39,2 до 49,2 (+10,0 поена)
Развој фронтенда: Побољшане вештине у креирању извршног кода и естетски пријатних веб страница и фронтенда игара.
Вештине кинеског језика: Побољшане вештине писања са бољим стилом и квалитетом текстова средњег и дужег формата, оптимизован квалитет превода и писања писама.

Позиционирање у такмичењу вештачке интелигенције

DeepSeek-V3-0324 је сада најбоље оцењени модел без резоновања на индексу интелигенције компаније Artificial Analysis. Надмашује све власничке моделе без резоновања, укључујући Gemini 2.0 Pro, Claude 3.7 Sonnet и Llama 3.3 70B. На индексу интелигенције, рангиран је одмах иза DeepSeek-овог R1 модела и других модела резоновања од OpenAI, Anthropic и Alibaba.

У тестовима попут DROP-а, DeepSeek је постигао импресивних 91,6%, док је GPT-4o достигао 83,7%, а Claude-3.5 88,3%. Ови резултати наглашавају конкурентност модела у односу на водећа власничка решења.

Ефикасност и приступачност

Оптимизација ресурса и захтеви за хардвер

Једна од најзначајнијих карактеристика DeepSeek-V3-0324 је његова ефикасност. Захваљујући MoE архитектури и другим оптимизацијама, модел може да ради на моћним потрошачким уређајима као што је Mac Studio са M3 Ultra чипом, постижући брзине од преко 20 токена у секунди.

Четворобитна верзија модела захтева само око 352 GB простора за складиштење и троши мање од 200 вати током инференције – знатно мање од конвенционалних система вештачке интелигенције, којима је често потребно неколико киловата. Ова ефикасност би могла да редефинише захтеве за инфраструктуру вештачке интелигенције.

Отворено лиценцирање и доступност

За разлику од западних конкурената као што су OpenAI или Anthropic, који своје моделе нуде само путем плаћених API-ја, DeepSeek-V3-0324 је објављен под MIT лиценцом. Ово омогућава бесплатну употребу и комерцијалне примене без ограничења.

Модел је доступан на различитим платформама:

Преко апликације DeepSeek
На званичном веб-сајту
Преко интерфејса за програмирање апликација (API)
Као инсталација на вашим рачунарима
Преко Microsoft Azure Cloud-а

У вези са овим:

DeepSeek као економски мотор: Нова вештачка интелигенција у Кини?

Историја и визија компаније

Од финансијског света до истраживања вештачке интелигенције

Компанију DeepSeek основао је у априлу 2023. године Лианг Венфенг, који је претходно био суоснивач хеџ фонда High-Flyer 2015. године. Хеџ фонд се специјализовао за математичке и вештачки засноване стратегије трговања, постављајући темеље за његов каснији развој вештачке интелигенције.

Компанија је основана као одговор на забрану извоза високотехнолошких чипова у Кину коју су увеле САД. Стратешки циљ компаније DeepSeek је да пружи моћну и конкурентну алтернативу западним решењима за вештачку интелигенцију, истовремено јачајући технолошки суверенитет Кине.

Филозофија отворености

Према речима Лианг Венфенга, резултати истраживања и модели компаније увек се објављују под лиценцама отвореног кода, што је део културе компаније. Ова отвореност је у супротности са бројним власничким системима вештачке интелигенције, које карактеришу рестриктивне лиценце.

„Чврсто верујемо да 99 одсто успеха произилази из напорног рада, а само један одсто из талента“, компанија описује своју филозофију на својој веб страници.

Перспективе и будући развој догађаја

Основа за нове моделе

DeepSeek-V3-0324 би могао да послужи као основа за нови модел резоновања под називом R2, чије се објављивање очекује у наредним недељама. Тренутни модел R1 је већ привукао пажњу због својих могућности решавања проблема.

Континуирани развој DeepSeek модела сугерише динамичну мапу пута која може укључивати и мултимодалну подршку и друге карактеристике усмерене ка будућности у DeepSeek екосистему.

Демократизација вештачке интелигенције: Како DeepSeek-V3-0324 поставља нове стандарде

DeepSeek-V3-0324 представља значајан напредак у развоју великих језичких модела. Кроз своју иновативну архитектуру, импресивне перформансе и отворено лиценцирање, доводи у питање устаљене власничке моделе и могао би да покрене демократизацију технологија вештачке интелигенције.

Комбинација технолошких иновација, ефикасности и приступачности чини DeepSeek-V3-0324 значајном прекретницом у свету вештачке интелигенције. Са својом способношћу да ради на потрошачком хардверу и побољшаним могућностима у областима као што су резоновање, програмирање и развој фронт-енда, DeepSeek се позиционира као озбиљан конкурент водећим компанијама за вештачку интелигенцију попут OpenAI, Google и Anthropic.

У вези са овим:

Ваш глобални партнер за маркетинг и развој пословања

☑️ Наш пословни језик је енглески или немачки

☑️ НОВО: Преписка на вашем матерњем језику!

Konrad Wolfenstein

Ја и мој тим смо срећни што вам можемо бити на располагању као ваш лични саветник.

Можете ме контактирати попуњавањем контакт форме овде или једноставно позовите на +49 89 89 674 804 ( Минхен) . Моја имејл адреса је: [email protected]

Радујем се нашем заједничком пројекту.