Погрешна процена од 57 милијарди долара – NVIDIA упозорава, од свих компанија: Индустрија вештачке интелигенције је подржала погрешног коња

Xpert прелиминарно издање

Available in 27 languages 📢

Објављено: 9. новембра 2025. / Ажурирано: 9. новембра 2025. – Аутор: Konrad Wolfenstein

Погрешна процена од 57 милијарди долара – NVIDIA, од свих компанија, упозорава: Индустрија вештачке интелигенције је подржала погрешног коња – Слика: Xpert.Digital

Заборавите гиганте вештачке интелигенције: Зашто је будућност мала, децентрализована и много јефтинија

### Модели малог језика: Кључ истинске пословне аутономије ### Од хиперскалера назад ка корисницима: Промена моћи у свету вештачке интелигенције ### Грешка од 57 милијарди долара: Зашто се права револуција вештачке интелигенције не дешава у облаку ### Тиха револуција вештачке интелигенције: Децентрализована уместо централизоване ### Технолошки гиганти на погрешном путу: Будућност вештачке интелигенције је витка и локална ### Од хиперскалера назад ка корисницима: Промена моћи у свету вештачке интелигенције ###

Милијарде долара протраћених инвестиција: Зашто мали модели вештачке интелигенције престижу велике

Свет вештачке интелигенције суочава се са земљотресом чија величина подсећа на корекције из дот-ком ере. У сржи овог преокрета лежи колосална погрешна процена: Док технолошки гиганти попут Мајкрософта, Гугла и Мете улажу стотине милијарди у централизоване инфраструктуре за масивне језичке моделе (Large Language Models, LLM), стварно тржиште за њихову примену драматично заостаје. Револуционарна анализа, коју је делимично спровео сам лидер у индустрији, NVIDIA, квантификује јаз од 57 милијарди долара у инфраструктурним инвестицијама у поређењу са стварним тржиштем од само 5,6 милијарди долара – десетоструко већа разлика.

Ова стратешка грешка произилази из претпоставке да будућност вештачке интелигенције лежи искључиво у све већим, рачунарски интензивнијим и централно контролисаним моделима. Али сада се ова парадигма распада. Тиха револуција, вођена децентрализованим, мањим језичким моделима (Small Language Models, SLM), окреће устаљени поредак наглавачке. Ови модели нису само многоструко јефтинији и ефикаснији, већ омогућавају компанијама да постигну нове нивое аутономије, суверенитета података и агилности – далеко од скупе зависности од неколико хиперскалера. Овај текст анализира анатомију овог вишемилијардерског погрешног улагања и показује зашто се права револуција вештачке интелигенције не дешава у гигантским центрима података, већ децентрализовано и на витком хардверу. То је прича о фундаменталном померању моћи од добављача инфраструктуре назад ка корисницима технологије.

У вези са овим:

Веће од дот-ком балона? Хајп око вештачке интелигенције достиже нови ниво ирационалности

Истраживање компаније NVIDIA о погрешној расподели капитала у области вештачке интелигенције

Подаци које сте описали потичу из истраживачког рада компаније NVIDIA објављеног у јуну 2025. године. Комплетан извор је:

„Модели малих језика су будућност агентске вештачке интелигенције“

Аутори: Петер Белцак, Грег Хеинрицх, Схизхе Диао, Ионгган Фу, Ксин Донг, Саурав Муралидхаран, Јингиан Целине Лин, Павло Молцханов
Датум објављивања: 2. јун 2025. (Верзија 1), последња ревизија 15. септембар 2025. (Верзија 2)
Локација публикације: arXiv:2506.02153 [cs.AI]
ДОИ: https://doi.org/10.48550/arXiv.2506.02153
Званична NVIDIA истраживачка страница: https://research.nvidia.com/labs/lpr/slm-agents/

Кључна порука у вези са погрешном расподелом капитала

Истраживање документује фундаменталну неслагање између инвестиција у инфраструктуру и стварног обима тржишта: У 2024. години, индустрија је инвестирала 57 милијарди долара у клауд инфраструктуру за подршку услуге API модела великих језичких језика (LLM), док је стварно тржиште за ове услуге износило само 5,6 милијарди долара. Ова неслагања од десет према један се у студији тумаче као показатељ стратешке погрешне процене, јер је индустрија уложила значајна средства у централизовану инфраструктуру за моделе великих размера, иако би 40-70% тренутних LLM радних оптерећења могло бити замењено мањим, специјализованим моделима малих језичких језика (SLM) по цени од 1/30 цене.

Контекст истраживања и ауторство

Ова студија је позициони документ Истраживачке групе за ефикасност дубоког учења у NVIDIA Research-у. Главни аутор Питер Белчак је истраживач вештачке интелигенције у NVIDIA-и, фокусиран на поузданост и ефикасност система заснованих на агентима. Рад се ослања на три стуба:

СЛМ-ови су

довољно моћан
хируршки погодан и
економски неопходан

за многе случајеве употребе у агентским вештачким интелигенцијским системима.

Истраживачи експлицитно наглашавају да су ставови изражени у овом раду ставови аутора и не одражавају нужно став компаније NVIDIA. NVIDIA позива на критичку дискусију и обавезује се да ће објавити сву повезану преписку на пратећој веб страници.

Зашто децентрализовани модели малих језика чине централизовану инфраструктуру застарелом

Вештачка интелигенција је на прекретници, чије импликације подсећају на превирања дот-ком балона. Истраживачки рад компаније NVIDIA открио је фундаменталну погрешну расподелу капитала која потреса темеље њене тренутне стратегије вештачке интелигенције. Док је технолошка индустрија уложила 57 милијарди долара у централизовану инфраструктуру за језичке моделе великих размера, стварно тржиште за њихову употребу порасло је на само 5,6 милијарди долара. Ова разлика од десет према један не само да означава прецењивање потражње, већ открива и фундаменталну стратешку грешку у вези са будућношћу вештачке интелигенције.

Лоша инвестиција? Милијарде потрошене на вештачку интелигенцију — шта радити са вишком капацитета?

Бројке говоре саме за себе. У 2024. години, глобална потрошња на вештачку интелигенцију достигла је између 80 и 87 милијарди долара, према различитим анализама, при чему су центри података и акцелератори чинили велику већину. Мајкрософт је најавио инвестиције од 80 милијарди долара за фискалну 2025. годину, Гугл је подигао своју прогнозу на између 91 и 93 милијарде долара, а Мета планира да инвестира до 70 милијарди долара. Само ова три хиперскалера представљају обим инвестиција од преко 240 милијарди долара. Укупна потрошња на вештачку интелигенцију могла би достићи између 3,7 и 7,9 билиона долара до 2030. године, према проценама МекКинсија.

Насупрот томе, стварност на страни потражње је отрежњујућа. Тржиште за моделе великих пословних језика процењено је на само 4 до 6,7 милијарди долара за 2024. годину, са пројекцијама за 2025. годину које се крећу од 4,8 до 8 милијарди долара. Чак и најдарежљивије процене за тржиште генеративне вештачке интелигенције у целини су између 28 и 44 милијарде долара за 2024. годину. Основна разлика је јасна: инфраструктура је изграђена за тржиште које не постоји у овом облику и обиму.

Ово погрешно улагање произилази из претпоставке која се све више показује погрешном: да будућност вештачке интелигенције лежи у све већим, централизованим моделима. Хиперскалери су следили стратегију масовног скалирања, вођени уверењем да су број параметара и рачунарска снага одлучујући конкурентски фактори. GPT-3, са 175 милијарди параметара, сматран је пробојем 2020. године, а GPT-4, са преко трилиона параметара, поставио је нове стандарде. Индустрија је слепо пратила ову логику и инвестирала у инфраструктуру дизајнирану за потребе модела који су превелики за већину случајева употребе.

Структура инвестиција јасно илуструје погрешну расподелу. У другом кварталу 2025. године, 98% од 82 милијарде долара потрошених на вештачку интелигенцију отишло је на сервере, а 91,8% од тога на системе убрзане помоћу GPU и XPU процесора. Хиперскалери и креатори облака апсорбовали су 86,7% ових расхода, отприлике 71 милијарду долара у једном кварталу. Ова концентрација капитала у високо специјализованом, изузетно енергетски интензивном хардверу за обуку и извођење масивних модела игнорисала је фундаменталну економску реалност: већина пословних апликација не захтева овај капацитет.

Парадигма се руши: Од централизованог до децентрализованог

Сама NVIDIA, главни корисник недавног бума инфраструктуре, сада пружа анализу која доводи у питање ову парадигму. Истраживање о моделима малих језика као будућности вештачке интелигенције засноване на агентима тврди да модели са мање од 10 милијарди параметара нису само довољни већ и оперативно супериорни за велику већину вештачке интелигенције. Студија три велика агентска система отвореног кода открила је да се 40 до 70 процената позива моделима великих језика може заменити специјализованим малим моделима без икаквог губитка перформанси.

Ови налази потресају фундаменталне претпоставке постојеће инвестиционе стратегије. Ако MetaGPT може да замени 60 процената својих LLM позива, Open Operator 40 процената, а Cradle 70 процената са SLM-овима, онда је изграђен инфраструктурни капацитет за захтеве који не постоје у овој размери. Економија се драматично мења: Llama 3.1B Small Language Model кошта десет до тридесет пута мање за рад од његовог већег пандана, Llama 3.3 405B. Фино подешавање се може обавити за неколико сати GPU-а уместо недеља. Многи SLM-ови раде на потрошачком хардверу, потпуно елиминишући зависности од облака.

Стратешки помак је фундаменталан. Контрола се помера са добављача инфраструктуре на оператере. Док је претходна архитектура приморавала компаније у позицију зависности од неколико хиперскалера, децентрализација кроз SLM-ове омогућава нову аутономију. Модели се могу користити локално, подаци остају унутар компаније, трошкови API-ја се елиминишу, а везаност за добављача се прекида. Ово није само технолошка трансформација, већ трансформација политике моћи.

Претходна опклада на централизоване моделе великих размера заснивала се на претпоставци о ефектима експоненцијалног скалирања. Међутим, емпиријски подаци све више противрече овоме. Microsoft Phi-3, са 7 милијарди параметара, постиже перформансе генерисања кода упоредиве са моделима са 70 милијарди параметара. NVIDIA Nemotron Nano 2, са 9 милијарди параметара, надмашује Qwen3-8B у тестовима резоновања са шест пута већим протоком. Ефикасност по параметру се повећава код мањих модела, док велики модели често активирају само део својих параметара за дати улаз – што је инхерентна неефикасност.

Економска супериорност модела малих језика

Структура трошкова открива економску стварност са бруталном јасноћом. Обука модела класе GPT-4 процењује се на преко 100 милиона долара, при чему Gemini Ultra потенцијално кошта 191 милион долара. Чак и фино подешавање великих модела за одређене домене може коштати десетине хиљада долара у времену потребном за коришћење графичког процесора (GPU). Насупрот томе, SLM-ови се могу обучити и фино подесити за само неколико хиљада долара, често на једном врхунском GPU-у.

Трошкови закључивања откривају још драстичније разлике. GPT-4 кошта приближно 0,03 долара по 1.000 улазних токена и 0,06 долара по 1.000 излазних токена, што укупно износи 0,09 долара по просечном упиту. Mistral 7B, као пример SLM-а, кошта 0,0001 долар по 1.000 улазних токена и 0,0003 долара по 1.000 излазних токена, односно 0,0004 долара по упиту. Ово представља смањење трошкова за фактор 225. Са милионима упита, ова разлика се сабира до значајних износа који директно утичу на профитабилност.

Укупни трошкови власништва откривају даље димензије. Самостално хостовање модела са 7 милијарди параметара на серверима без икаквих функција са L40S графичким процесорима кошта приближно 953 долара месечно. Фино подешавање у облаку помоћу AWS SageMaker-а на g5.2xlarge инстанцама кошта 1,32 долара по сату, са потенцијалним трошковима обуке који почињу од 13 долара за мање моделе. Имплементација инференције 24/7 коштала би приближно 950 долара месечно. У поређењу са трошковима API-ја за континуирано коришћење великих модела, који лако могу достићи десетине хиљада долара месечно, економска предност постаје јасна.

Брзина имплементације је често потцењени економски фактор. Док фино подешавање великог језичког модела (SLM) може трајати недељама, SLM-ови су спремни за употребу за неколико сати или дана. Агилност да се брзо одговори на нове захтеве, додају нове могућности или прилагоди понашање постаје конкурентска предност. На брзим тржиштима, ова временска разлика може бити разлика између успеха и неуспеха.

Економија обима се мења. Традиционално, економија обима се сматрала предношћу хиперскалера, који одржавају огромне капацитете и дистрибуирају их међу многим купцима. Међутим, са SLM-овима, чак и мање организације могу ефикасно да се скалирају јер су захтеви за хардвером драстично нижи. Стартап може да изгради специјализовани SLM са ограниченим буџетом који надмашује велики, генерализовани модел за свој специфични задатак. Демократизација развоја вештачке интелигенције постаје економска реалност.

Техничке основе поремећаја

Технолошке иновације које омогућавају SLM-ове су подједнако значајне као и њихове економске импликације. Дестилација знања, техника у којој мањи модел ученика апсорбује знање већег модела наставника, показала се веома ефикасном. DistilBERT је успешно компресовао BERT, а TinyBERT је следио сличне принципе. Модерни приступи дестилују могућности великих генеративних модела попут GPT-3 у знатно мање верзије које показују упоредиве или боље перформансе у одређеним задацима.

Процес користи и меке ознаке (дистрибуције вероватноће) модела наставника и тврде ознаке оригиналних података. Ова комбинација омогућава мањем моделу да ухвати нијансиране обрасце који би се изгубили у једноставним паровима улаз-излаз. Напредне технике дестилације, као што је корак-по-корак дестилација, показале су да мали модели могу постићи боље резултате од LLM-ова чак и са мање података за обуку. Ово фундаментално мења економију: уместо скупих, дуготрајних обука на хиљадама графичких процесора, довољни су циљани процеси дестилације.

Квантизација смањује прецизност нумеричке репрезентације тежина модела. Уместо 32-битних или 16-битних бројева са покретним зарезом, квантизовани модели користе 8-битне или чак 4-битне целобројне репрезентације. Захтеви за меморијом се пропорционално смањују, брзина закључивања се повећава, а потрошња енергије опада. Модерне технике квантизације минимизирају губитак тачности, често остављајући перформансе практично непромењеним. Ово омогућава примену на edge уређајима, паметним телефонима и уграђеним системима што би било немогуће са потпуно прецизним великим моделима.

Орезивање уклања сувишне везе и параметре из неуронских мрежа. Слично уређивању предугачког текста, небитни елементи се идентификују и елиминишу. Структурирано орезивање уклања целе неуроне или слојеве, док неструктурирано орезивање уклања појединачне тежине. Резултујућа структура мреже је ефикаснија, захтева мање меморије и процесорске снаге, а ипак задржава своје основне могућности. У комбинацији са другим техникама компресије, орезивани модели постижу импресивне добитке ефикасности.

Факторизација ниског ранга разлаже матрице великих тежина на производе мањих матрица. Уместо једне матрице са милионима елемената, систем чува и обрађује две знатно мање матрице. Математичка операција остаје приближно иста, али је рачунски напор драматично смањен. Ова техника је посебно ефикасна у трансформаторским архитектурама, где механизми пажње доминирају множењем великих матрица. Уштеда меморије омогућава веће контекстуалне прозоре или величине серија са истим хардверским буџетом.

Комбинација ових техника у модерним SLM-овима као што су Microsoft Phi серија, Google Gemma или NVIDIA Nemotron показује потенцијал. Phi-2, са само 2,7 милијарди параметара, надмашује моделе Mistral и Llama-2 са 7 и 13 милијарди параметара, респективно, у агрегираним бенчмарк тестовима и постиже боље перформансе од 25 пута већег Llama-2-70B у задацима вишестепеног резоновања. Ово је постигнуто стратешким избором података, генерисањем висококвалитетних синтетичких података и иновативним техникама скалирања. Порука је јасна: величина више није показатељ могућности.

Динамика тржишта и потенцијал замене

Емпиријски налази из примена у стварном свету подржавају теоријска разматрања. NVIDIA-ина анализа MetaGPT-а, оквира за развој вишеагентног софтвера, идентификовала је да је приближно 60 процената LLM захтева заменљиво. Ови задаци укључују генерисање шаблонског кода, креирање документације и структурирани излаз – све области у којима специјализовани SLM-ови раде брже и исплативије од општих модела великих размера.

Опен Оператор, систем за аутоматизацију радног процеса, показује са својим потенцијалом замене од 40 процената да чак и у сложеним сценаријима оркестрације, многи подзадаци не захтевају пуни капацитет ЛЛМ-ова. Парсирање намере, излаз заснован на шаблонима и одлуке о рутирању могу се ефикасније обрадити фино подешеним, малим моделима. Преосталих 60 процената, који заправо захтевају дубоко резоновање или широко познавање света, оправдава употребу великих модела.

Cradle, систем за аутоматизацију графичког корисничког интерфејса, показује највећи потенцијал замене од 70 процената. Понављајуће интеракције корисничког интерфејса, секвенце кликова и уноси у форме су идеални за SLM-ове. Задаци су уско дефинисани, варијабилност је ограничена, а захтеви за контекстуално разумевање су ниски. Специјализовани модел обучен на GUI интеракцијама надмашује генерални LLM у брзини, поузданости и трошковима.

Ови обрасци се понављају у свим областима примене. Четботови за корисничку подршку за често постављана питања, класификацију докумената, анализу расположења, препознавање именованих ентитета, једноставне преводе, упите у базу података природног језика – сви ови задаци имају користи од SLM-ова. Једна студија процењује да у типичним имплементацијама вештачке интелигенције у предузећима, 60 до 80 процената упита спада у категорије за које су SLM-ови довољни. Импликације на потражњу за инфраструктуром су значајне.

Концепт рутирања модела добија на значају. Интелигентни системи анализирају долазне упите и усмеравају их ка одговарајућем моделу. Једноставни упити иду ка исплативим SLM-овима, док сложене задатке обрађују високоперформансни LLM-ови. Овај хибридни приступ оптимизује равнотежу између квалитета и трошкова. Ране имплементације извештавају о уштедама трошкова до 75 процената уз исте или чак боље укупне перформансе. Сама логика рутирања може бити мали модел машинског учења који узима у обзир сложеност упита, контекст и корисничке преференције.

Ширење платформи за фино подешавање као услугу убрзава усвајање. Компаније без дубоког стручног знања о машинском учењу могу да изграде специјализоване SLM-ове који укључују њихове власничке податке и специфичности домена. Временско улагање се смањује са месеци на дане, а трошкови са стотина хиљада долара на хиљаде. Ова приступачност фундаментално демократизује иновације вештачке интелигенције и помера стварање вредности са добављача инфраструктуре на програмере апликација.

Нова димензија дигиталне трансформације са „Управљаном вештачком интелигенцијом“ - платформа и B2B решење | Xpert Consulting

Нова димензија дигиталне трансформације са „Управљаном вештачком интелигенцијом“ – платформа и B2B решење | Xpert Consulting - Слика: Xpert.Digital

Овде ћете сазнати како ваша компанија може брзо, безбедно и без високих баријера за улазак имплементирати прилагођена решења за вештачку интелигенцију.

Управљана AI платформа је ваше свеобухватно и безбрижно решење за вештачку интелигенцију. Уместо да се бавите сложеном технологијом, скупом инфраструктуром и дуготрајним процесима развоја, добијате готово решење прилагођено вашим потребама од специјализованог партнера – често у року од само неколико дана.

Кључне предности на први поглед:

⚡ Брза имплементација: Од идеје до апликације спремне за употребу за дане, а не месеци. Нудимо практична решења која стварају тренутну додату вредност.

🔒 Максимална безбедност података: Ваши осетљиви подаци остају код вас. Гарантујемо безбедну и усклађену обраду без дељења података са трећим лицима.

💸 Без финансијског ризика: Плаћате само за резултате. Велика почетна улагања у хардвер, софтвер или особље су потпуно елиминисана.

🎯 Фокусирајте се на свој основни посао: Концентришите се на оно што најбоље радите. Ми се бринемо о целокупној техничкој имплементацији, раду и одржавању вашег вештачке интелигенције.

📈 Спремно за будућност и скалабилно: Ваша вештачка интелигенција расте са вама. Обезбеђујемо континуирану оптимизацију и скалабилност и флексибилно прилагођавамо моделе новим захтевима.

Више информација овде:

Решење за управљану вештачку интелигенцију - Индустријске услуге вештачке интелигенције: Кључ конкурентности у секторима услуга, индустрије и машинства

Како децентрализована вештачка интелигенција штеди компанијама милијарде трошкова

Скривени трошкови централизованих архитектура

Фокусирање искључиво на трошкове директног израчунавања потцењује укупне трошкове централизованих LLM архитектура. API зависности стварају структурне недостатке. Сваки захтев генерише трошкове који се скалирају са употребом. За успешне апликације са милионима корисника, API накнаде постају доминантан фактор трошкова, смањујући марже. Компаније су заробљене у структури трошкова која расте пропорционално успеху, без одговарајућих економија обима.

Волатилност цена API добављача представља пословни ризик. Повећање цена, ограничења квота или промене услова коришћења услуге могу преко ноћи уништити профитабилност апликације. Недавно најављена ограничења капацитета од стране главних добављача, која приморавају кориснике да рационално расподеле своје ресурсе, илуструју рањивост ове зависности. Наменски SLM-ови у потпуности елиминишу овај ризик.

Суверенитет података и усклађеност добијају на значају. GDPR у Европи, упоредиви прописи широм света и све већи захтеви за локализацију података стварају сложене правне оквире. Слање осетљивих корпоративних података спољним API-јима који могу да раде у страним јурисдикцијама носи регулаторне и правне ризике. Здравствени, финансијски и владини сектори често имају строге захтеве који искључују или озбиљно ограничавају употребу спољних API-ја. Локални SLM-ови фундаментално решавају ове проблеме.

Забринутост у вези са интелектуалном својином је стварна. Сваки захтев послат добављачу API-ја потенцијално открива власничке информације. Пословна логика, развој производа, информације о купцима – све ово би теоретски могао да издвоји и користи добављач. Уговорне клаузуле нуде ограничену заштиту од случајног цурења података или злонамерних актера. Једино истински безбедно решење је да се подаци никада не екстернализују.

Латенција и поузданост пате због зависности од мреже. Сваки захтев за cloud API пролази кроз интернет инфраструктуру, подложан је подрхтавању мреже, губитку пакета и променљивим временима слања података. За апликације у реалном времену, попут конверзационе вештачке интелигенције или контролних система, ова кашњења су неприхватљива. Локални SLM-ови реагују у милисекундама уместо у секундама, без обзира на услове мреже. Корисничко искуство је значајно побољшано.

Стратешко ослањање на неколико хиперскалера концентрише моћ и ствара системске ризике. AWS, Microsoft Azure, Google Cloud и још неколико доминирају тржиштем. Прекиди ових услуга имају каскадне ефекте на хиљаде зависних апликација. Илузија редундантности нестаје када узмете у обзир да се већина алтернативних услуга на крају ослања на исти ограничени скуп модела добављача. Права отпорност захтева диверзификацију, идеално укључујући и интерне капацитете.

У вези са овим:

Шта је боље: Децентрализована, федеративна, антифрагилна вештачка интелигенција инфраструктура или вештачка интелигенција гигафабрика или хиперскалирани вештачки дата центар?

Edge computing као стратешка прекретница

Конвергенција SLM-ова и edge computing-а ствара трансформативну динамику. Примена edge computing-а доноси рачунање тамо одакле подаци потичу – IoT сензоре, мобилне уређаје, индустријске контролере и возила. Смањење латенције је драматично: са секунди на милисекунде, од повратног пута у облаку до локалне обраде. За аутономне системе, проширену стварност, индустријску аутоматизацију и медицинске уређаје, ово није само пожељно већ и неопходно.

Уштеде на пропусном опсегу су значајне. Уместо континуираног слања података у облак, где се обрађују и резултати шаљу назад, обрада се одвија локално. Преносе се само релевантне, агрегиране информације. У сценаријима са хиљадама edge уређаја, ово смањује мрежни саобраћај за редове величине. Трошкови инфраструктуре се смањују, избегава се загушење мреже, а поузданост се повећава.

Приватност је инхерентно заштићена. Подаци више не напуштају уређај. Снимци камера, аудио снимци, биометријске информације, подаци о локацији – све се то може обрађивати локално, без достизања централних сервера. Ово решава фундаменталне проблеме са приватношћу које покрећу решења вештачке интелигенције заснована на облаку. За потрошачке апликације, ово постаје фактор разликовања; за регулисане индустрије, то постаје захтев.

Енергетска ефикасност се побољшава на више нивоа. Специјализовани чипови за вештачку интелигенцију на рубу мреже, оптимизовани за закључивање малих модела, троше делић енергије графичких процесора у дата центрима. Елиминисање преноса података штеди енергију у мрежној инфраструктури. За уређаје који се напајају батеријама, ово постаје основна функција. Паметни телефони, носиви уређаји, дронови и IoT сензори могу обављати функције вештачке интелигенције без драматичног утицаја на трајање батерије.

Офлајн могућности стварају робусност. Edge AI такође ради без интернет конекције. Функционалност се одржава у удаљеним регионима, критичној инфраструктури или сценаријима катастрофа. Ова независност од доступности мреже је неопходна за многе примене. Аутономно возило не може да се ослања на клауд конекцију, а медицински уређај не сме да откаже због нестабилне Wi-Fi мреже.

Модели трошкова се померају са оперативних на капиталне издатке. Уместо континуираних трошкова у облаку, постоји једнократно улагање у edge хардвер. Ово постаје економски атрактивно за дуготрајне апликације великог обима. Предвидљиви трошкови побољшавају планирање буџета и смањују финансијске ризике. Компаније поново добијају контролу над својим трошковима за вештачку интелигенцију.

Примери демонстрирају потенцијал. NVIDIA ChatRTX омогућава локално LLM закључивање на потрошачким графичким процесорима. Apple интегрише вештачку интелигенцију на уређају у iPhone и iPad уређаје, при чему мањи модели раде директно на уређају. Qualcomm развија NPU-ове за паметне телефоне посебно за edge AI. Google Coral и сличне платформе циљају IoT и индустријске примене. Динамика тржишта показује јасан тренд ка децентрализацији.

Хетерогене вештачке интелигенције као будући модел

Будућност не лежи у апсолутној децентрализацији, већ у интелигентним хибридним архитектурама. Хетерогени системи комбинују SLM-ове на рубу мреже за рутинске задатке осетљиве на латенцију са LLM-овима у облаку за сложене захтеве за резоновање. Ова комплементарност максимизира ефикасност уз очување флексибилности и могућности.

Архитектура система се састоји од неколико слојева. На ивичном слоју, високо оптимизовани SLM-ови пружају тренутне одговоре. Очекује се да ће аутономно обрадити 60 до 80 процената захтева. За двосмислене или сложене упите који не испуњавају локалне прагове поузданости, ескалација се дешава до слоја рачунарства у магли – регионалних сервера са моделима средњег домета. Само заиста тешки случајеви доспевају до централне клауд инфраструктуре са великим, моделима опште намене.

Рутирање модела постаје критична компонента. Рутери засновани на машинском учењу анализирају карактеристике захтева: дужину текста, индикаторе сложености, сигнале домена и историју корисника. На основу ових карактеристика, захтев се додељује одговарајућем моделу. Модерни рутери постижу преко 95% тачности у процени сложености. Они континуирано оптимизују на основу стварних перформанси и компромиса између цене и квалитета.

Механизми унакрсне пажње у напредним системима рутирања експлицитно моделирају интеракције између модела упита. Ово омогућава нијансиране одлуке: Да ли је Mistral-7B довољан или је потребан GPT-4? Може ли Phi-3 да се носи са овим или је потребан Claude? Фино гранулирана природа ових одлука, помножена са милионима упита, генерише значајне уштеде трошкова уз одржавање или побољшање задовољства корисника.

Карактеризација радног оптерећења је фундаментална. Агентски вештачки интелигентни системи састоје се од оркестрације, резоновања, позива алата, операција са меморијом и генерисања излаза. Нису свим компонентама потребни исти рачунарски капацитет. Оркестрација и позиви алата често су засновани на правилима или захтевају минималну интелигенцију – идеално за SLM-ове. Резоновање може бити хибридно: једноставно закључивање на SLM-овима, сложено вишестепено резоновање на LLM-овима. Генерисање излаза за шаблоне користи SLM-ове, генерисање креативног текста користи LLM-ове.

Оптимизација укупних трошкова власништва (TCO) узима у обзир хетерогеност хардвера. Врхунски H100 графички процесори се користе за критична LLM радна оптерећења, средњи A100 или L40S за моделе средњег ранга, а исплативи T4 или чипови оптимизовани за инференцију за SLM-ове. Ова грануларност омогућава прецизно усклађивање захтева за радним оптерећењем са могућностима хардвера. Прве студије показују смањење TCO од 40 до 60 процената у поређењу са хомогеним имплементацијама врхунског процесора.

Оркестрација захтева софистициране софтверске стекове. Системи за управљање кластерима засновани на Kubernetes-у, допуњени AI-специфичним планинерима који разумеју карактеристике модела, су неопходни. Балансирање оптерећења узима у обзир не само захтеве у секунди већ и дужине токена, меморијске отиске модела и циљеве латенције. Аутоматско скалирање реагује на обрасце потражње, обезбеђујући додатни капацитет или смањујући капацитет током периода ниске искоришћености.

Одрживост и енергетска ефикасност

Утицај инфраструктуре вештачке интелигенције на животну средину постаје централно питање. Обука једног великог језичког модела може потрошити енергију колико и мали град за годину дана. Центри података који покрећу радна оптерећења вештачке интелигенције могли би да чине 20 до 27 процената глобалне потражње за енергијом у центрима података до 2028. године. Пројекције процењују да би до 2030. године центрима података вештачке интелигенције могло бити потребно 8 гигавата за појединачне обуке. Угљенични отисак биће упоредив са угљеничним отиском ваздухопловне индустрије.

Енергетски интензитет великих модела се несразмерно повећава. Потрошња енергије графичких процесора (GPU) удвостручила се са 400 на преко 1000 вати за три године. NVIDIA GB300 NVL72 системи, упркос иновативној технологији за уравнотежење напајања која смањује вршно оптерећење за 30 процената, захтевају огромне количине енергије. Инфраструктура за хлађење додаје додатних 30 до 40 процената потражњи за енергијом. Укупне емисије CO2 из инфраструктуре вештачке интелигенције могле би се повећати за 220 милиона тона до 2030. године, чак и уз оптимистичне претпоставке о декарбонизацији мреже.

Модели малих језика (SLM) нуде фундаментална побољшања ефикасности. Обука захтева 30 до 40 процената рачунарске снаге упоредивих LLM-ова. BERT обука кошта приближно 10.000 евра, у поређењу са стотинама милиона за моделе класе GPT-4. Енергија инференције је пропорционално нижа. SLM упит може потрошити 100 до 1.000 пута мање енергије од LLM упита. Преко милиона упита, ово се сабира до огромних уштеда.

Рубно рачунарство појачава ове предности. Локална обрада елиминише енергију потребну за пренос података преко мрежа и окоснице инфраструктуре. Специјализовани чипови за вештачку интелигенцију на рубу мреже постижу факторе енергетске ефикасности за редове величине боље од графичких процесора у дата центрима. Паметни телефони и IoT уређаји са миливатним NPU-овима уместо стотина вати сервера илуструју разлику у размери.

Коришћење обновљивих извора енергије постаје приоритет. Гугл је посвећен 100% енергији без угљеника до 2030. године, а Мајкрософт негативном утицају угљеника. Међутим, сама величина потражње за енергијом представља изазове. Чак и са обновљивим изворима, питање капацитета мреже, складиштења и повремености остаје. СЛМ-ови смањују апсолутну потражњу, чинећи прелазак на зелену вештачку интелигенцију изводљивијим.

Рачунарство свесно угљеника оптимизује распоред радног оптерећења на основу интензитета угљеника у мрежи. Обуке се покрећу када је удео обновљиве енергије у мрежи максималан. Захтеви за закључивање се усмеравају ка регионима са чистијом енергијом. Ова временска и географска флексибилност, у комбинацији са ефикасношћу SLM-ова, могла би смањити емисију CO2 за 50 до 70 процената.

Регулаторни пејзаж постаје строжији. Закон ЕУ о вештачкој интелигенцији укључује обавезне процене утицаја на животну средину за одређене системе вештачке интелигенције. Извештавање о угљенику постаје стандард. Компаније са неефикасном, енергетски интензивном инфраструктуром ризикују проблеме са усклађеношћу и штету по репутацију. Усвајање SLM-ова и рачунарства на рубу мреже еволуира од пожељне ствари до нужности.

Демократизација наспрам концентрације

Прошли развој је концентрисао моћ вештачке интелигенције у рукама неколико кључних играча. Величанствених седам – Мајкрософт, Гугл, Мета, Амазон, Епл, НВИДИА и Тесла – доминирају. Ови хиперскалери контролишу инфраструктуру, моделе и све више цео ланац вредности. Њихова комбинована тржишна капитализација прелази 15 билиона долара. Они представљају скоро 35 процената тржишне капитализације S&P 500, што је ризик концентрације од невиђеног историјског значаја.

Ова концентрација има системске импликације. Неколико компанија поставља стандарде, дефинише API-је и контролише приступ. Мањи играчи и земље у развоју постају зависни. Дигитални суверенитет нација је доведен у питање. Европа, Азија и Латинска Америка реагују националним стратегијама за вештачку интелигенцију, али доминација хиперскалера са седиштем у САД остаје огромна.

Модели малих језика (SLM) и децентрализација мењају ову динамику. Модели отвореног кода SLM-ови попут Phi-3, Gemma, Mistral и Llama демократизују приступ најсавременијој технологији. Универзитети, стартапови и средња предузећа могу развијати конкурентне апликације без хиперскалерских ресурса. Иновациона баријера се драматично смањује. Мали тим може да креира специјализовани SLM који надмашује Google или Microsoft у својој ниши.

Економска исплативост се помера у корист мањих играча. Док развој мастер студија права (LLM) захтева буџете у стотинама милиона, SLM-ови су изводљиви са петоцифреним до шестоцифреним износима. Демократизација облака омогућава приступ инфраструктури за обуку на захтев. Фино подешавање услуга апстрахује сложеност. Баријера за улазак иновација у области вештачке интелигенције смањује се са претерано високе на управљиву.

Суверенитет података постаје стварност. Компаније и владе могу да хостују моделе који никада не доспевају до екстерних сервера. Осетљиви подаци остају под њиховом контролом. Усклађеност са GDPR-ом је поједностављена. Закон ЕУ о вештачкој интелигенцији, који намеће строге захтеве за транспарентност и одговорност, постаје лакши за управљање уз помоћ власничких модела уместо API-ја „црне кутије“.

Разноликост иновација се повећава. Уместо монокултуре модела сличних GPT-у, појављују се хиљаде специјализованих SLM-ова за одређене домене, језике и задатке. Ова разноликост је отпорна на систематске грешке, повећава конкуренцију и убрзава напредак. Иновациони пејзаж постаје полицентричан, а не хијерархијски.

Ризици концентрације постају очигледни. Зависност од неколико добављача ствара појединачне тачке отказа. Прекиди у AWS-у или Azure-у осакаћују глобалне услуге. Политичке одлуке хиперскалера, као што су ограничења коришћења или регионална закључавања, имају каскадне ефекте. Децентрализација путем SLM-ова фундаментално смањује ове системске ризике.

Стратешко преусмеравање

За компаније, ова анализа подразумева фундаментална стратешка прилагођавања. Инвестициони приоритети се померају са централизоване клауд инфраструктуре на хетерогене, дистрибуиране архитектуре. Уместо максималног ослањања на хиперскалерске API-је, циљ је аутономија кроз интерне SLM-ове. Развој вештина фокусира се на фино подешавање модела, распоређивање на рубу мреже и хибридну оркестрацију.

Одлука о изградњи наспрам куповине се мења. Док се раније куповина API приступа сматрала рационалном, развој интерних, специјализованих SLM-ова постаје све атрактивнији. Укупни трошкови власништва током три до пет година јасно фаворизују интерне моделе. Стратешка контрола, безбедност података и прилагодљивост додају додатне квалитативне предности.

За инвеститоре, ова погрешна расподела сигнализира опрез у погледу искључиво инфраструктурних активности. Инвеститори за инвестирање у дата центре, произвођачи графичких процесора и хиперскалери могли би да се суоче са прекомерним капацитетом и смањењем искоришћења ако се потражња не оствари како је предвиђено. Миграција вредности се дешава ка добављачима SLM технологије, чипова за edge AI, софтвера за оркестрацију и специјализованих AI апликација.

Геополитичка димензија је значајна. Земље које дају приоритет националном суверенитету вештачке интелигенције имају користи од промене SLM-а. Кина улаже 138 милијарди долара у домаћу технологију, а Европа улаже 200 милијарди долара у InvestAI. Ова улагања ће бити ефикаснија када апсолутни обим више не буде одлучујући фактор, већ паметна, ефикасна и специјализована решења. Мултиполарни свет вештачке интелигенције постаје стварност.

Регулаторни оквир се развија паралелно. Заштита података, алгоритамска одговорност, еколошки стандарди – све то иде у прилог децентрализованим, транспарентним и ефикасним системима. Компаније које рано усвоје SLM-ове и edge computing повољно се позиционирају за усклађеност са будућим прописима.

Пејзаж талената се трансформише. Док су раније само елитни универзитети и врхунске технолошке компаније имали ресурсе за истраживање мастер студија права (LLM), сада практично свака организација може да развије SLM. Недостатак вештина који спречава 87% организација да запошљавају вештачку интелигенцију ублажава се мањом сложеношћу и бољим алатима. Побољшања у продуктивности од развоја подржаног вештачком интелигенцијом појачавају овај ефекат.

Начин на који меримо повраћај улагања (ROI) у вештачку интелигенцију се мења. Уместо фокусирања на сирови рачунарски капацитет, ефикасност по задатку постаје основна метрика. Предузећа пријављују просечан повраћај улагања од 5,9 процената за вештачку интелигенцију, што је знатно испод очекивања. Разлог често лежи у коришћењу превеликих, скупих решења за једноставне проблеме. Прелазак на SLM-ове оптимизоване за задатке може драматично побољшати овај повраћај улагања.

Анализа открива индустрију на прекретници. Погрешно улагање од 57 милијарди долара је више од пуког прецењивања потражње. То представља фундаменталну стратешку погрешну процену архитектуре вештачке интелигенције. Будућност не припада централизованим гигантима, већ децентрализованим, специјализованим, ефикасним системима. Мали језички модели нису инфериорни у односу на велике језичке моделе – они су супериорнији за велику већину примена у стварном свету. Економски, технички, еколошки и стратешки аргументи се своде на јасан закључак: револуција вештачке интелигенције биће децентрализована.

Прелазак моћи са провајдера на оператере, са хиперскалера на програмере апликација, са централизације на дистрибуцију означава нову фазу у еволуцији вештачке интелигенције. Они који рано препознају и прихвате ову транзицију биће победници. Они који се држе старе логике ризикују да њихове скупе инфраструктуре постану насукана имовина, коју ће преузети агилније и ефикасније алтернативе. 57 милијарди долара није само потрошено узалуд – то означава почетак краја парадигме која је већ застарела.

Ваш глобални партнер за маркетинг и развој пословања

☑️ Наш пословни језик је енглески или немачки

☑️ НОВО: Преписка на вашем матерњем језику!

Konrad Wolfenstein

Ја и мој тим смо срећни што вам можемо бити на располагању као ваш лични саветник.

Можете ме контактирати попуњавањем контакт форме овде или једноставно позовите на +49 89 89 674 804 ( Минхен) . Моја имејл адреса је: [email protected]

Радујем се нашем заједничком пројекту.

☑️ Подршка малим и средњим предузећима у стратегији, консултацијама, планирању и имплементацији

☑️ Креирање или реорганизација дигиталне стратегије и дигитализације

☑️ Проширење и оптимизација међународних продајних процеса

☑️ Глобалне и дигиталне B2B платформе за трговање

☑️ Пионирски развој пословања / Маркетинг / Односи с јавношћу / Сајмови

🎯🎯🎯 Искористите предности Xpert.Digital-овог опсежног, петоструког стручног знања у једном свеобухватном пакету услуга | BD, R&D, XR, PR и оптимизација дигиталне видљивости

Искористите предности Xpert.Digital-овог опсежног, петоструког стручног знања у свеобухватном пакету услуга | Истраживање и развој, XR, односи с јавношћу и оптимизација дигиталне видљивости - Слика: Xpert.Digital

Xpert.Digital поседује дубинско знање у различитим индустријама. То нам омогућава да развијемо прилагођене стратегије прецизно усклађене са захтевима и изазовима вашег специфичног тржишног сегмента. Континуираном анализом тржишних трендова и праћењем развоја у индустрији, можемо деловати проактивно и понудити иновативна решења. Комбинација искуства и стручности ствара додатну вредност и пружа нашим клијентима одлучујућу конкурентску предност.