De misrekening van 57 miljard dollar – uitgerekend NVIDIA waarschuwt: de AI-industrie heeft op het verkeerde paard gewed

Xpert Pre-release

Taalselectie 📢

Gepubliceerd op: 9 november 2025 / Bijgewerkt op: 9 november 2025 – Auteur: Konrad Wolfenstein

De misrekening van 57 miljard dollar – uitgerekend NVIDIA waarschuwt: de AI-industrie heeft op het verkeerde paard gewed – Afbeelding: Xpert.Digital

Vergeet de AI-giganten: waarom de toekomst klein, gedecentraliseerd en veel goedkoper is

### Kleine taalmodellen: de sleutel tot echte bedrijfsautonomie ### Van hyperscalers terug naar gebruikers: machtsverschuiving in de AI-wereld ### De fout van 57 miljard dollar: waarom de echte AI-revolutie niet in de cloud plaatsvindt ### De stille AI-revolutie: gedecentraliseerd in plaats van gecentraliseerd ### Techreuzen op het verkeerde spoor: de toekomst van AI is slank en lokaal ### Van hyperscalers terug naar gebruikers: machtsverschuiving in de AI-wereld ###

Miljarden dollars aan verspilde investeringen: Waarom kleine AI-modellen de grote modellen voorbijstreven

De wereld van kunstmatige intelligentie staat voor een aardbeving waarvan de omvang doet denken aan de correcties van het dotcom-tijdperk. De kern van deze omwenteling ligt in een kolossale misrekening: terwijl techreuzen zoals Microsoft, Google en Meta honderden miljarden investeren in gecentraliseerde infrastructuren voor enorme taalmodellen (Large Language Models, LLM's), blijft de daadwerkelijke markt voor hun toepassingen dramatisch achter. Een baanbrekende analyse, mede uitgevoerd door marktleider NVIDIA zelf, kwantificeert het verschil op 57 miljard dollar aan infrastructuurinvesteringen tegenover een reële markt van slechts 5,6 miljard dollar – een vertienvoudiging.

Deze strategische fout komt voort uit de aanname dat de toekomst van AI uitsluitend ligt in steeds grotere, rekenintensievere en centraal aangestuurde modellen. Maar dit paradigma brokkelt nu af. Een stille revolutie, gedreven door gedecentraliseerde, kleinere taalmodellen (Small Language Models, SLM's), zet de gevestigde orde op zijn kop. Deze modellen zijn niet alleen vele malen goedkoper en efficiënter, maar stellen bedrijven ook in staat om nieuwe niveaus van autonomie, datasoevereiniteit en wendbaarheid te bereiken – ver verwijderd van de kostbare afhankelijkheid van een paar hyperscalers. Deze tekst analyseert de anatomie van deze miljardenmisinvestering en laat zien waarom de ware AI-revolutie niet plaatsvindt in gigantische datacenters, maar decentraal en op compacte hardware. Het is het verhaal van een fundamentele machtsverschuiving van de infrastructuurproviders terug naar de gebruikers van de technologie.

Dit is hiermee gerelateerd:

Groter dan de dotcombubbel? De hype rond kunstmatige intelligentie bereikt een nieuw niveau van irrationaliteit

NVIDIA-onderzoek naar verkeerde allocatie van AI-kapitaal

De gegevens die u beschreef, zijn afkomstig uit een onderzoeksrapport van NVIDIA dat in juni 2025 is gepubliceerd. De volledige bron is:

"Kleine taalmodellen zijn de toekomst van agentische AI"

Auteurs: Peter Belcak, Greg Heinrich, Shizhe Diao, Yonggan Fu, Xin Dong, Saurav Muralidharan, Yingyan Celine Lin, Pavlo Molchanov
Releasedatum: 2 juni 2025 (versie 1), laatste herziening: 15 september 2025 (versie 2)
Publicatielocatie: arXiv:2506.02153 [cs.AI]
DOI: https://doi.org/10.48550/arXiv.2506.02153
Officiële NVIDIA Research-pagina: https://research.nvidia.com/labs/lpr/slm-agents/

De kernboodschap met betrekking tot verkeerde kapitaalallocatie

Het onderzoek documenteert een fundamentele discrepantie tussen investeringen in infrastructuur en het werkelijke marktvolume: in 2024 investeerde de industrie $57 miljard in cloudinfrastructuur ter ondersteuning van API-diensten voor grote taalmodellen (LLM's), terwijl de daadwerkelijke markt voor deze diensten slechts $5,6 miljard bedroeg. Deze discrepantie van tien op één wordt in de studie geïnterpreteerd als een indicatie van een strategische misrekening, aangezien de industrie zwaar investeerde in gecentraliseerde infrastructuur voor grootschalige modellen, terwijl 40-70% van de huidige LLM-workloads vervangen zou kunnen worden door kleinere, gespecialiseerde kleine taalmodellen (SLM's) tegen een dertigste van de kosten.

Onderzoekscontext en auteurschap

Deze studie is een position paper van de Deep Learning Efficiency Research Group van NVIDIA Research. Hoofdauteur Peter Belcak is AI-onderzoeker bij NVIDIA en richt zich op de betrouwbaarheid en efficiëntie van agentgebaseerde systemen. Het document beargumenteert drie pijlers:

SLM's zijn

voldoende krachtig
geschikt voor een operatie en
economisch noodzakelijk

voor veel toepassingen in agentische AI-systemen.

De onderzoekers benadrukken uitdrukkelijk dat de in dit artikel geuite standpunten die van de auteurs zijn en niet noodzakelijkerwijs het standpunt van NVIDIA als bedrijf weerspiegelen. NVIDIA nodigt uit tot kritische discussie en verbindt zich ertoe alle gerelateerde correspondentie op de bijbehorende website te publiceren.

Waarom gedecentraliseerde, kleinschalige programmeertaalmodellen de inzet op gecentraliseerde infrastructuur overbodig maken

Kunstmatige intelligentie bevindt zich op een keerpunt, waarvan de gevolgen doen denken aan de turbulentie van de dotcombubbel. Een onderzoeksrapport van NVIDIA heeft een fundamentele verkeerde allocatie van kapitaal aan het licht gebracht die de fundamenten van hun huidige AI-strategie doet wankelen. Terwijl de technologie-industrie 57 miljard dollar investeerde in gecentraliseerde infrastructuur voor grootschalige taalmodellen, groeide de daadwerkelijke markt voor het gebruik ervan tot slechts 5,6 miljard dollar. Deze discrepantie van tien op één duidt niet alleen op een overschatting van de vraag, maar legt ook een fundamentele strategische fout bloot met betrekking tot de toekomst van kunstmatige intelligentie.

Een slechte investering? Miljarden uitgegeven aan AI-infrastructuur – wat te doen met de overcapaciteit?

De cijfers spreken voor zich. Volgens diverse analyses bedroegen de wereldwijde uitgaven aan AI-infrastructuur in 2024 tussen de 80 en 87 miljard dollar, waarbij datacenters en accelerators het overgrote deel voor hun rekening namen. Microsoft kondigde investeringen van 80 miljard dollar aan voor het fiscale jaar 2025, Google verhoogde zijn prognose naar 91 tot 93 miljard dollar en Meta is van plan tot 70 miljard dollar te investeren. Deze drie hyperscalers vertegenwoordigen samen een investeringsvolume van meer dan 240 miljard dollar. De totale uitgaven aan AI-infrastructuur zouden volgens schattingen van McKinsey in 2030 kunnen oplopen tot tussen de 3,7 en 7,9 biljoen dollar.

Daarentegen is de realiteit aan de vraagzijde ontnuchterend. De markt voor Enterprise Large Language Models werd voor 2024 geschat op slechts $4 tot $6,7 miljard, met projecties voor 2025 variërend van $4,8 tot $8 miljard. Zelfs de meest optimistische schattingen voor de Generative AI-markt als geheel liggen tussen de $28 en $44 miljard voor 2024. De fundamentele discrepantie is duidelijk: de infrastructuur is gebouwd voor een markt die in deze vorm en omvang niet bestaat.

Deze verkeerde investering komt voort uit een aanname die steeds vaker onjuist blijkt: dat de toekomst van AI ligt in steeds grotere, gecentraliseerde modellen. Hyperscalers volgden een strategie van massale schaalvergroting, gedreven door de overtuiging dat het aantal parameters en de rekenkracht de doorslaggevende concurrentiefactoren waren. GPT-3, met 175 miljard parameters, werd in 2020 als een doorbraak beschouwd, en GPT-4, met meer dan een biljoen parameters, zette nieuwe standaarden. De industrie volgde deze logica blindelings en investeerde in een infrastructuur die ontworpen was voor de behoeften van modellen die voor de meeste toepassingen te groot zijn.

De investeringsstructuur illustreert duidelijk de verkeerde allocatie. In het tweede kwartaal van 2025 ging 98 procent van de 82 miljard dollar die werd besteed aan AI-infrastructuur naar servers, waarvan 91,8 procent naar GPU- en XPU-versnelde systemen. Hyperscalers en cloudproviders namen 86,7 procent van deze uitgaven voor hun rekening, oftewel ongeveer 71 miljard dollar in één kwartaal. Deze concentratie van kapitaal in zeer gespecialiseerde, extreem energie-intensieve hardware voor het trainen en berekenen van enorme modellen negeerde een fundamentele economische realiteit: de meeste bedrijfsapplicaties hebben deze capaciteit niet nodig.

Het paradigma is aan het veranderen: van gecentraliseerd naar gedecentraliseerd

NVIDIA zelf, de belangrijkste begunstigde van de recente infrastructuurboom, levert nu de analyse die dit paradigma ter discussie stelt. Onderzoek naar kleine taalmodellen als de toekomst van agentgebaseerde AI betoogt dat modellen met minder dan 10 miljard parameters niet alleen volstaan, maar operationeel superieur zijn voor de overgrote meerderheid van AI-toepassingen. De studie van drie grote open-source agentsystemen toonde aan dat 40 tot 70 procent van de aanroepen naar grote taalmodellen vervangen konden worden door gespecialiseerde kleine modellen zonder prestatieverlies.

Deze bevindingen schudden de fundamentele aannames van de bestaande investeringsstrategie door elkaar. Als MetaGPT 60 procent van zijn LLM-aanroepen, 40 procent van Open Operator en 70 procent van Cradle kan vervangen door SLM's, dan is er infrastructuurcapaciteit gecreëerd voor een vraag die op deze schaal nog niet bestaat. De economische situatie verandert drastisch: een Llama 3.1B Small Language Model kost tien tot dertig keer minder om te gebruiken dan zijn grotere tegenhanger, Llama 3.3 405B. Fijnafstemming kan in een paar GPU-uren worden uitgevoerd in plaats van weken. Veel SLM's draaien op consumentenhardware, waardoor de afhankelijkheid van de cloud volledig verdwijnt.

De strategische verschuiving is fundamenteel. De controle verschuift van infrastructuurproviders naar operators. Waar de vorige architectuur bedrijven dwong tot afhankelijkheid van een paar hyperscalers, maakt decentralisatie via SLM's nieuwe autonomie mogelijk. Modellen kunnen lokaal worden beheerd, data blijft binnen het bedrijf, API-kosten worden geëlimineerd en vendor lock-in wordt doorbroken. Dit is niet alleen een technologische transformatie, maar ook een transformatie van de machtsverhoudingen.

De eerdere inzet op gecentraliseerde, grootschalige modellen was gebaseerd op de aanname van exponentiële schaaleffecten. Empirische gegevens spreken dit echter steeds vaker tegen. Microsoft Phi-3, met 7 miljard parameters, behaalt code-generatieprestaties die vergelijkbaar zijn met modellen met 70 miljard parameters. NVIDIA Nemotron Nano 2, met 9 miljard parameters, presteert in redeneerbenchmarks zes keer beter dan Qwen3-8B, met een doorvoer die zes keer zo hoog is. De efficiëntie per parameter neemt toe bij kleinere modellen, terwijl grote modellen vaak slechts een fractie van hun parameters activeren voor een gegeven invoer – een inherente inefficiëntie.

De economische superioriteit van kleine taalmodellen

De kostenstructuur onthult de economische realiteit op een genadeloze manier. Het trainen van GPT-4-klassemodellen wordt geschat op meer dan 100 miljoen dollar, waarbij Gemini Ultra mogelijk 191 miljoen dollar kost. Zelfs het finetunen van grote modellen voor specifieke domeinen kan tienduizenden dollars aan GPU-tijd kosten. Daarentegen kunnen SLM's worden getraind en gefinetuned voor slechts een paar duizend dollar, vaak op één enkele high-end GPU.

De inferentiekosten laten nog drastischere verschillen zien. GPT-4 kost ongeveer $0,03 per 1.000 invoertokens en $0,06 per 1.000 uitvoertokens, wat neerkomt op $0,09 per gemiddelde query. Mistral 7B, als voorbeeld van een SLM-systeem, kost $0,0001 per 1.000 invoertokens en $0,0003 per 1.000 uitvoertokens, oftewel $0,0004 per query. Dit vertegenwoordigt een kostenbesparing met een factor 225. Bij miljoenen queries loopt dit verschil op tot aanzienlijke bedragen die de winstgevendheid direct beïnvloeden.

De totale eigendomskosten onthullen nog meer aspecten. Het zelf hosten van een model met 7 miljard parameters op bare-metal servers met L40S GPU's kost ongeveer $953 per maand. Cloudgebaseerde finetuning met AWS SageMaker op g5.2xlarge-instances kost $1,32 per uur, met potentiële trainingskosten vanaf $13 voor kleinere modellen. 24/7 inferentie-implementatie zou ongeveer $950 per maand kosten. Vergeleken met API-kosten voor continu gebruik van grote modellen, die gemakkelijk tienduizenden dollars per maand kunnen bedragen, wordt het economische voordeel duidelijk.

De snelheid van implementatie is een vaak onderschatte economische factor. Waar het verfijnen van een groot taalmodel weken kan duren, zijn SLM's binnen enkele uren of dagen gebruiksklaar. De flexibiliteit om snel te reageren op nieuwe eisen, nieuwe functionaliteiten toe te voegen of gedrag aan te passen, wordt een concurrentievoordeel. In snel veranderende markten kan dit tijdsverschil het verschil maken tussen succes en mislukking.

De schaalvoordelen keren zich om. Traditioneel werden schaalvoordelen gezien als het voordeel van hyperscalers, die enorme capaciteiten onderhouden en deze over vele klanten verdelen. Met SLM's kunnen echter zelfs kleinere organisaties efficiënt schalen, omdat de hardwarevereisten drastisch lager liggen. Een startup kan met een beperkt budget een gespecialiseerde SLM bouwen die voor zijn specifieke taak beter presteert dan een groot, generalistisch model. De democratisering van AI-ontwikkeling wordt een economische realiteit.

Technische grondbeginselen van disruptie

De technologische innovaties die SLM's mogelijk maken, zijn even belangrijk als hun economische implicaties. Kennisdestillatie, een techniek waarbij een kleiner leerlingmodel de kennis van een groter leraarmodel absorbeert, is zeer effectief gebleken. DistilBERT comprimeerde BERT met succes, en TinyBERT volgde vergelijkbare principes. Moderne benaderingen destilleren de mogelijkheden van grote generatieve modellen zoals GPT-3 tot aanzienlijk kleinere versies die vergelijkbare of betere prestaties leveren bij specifieke taken.

Het proces maakt gebruik van zowel de zachte labels (kansverdelingen) van het leermodel als de harde labels van de originele data. Deze combinatie stelt het kleinere model in staat om subtiele patronen te herkennen die verloren zouden gaan bij eenvoudige input-outputparen. Geavanceerde distillatietechnieken, zoals stapsgewijze distillatie, hebben aangetoond dat kleine modellen betere resultaten kunnen behalen dan LLM's, zelfs met minder trainingsdata. Dit verandert de economie fundamenteel: in plaats van dure, langdurige trainingssessies op duizenden GPU's volstaan gerichte distillatieprocessen.

Kwantisatie vermindert de precisie van de numerieke weergave van modelgewichten. In plaats van 32-bits of 16-bits drijvende-komma getallen gebruiken gekwantiseerde modellen 8-bits of zelfs 4-bits gehele getallen. De geheugenvereisten nemen evenredig af, de inferentiesnelheid neemt toe en het stroomverbruik daalt. Moderne kwantisatietechnieken minimaliseren het verlies aan nauwkeurigheid, waardoor de prestaties vaak vrijwel ongewijzigd blijven. Dit maakt implementatie mogelijk op edge-apparaten, smartphones en embedded systemen, wat onmogelijk zou zijn met volledig precieze, grote modellen.

Snoeien verwijdert overbodige verbindingen en parameters uit neurale netwerken. Net zoals bij het bewerken van een te lange tekst, worden niet-essentiële elementen geïdentificeerd en verwijderd. Gestructureerd snoeien verwijdert complete neuronen of lagen, terwijl ongestructureerd snoeien individuele gewichten verwijdert. De resulterende netwerkstructuur is efficiënter, vereist minder geheugen en rekenkracht, maar behoudt wel zijn kernfunctionaliteiten. In combinatie met andere compressietechnieken behalen gesnoeide modellen indrukwekkende efficiëntiewinsten.

Laag-rangfactorisatie ontleedt grote gewichtsmatrices in producten van kleinere matrices. In plaats van één matrix met miljoenen elementen, slaat het systeem twee aanzienlijk kleinere matrices op en verwerkt deze. De wiskundige bewerking blijft nagenoeg hetzelfde, maar de rekeninspanning wordt drastisch verminderd. Deze techniek is met name effectief in transformer-architecturen, waar aandachtmechanismen de overhand hebben bij grote matrixvermenigvuldigingen. De geheugenbesparing maakt grotere contextvensters of batchgroottes mogelijk met hetzelfde hardwarebudget.

De combinatie van deze technieken in moderne SLM's zoals de Microsoft Phi-serie, Google Gemma of NVIDIA Nemotron toont het potentieel aan. De Phi-2, met slechts 2,7 miljard parameters, presteert beter dan de Mistral- en Llama-2-modellen met respectievelijk 7 en 13 miljard parameters in geaggregeerde benchmarks en behaalt betere prestaties dan de 25 keer grotere Llama-2-70B in meerstaps redeneertaken. Dit werd bereikt door strategische dataselectie, het genereren van hoogwaardige synthetische data en innovatieve schaaltechnieken. De boodschap is duidelijk: grootte is niet langer een maatstaf voor capaciteit.

Marktdynamiek en substitutiepotentieel

Empirische bevindingen uit praktijktoepassingen ondersteunen de theoretische overwegingen. NVIDIA's analyse van MetaGPT, een framework voor de ontwikkeling van multi-agent software, wees uit dat ongeveer 60 procent van de LLM-aanvragen vervangbaar is. Deze taken omvatten het genereren van standaardcode, het opstellen van documentatie en het produceren van gestructureerde uitvoer – allemaal gebieden waar gespecialiseerde SLM's sneller en kosteneffectiever presteren dan algemene, grootschalige modellen.

Open Operator, een workflowautomatiseringssysteem, laat met zijn 40 procent vervangingspotentieel zien dat zelfs in complexe orchestratiescenario's veel subtaken niet de volledige capaciteit van LLM's vereisen. Intentieanalyse, sjabloongebaseerde uitvoer en routeringsbeslissingen kunnen efficiënter worden afgehandeld door fijn afgestemde, kleine modellen. De resterende 60 procent, die diepgaande redenering of brede wereldkennis vereist, rechtvaardigt het gebruik van grote modellen.

Cradle, een GUI-automatiseringssysteem, vertoont het hoogste substitutiepotentieel met 70 procent. Repetitieve UI-interacties, kliksequenties en formulierinvoer zijn bij uitstek geschikt voor SLM's. De taken zijn nauwkeurig gedefinieerd, de variabiliteit is beperkt en de eisen aan contextueel begrip zijn laag. Een gespecialiseerd model dat is getraind op GUI-interacties presteert beter dan een generalistisch LLM op het gebied van snelheid, betrouwbaarheid en kosten.

Deze patronen herhalen zich in verschillende toepassingsgebieden. Chatbots voor klantenservice met veelgestelde vragen, documentclassificatie, sentimentanalyse, named entity recognition, eenvoudige vertalingen, natuurlijke taalquery's voor databases – al deze taken profiteren van SLM's. Een onderzoek schat dat in typische AI-implementaties binnen bedrijven 60 tot 80 procent van de query's in categorieën vallen waarvoor SLM's volstaan. De implicaties voor de infrastructuurbehoefte zijn aanzienlijk.

Het concept van modelroutering wint aan belang. Intelligente systemen analyseren binnenkomende query's en routeren deze naar het juiste model. Eenvoudige query's gaan naar kostenefficiënte SLM's (Single Learning Models), terwijl complexe taken worden afgehandeld door krachtige LLM's (Language Learning Models). Deze hybride aanpak optimaliseert de balans tussen kwaliteit en kosten. Vroege implementaties melden kostenbesparingen tot wel 75 procent met dezelfde of zelfs betere algehele prestaties. De routeringslogica zelf kan een klein machine learning-model zijn dat rekening houdt met de complexiteit van de query, de context en de voorkeuren van de gebruiker.

De opkomst van platforms voor finetuning als service versnelt de adoptie. Bedrijven zonder diepgaande expertise in machine learning kunnen gespecialiseerde software learning-modellen (SLM's) bouwen die hun eigen data en domeinspecifieke kenmerken integreren. De benodigde tijdsinvestering wordt teruggebracht van maanden naar dagen en de kosten van honderdduizenden dollars naar duizenden. Deze toegankelijkheid democratiseert AI-innovatie fundamenteel en verschuift de waardecreatie van infrastructuurproviders naar applicatieontwikkelaars.

Een nieuwe dimensie van digitale transformatie met 'Managed AI' (kunstmatige intelligentie) - Platform- en B2B-oplossing | Xpert Consulting

Een nieuwe dimensie van digitale transformatie met 'Managed AI' (kunstmatige intelligentie) – Platform- en B2B-oplossing | Xpert Consulting - Afbeelding: Xpert.Digital

Hier leert u hoe uw bedrijf snel, veilig en zonder hoge drempels AI-oplossingen op maat kan implementeren.

Een beheerd AI-platform is uw allesomvattende, zorgeloze oplossing voor kunstmatige intelligentie. In plaats van te worstelen met complexe technologie, dure infrastructuur en langdurige ontwikkelprocessen, ontvangt u een kant-en-klare oplossing op maat van een gespecialiseerde partner – vaak al binnen enkele dagen.

De belangrijkste voordelen in één oogopslag:

⚡ Snelle implementatie: Van idee tot gebruiksklare applicatie in dagen, niet maanden. Wij leveren praktische oplossingen die direct toegevoegde waarde creëren.

🔒 Maximale gegevensbeveiliging: Uw gevoelige gegevens blijven bij u. Wij garanderen een veilige en conforme verwerking zonder gegevens met derden te delen.

💸 Geen financieel risico: u betaalt alleen voor de resultaten. Hoge investeringen vooraf in hardware, software of personeel zijn volledig uitgesloten.

🎯 Focus op uw kernactiviteiten: concentreer u op waar u het beste in bent. Wij zorgen voor de volledige technische implementatie, werking en het onderhoud van uw AI-oplossing.

📈 Toekomstbestendig en schaalbaar: Uw AI groeit met u mee. Wij garanderen continue optimalisatie en schaalbaarheid en passen de modellen flexibel aan nieuwe eisen aan.

Meer informatie vindt u hier:

De Managed AI Solution - Industriële AI-diensten: De sleutel tot concurrentievermogen in de dienstensector, de industrie en de machinebouw

Hoe gedecentraliseerde AI bedrijven miljarden aan kosten bespaart

De verborgen kosten van gecentraliseerde architecturen

Door zich uitsluitend te richten op de directe rekenkosten worden de totale kosten van gecentraliseerde LLM-architecturen onderschat. API-afhankelijkheden creëren structurele nadelen. Elke aanvraag genereert kosten die meegroeien met het gebruik. Voor succesvolle applicaties met miljoenen gebruikers worden API-kosten de dominante kostenfactor, waardoor de marges worden uitgehold. Bedrijven zitten gevangen in een kostenstructuur die evenredig groeit met het succes, zonder bijbehorende schaalvoordelen.

De prijsvolatiliteit van API-aanbieders vormt een bedrijfsrisico. Prijsverhogingen, quotabeperkingen of wijzigingen in de servicevoorwaarden kunnen de winstgevendheid van een applicatie van de ene op de andere dag tenietdoen. De recent aangekondigde capaciteitsbeperkingen door grote aanbieders, die gebruikers dwingen hun resources te rantsoeneren, illustreren de kwetsbaarheid van deze afhankelijkheid. Dedicated SLM's elimineren dit risico volledig.

Gegevenssoevereiniteit en compliance worden steeds belangrijker. De AVG in Europa, vergelijkbare regelgeving wereldwijd en de toenemende eisen op het gebied van datalokalisatie creëren complexe juridische kaders. Het verzenden van gevoelige bedrijfsgegevens naar externe API's die mogelijk in buitenlandse rechtsgebieden actief zijn, brengt risico's met zich mee op het gebied van regelgeving en recht. De sectoren gezondheidszorg, financiën en overheid hanteren vaak strenge eisen die het gebruik van externe API's uitsluiten of sterk beperken. On-premise SLM's bieden een fundamentele oplossing voor deze problemen.

De zorgen over intellectueel eigendom zijn reëel. Elk verzoek aan een API-aanbieder kan potentieel vertrouwelijke informatie blootleggen. Bedrijfslogica, productontwikkelingen, klantgegevens – dit alles zou theoretisch door de aanbieder kunnen worden geëxtraheerd en gebruikt. Contractuele bepalingen bieden slechts beperkte bescherming tegen onbedoelde lekken of kwaadwillenden. De enige echt veilige oplossing is om nooit gegevens extern te delen.

Latentie en betrouwbaarheid lijden onder netwerkafhankelijkheden. Elk cloud-API-verzoek gaat via de internetinfrastructuur, die onderhevig is aan netwerkjitter, pakketverlies en variabele round-trip-tijden. Voor realtime-applicaties zoals conversationele AI of besturingssystemen zijn deze vertragingen onacceptabel. Lokale SLM's reageren in milliseconden in plaats van seconden, ongeacht de netwerkcondities. De gebruikerservaring wordt hierdoor aanzienlijk verbeterd.

Strategische afhankelijkheid van een paar hyperscalers concentreert de macht en creëert systeemrisico's. AWS, Microsoft Azure, Google Cloud en een paar anderen domineren de markt. Uitval van deze diensten heeft een domino-effect op duizenden afhankelijke applicaties. De illusie van redundantie verdwijnt wanneer je bedenkt dat de meeste alternatieve diensten uiteindelijk afhankelijk zijn van dezelfde beperkte set modelaanbieders. Echte veerkracht vereist diversificatie, idealiter inclusief interne capaciteit.

Dit is hiermee gerelateerd:

Wat is beter: een gedecentraliseerde, gefedereerde, robuuste AI-infrastructuur of een AI-gigafabriek of een hyperscale AI-datacenter?

Edge computing als strategisch keerpunt

De convergentie van SLM's en edge computing zorgt voor een transformerende dynamiek. Edge computing brengt rekenkracht naar de plek waar data vandaan komt – IoT-sensoren, mobiele apparaten, industriële controllers en voertuigen. De latencyreductie is dramatisch: van seconden naar milliseconden, van cloud-roundtrip naar lokale verwerking. Voor autonome systemen, augmented reality, industriële automatisering en medische apparaten is dit niet alleen wenselijk, maar essentieel.

De bandbreedtebesparing is aanzienlijk. In plaats van continue datastromen naar de cloud, waar ze worden verwerkt en de resultaten worden teruggestuurd, vindt de verwerking lokaal plaats. Alleen relevante, geaggregeerde informatie wordt verzonden. In scenario's met duizenden edge-apparaten reduceert dit het netwerkverkeer aanzienlijk. De infrastructuurkosten dalen, netwerkcongestie wordt voorkomen en de betrouwbaarheid neemt toe.

De privacy is inherent beschermd. Gegevens verlaten het apparaat niet langer. Camerabeelden, audio-opnames, biometrische informatie, locatiegegevens – dit alles kan lokaal worden verwerkt zonder centrale servers te bereiken. Dit lost fundamentele privacyproblemen op die worden veroorzaakt door cloudgebaseerde AI-oplossingen. Voor consumententoepassingen is dit een onderscheidend kenmerk; voor gereguleerde sectoren is het een vereiste.

De energie-efficiëntie verbetert op meerdere niveaus. Gespecialiseerde edge AI-chips, geoptimaliseerd voor het uitvoeren van inferenties met kleine modellen, verbruiken een fractie van de energie van GPU's in datacenters. Het elimineren van datatransmissie bespaart energie in de netwerkinfrastructuur. Voor apparaten op batterijen wordt dit een kernfunctie. Smartphones, wearables, drones en IoT-sensoren kunnen AI-functies uitvoeren zonder de batterijduur drastisch te beïnvloeden.

Offline functionaliteit zorgt voor robuustheid. Edge AI werkt ook zonder internetverbinding. De functionaliteit blijft behouden in afgelegen gebieden, kritieke infrastructuur of rampensituaties. Deze onafhankelijkheid van netwerkbeschikbaarheid is essentieel voor veel toepassingen. Een autonoom voertuig kan niet vertrouwen op cloudconnectiviteit en een medisch apparaat mag niet uitvallen door een instabiele wifi-verbinding.

Kostenmodellen verschuiven van operationele naar kapitaaluitgaven. In plaats van doorlopende cloudkosten is er een eenmalige investering in edge-hardware. Dit wordt economisch aantrekkelijk voor langlopende applicaties met een hoog volume. Voorspelbare kosten verbeteren de budgetplanning en verminderen financiële risico's. Bedrijven krijgen weer controle over hun uitgaven aan AI-infrastructuur.

Voorbeelden illustreren het potentieel. NVIDIA ChatRTX maakt lokale LLM-inferentie mogelijk op consumenten-GPU's. Apple integreert AI op het apparaat zelf in iPhones en iPads, waarbij kleinere modellen direct op het apparaat draaien. Qualcomm ontwikkelt NPU's voor smartphones, specifiek voor edge AI. Google Coral en vergelijkbare platforms richten zich op IoT- en industriële toepassingen. De marktdynamiek laat een duidelijke trend naar decentralisatie zien.

Heterogene AI-architecturen als toekomstmodel

De toekomst ligt niet in absolute decentralisatie, maar in intelligente hybride architecturen. Heterogene systemen combineren edge-SLM's voor routinematige, latencygevoelige taken met cloud-LLM's voor complexe redeneervereisten. Deze complementariteit maximaliseert de efficiëntie en behoudt tegelijkertijd flexibiliteit en mogelijkheden.

De systeemarchitectuur bestaat uit verschillende lagen. Op de randlaag zorgen sterk geoptimaliseerde SLM's voor directe respons. Deze zullen naar verwachting 60 tot 80 procent van de verzoeken autonoom afhandelen. Voor ambigue of complexe vragen die niet voldoen aan de lokale betrouwbaarheidsdrempels, vindt escalatie plaats naar de fog computing-laag – regionale servers met modellen van gemiddelde grootte. Alleen echt moeilijke gevallen bereiken de centrale cloudinfrastructuur met grote, algemene modellen.

Modelgebaseerde routering wordt een cruciaal onderdeel. Routers die gebruikmaken van machine learning analyseren de kenmerken van verzoeken: tekstlengte, complexiteitsindicatoren, domeinsignalen en gebruikersgeschiedenis. Op basis van deze kenmerken wordt het verzoek toegewezen aan het juiste model. Moderne routers bereiken een nauwkeurigheid van meer dan 95% bij het inschatten van de complexiteit. Ze optimaliseren continu op basis van de werkelijke prestaties en de afweging tussen kosten en kwaliteit.

Mechanismen voor kruislingse aandacht in geavanceerde routeringssystemen modelleren expliciet de interacties tussen query en model. Dit maakt genuanceerde beslissingen mogelijk: is Mistral-7B voldoende, of is GPT-4 vereist? Kan Phi-3 dit aan, of is Claude nodig? De fijnmazige aard van deze beslissingen, toegepast op miljoenen queries, leidt tot aanzienlijke kostenbesparingen met behoud of verbetering van de gebruikerstevredenheid.

Het karakteriseren van de werklast is essentieel. Agentische AI-systemen bestaan uit orkestratie, redenering, toolaanroepen, geheugenbewerkingen en uitvoergeneratie. Niet alle componenten vereisen dezelfde rekenkracht. Orkestratie en toolaanroepen zijn vaak regelgebaseerd of vereisen minimale intelligentie – ideaal voor SLM's. Redenering kan hybride zijn: eenvoudige inferentie op SLM's, complexe redenering in meerdere stappen op LLM's. Uitvoergeneratie voor sjablonen maakt gebruik van SLM's, creatieve tekstgeneratie maakt gebruik van LLM's.

Optimalisatie van de totale eigendomskosten (TCO) houdt rekening met de heterogeniteit van de hardware. High-end H100 GPU's worden gebruikt voor kritieke LLM-workloads, mid-tier A100 of L40S voor mid-range modellen en kosteneffectieve T4 of voor inferentie geoptimaliseerde chips voor SLM's. Deze granulariteit maakt een nauwkeurige afstemming van de workloadvereisten op de hardwaremogelijkheden mogelijk. Eerste studies tonen een reductie van 40 tot 60 procent in de TCO ten opzichte van homogene high-end implementaties.

Orchestratie vereist geavanceerde softwarestacks. Kubernetes-gebaseerde clustermanagementsystemen, aangevuld met AI-specifieke schedulers die de modelkenmerken begrijpen, zijn essentieel. Load balancing houdt niet alleen rekening met het aantal verzoeken per seconde, maar ook met tokenlengtes, het geheugenverbruik van modellen en latentiedoelen. Autoscaling reageert op vraagpatronen door extra capaciteit te leveren of af te schalen tijdens perioden van lage belasting.

Duurzaamheid en energie-efficiëntie

De milieu-impact van AI-infrastructuur wordt een steeds belangrijker thema. Het trainen van één groot taalmodel kan net zoveel energie verbruiken als een kleine stad in een jaar. Datacenters die AI-workloads draaien, zouden tegen 2028 20 tot 27 procent van de wereldwijde energiebehoefte van datacenters kunnen uitmaken. Prognoses schatten dat AI-datacenters tegen 2030 wel 8 gigawatt nodig zouden kunnen hebben voor individuele trainingssessies. De CO2-uitstoot zal vergelijkbaar zijn met die van de luchtvaartindustrie.

De energie-intensiteit van grote modellen neemt onevenredig toe. Het stroomverbruik van GPU's is in drie jaar tijd verdubbeld, van 400 naar meer dan 1000 watt. NVIDIA GB300 NVL72-systemen, ondanks innovatieve technologie voor het stabiliseren van het stroomverbruik die de piekbelasting met 30 procent verlaagt, verbruiken enorme hoeveelheden energie. De koelinfrastructuur voegt daar nog eens 30 tot 40 procent aan toe. De totale CO2-uitstoot van AI-infrastructuur zou tegen 2030 met 220 miljoen ton kunnen toenemen, zelfs met optimistische aannames over de decarbonisatie van het elektriciteitsnet.

Small Language Models (SLM's) bieden fundamentele efficiëntievoordelen. Training vereist 30 tot 40 procent van de rekenkracht van vergelijkbare LLM's. De training van BERT kost ongeveer € 10.000, vergeleken met honderden miljoenen voor GPT-4-klassemodellen. Het energieverbruik voor inferentie is navenant lager. Een SLM-query kan 100 tot 1.000 keer minder energie verbruiken dan een LLM-query. Over miljoenen queries loopt dit op tot enorme besparingen.

Edge computing versterkt deze voordelen. Lokale verwerking elimineert de energie die nodig is voor gegevensoverdracht via netwerken en de backbone-infrastructuur. Gespecialiseerde edge AI-chips bereiken een energie-efficiëntie die vele malen beter is dan die van GPU's in datacenters. Smartphones en IoT-apparaten met NPU's van milliwatt in plaats van servers van honderden watt illustreren het verschil in schaal.

Het gebruik van hernieuwbare energiebronnen wordt steeds belangrijker. Google streeft naar 100% CO2-vrije energie in 2030 en Microsoft naar CO2-negativiteit. De enorme omvang van de energievraag brengt echter uitdagingen met zich mee. Zelfs met hernieuwbare bronnen blijven de vragen over netcapaciteit, opslag en de wisselvalligheid van energiebronnen bestaan. Small-level modules (SLM's) verminderen de absolute vraag, waardoor de overgang naar groene AI haalbaarder wordt.

Koolstofbewust computergebruik optimaliseert de werkbelastingplanning op basis van de koolstofintensiteit van het elektriciteitsnet. Trainingssessies worden gestart wanneer het aandeel hernieuwbare energie in het net maximaal is. Inferentieverzoeken worden doorgestuurd naar regio's met schonere energie. Deze temporele en geografische flexibiliteit, gecombineerd met de efficiëntie van SLM's, zou de CO2-uitstoot met 50 tot 70 procent kunnen verminderen.

Het regelgevingslandschap wordt steeds strenger. De EU-wetgeving inzake kunstmatige intelligentie (AI) omvat verplichte milieueffectrapportages voor bepaalde AI-systemen. Rapportage over CO2-uitstoot wordt steeds meer de norm. Bedrijven met inefficiënte, energie-intensieve infrastructuren lopen het risico op nalevingsproblemen en reputatieschade. De toepassing van software learning-modellen (SLM's) en edge computing evolueert van een wenselijke optie naar een noodzaak.

Democratisering versus concentratie

De afgelopen tijd heeft de macht op het gebied van AI geconcentreerd in de handen van een paar sleutelspelers. De Magnificent Seven – Microsoft, Google, Meta, Amazon, Apple, NVIDIA en Tesla – domineren. Deze hyperscalers controleren de infrastructuur, de modellen en in toenemende mate de gehele waardeketen. Hun gezamenlijke marktwaarde bedraagt meer dan 15 biljoen dollar. Ze vertegenwoordigen bijna 35 procent van de marktwaarde van de S&P 500, een concentratierisico van ongekende historische omvang.

Deze concentratie heeft systemische gevolgen. Een paar bedrijven stellen de normen vast, definiëren API's en controleren de toegang. Kleinere spelers en ontwikkelingslanden worden afhankelijk. De digitale soevereiniteit van landen komt onder druk te staan. Europa, Azië en Latijns-Amerika reageren met nationale AI-strategieën, maar de dominantie van de Amerikaanse hyperscalers blijft overweldigend.

Small Language Models (SLM's) en decentralisatie veranderen deze dynamiek. Open-source SLM's zoals Phi-3, Gemma, Mistral en Llama democratiseren de toegang tot de nieuwste technologie. Universiteiten, startups en middelgrote bedrijven kunnen concurrerende applicaties ontwikkelen zonder de middelen van hyperscalers. De innovatiedrempel wordt drastisch verlaagd. Een klein team kan een gespecialiseerd SLM creëren dat in zijn niche beter presteert dan Google of Microsoft.

De economische haalbaarheid verschuift in het voordeel van kleinere spelers. Terwijl de ontwikkeling van LLM-modellen budgetten van honderden miljoenen vereist, zijn SLM-modellen haalbaar met bedragen van vijf tot zes cijfers. De democratisering van de cloud maakt on-demand toegang tot trainingsinfrastructuur mogelijk. Diensten voor finetuning abstraheren de complexiteit. De drempel voor AI-innovatie daalt van onbetaalbaar hoog naar beheersbaar.

Datasoevereiniteit wordt werkelijkheid. Bedrijven en overheden kunnen modellen hosten die nooit externe servers bereiken. Gevoelige gegevens blijven onder hun eigen controle. De naleving van de AVG wordt vereenvoudigd. De EU-wetgeving inzake kunstmatige intelligentie, die strenge eisen stelt aan transparantie en verantwoording, wordt beter beheersbaar met eigen modellen in plaats van ondoorzichtige API's.

De diversiteit aan innovaties neemt toe. In plaats van een monocultuur van GPT-achtige modellen, ontstaan er duizenden gespecialiseerde SLM's voor specifieke domeinen, talen en taken. Deze diversiteit is robuust tegen systematische fouten, verhoogt de concurrentie en versnelt de vooruitgang. Het innovatielandschap wordt polycentrisch in plaats van hiërarchisch.

De risico's van concentratie worden steeds duidelijker. Afhankelijkheid van een paar aanbieders creëert single points of failure. Uitvallen bij AWS of Azure leggen wereldwijde diensten lam. Politieke beslissingen van een hyperscaler, zoals gebruiksbeperkingen of regionale blokkades, hebben een domino-effect. Decentralisatie via SLM's vermindert deze systeemrisico's fundamenteel.

De strategische heroriëntatie

Voor bedrijven betekent deze analyse fundamentele strategische aanpassingen. De investeringsprioriteiten verschuiven van gecentraliseerde cloudinfrastructuur naar heterogene, gedistribueerde architecturen. In plaats van maximale afhankelijkheid van hyperscaler-API's, is het doel autonomie door middel van interne SLM's (Service Level Management). De ontwikkeling van vaardigheden richt zich op het verfijnen van modellen, edge-implementatie en hybride orkestratie.

De afweging tussen zelf ontwikkelen en kopen verandert. Waar het kopen van API-toegang voorheen als rationeel werd beschouwd, wordt het ontwikkelen van gespecialiseerde SLM's in eigen huis steeds aantrekkelijker. De totale eigendomskosten over een periode van drie tot vijf jaar zijn duidelijk lager bij interne modellen. Strategische controle, gegevensbeveiliging en aanpasbaarheid bieden bovendien nog meer kwalitatieve voordelen.

Voor beleggers duidt deze verkeerde allocatie op voorzichtigheid ten aanzien van pure infrastructuurbeleggingen. Datacenter-REIT's, GPU-fabrikanten en hyperscalers zouden te maken kunnen krijgen met overcapaciteit en een dalende benutting als de vraag niet aan de verwachtingen voldoet. Waardeverschuivingen vinden plaats naar aanbieders van SLM-technologie, edge AI-chips, orchestratiesoftware en gespecialiseerde AI-toepassingen.

De geopolitieke dimensie is significant. Landen die prioriteit geven aan nationale AI-soevereiniteit profiteren van de verschuiving naar schaalvergroting. China investeert 138 miljard dollar in binnenlandse technologie en Europa investeert 200 miljard dollar in InvestAI. Deze investeringen zullen effectiever zijn wanneer absolute schaalvergroting niet langer de doorslaggevende factor is, maar slimme, efficiënte en gespecialiseerde oplossingen. De multipolaire AI-wereld wordt werkelijkheid.

Het regelgevingskader ontwikkelt zich parallel daaraan. Gegevensbescherming, verantwoordingsplicht voor algoritmes, milieunormen – al deze aspecten bevorderen gedecentraliseerde, transparante en efficiënte systemen. Bedrijven die vroegtijdig gebruikmaken van SLM's en edge computing positioneren zichzelf gunstig voor naleving van toekomstige regelgeving.

Het talentenlandschap verandert. Waar voorheen alleen elite-universiteiten en toonaangevende technologiebedrijven de middelen hadden voor LLM-onderzoek, kan nu vrijwel elke organisatie SLM's ontwikkelen. Het tekort aan vaardigheden dat 87 procent van de organisaties ervan weerhoudt AI-specialisten in te huren, wordt verlicht door lagere complexiteit en betere tools. De productiviteitswinsten die voortvloeien uit AI-ondersteunde ontwikkeling versterken dit effect.

De manier waarop we de ROI van AI-investeringen meten, verandert. In plaats van te focussen op pure rekenkracht, wordt efficiëntie per taak de belangrijkste maatstaf. Bedrijven rapporteren een gemiddelde ROI van 5,9 procent op AI-initiatieven, aanzienlijk lager dan verwacht. De reden hiervoor ligt vaak in het gebruik van te grote, dure oplossingen voor eenvoudige problemen. De overstap naar taakgeoptimaliseerde software learning-modellen (SLM's) kan deze ROI drastisch verbeteren.

De analyse onthult een industrie op een keerpunt. De misinvestering van 57 miljard dollar is meer dan alleen een overschatting van de vraag. Het vertegenwoordigt een fundamentele strategische misrekening met betrekking tot de architectuur van kunstmatige intelligentie. De toekomst behoort niet toe aan gecentraliseerde giganten, maar aan gedecentraliseerde, gespecialiseerde en efficiënte systemen. Kleine taalmodellen zijn niet inferieur aan grote taalmodellen – ze zijn superieur voor de overgrote meerderheid van de toepassingen in de praktijk. De economische, technische, ecologische en strategische argumenten komen samen in een duidelijke conclusie: de AI-revolutie zal gedecentraliseerd zijn.

De machtsverschuiving van aanbieders naar beheerders, van hyperscalers naar applicatieontwikkelaars, van centralisatie naar distributie markeert een nieuwe fase in de evolutie van AI. Degenen die deze transitie vroegtijdig herkennen en omarmen, zullen de winnaars zijn. Wie vasthoudt aan de oude logica, riskeert dat zijn dure infrastructuren waardeloos worden en ingehaald worden door flexibelere en efficiëntere alternatieven. De 57 miljard dollar is niet alleen verspild, maar markeert ook het begin van het einde voor een paradigma dat al achterhaald is.

Uw wereldwijde partner voor marketing en bedrijfsontwikkeling

☑️ Onze zakelijke voertaal is Engels of Duits

☑️ NIEUW: Correspondentie in uw moedertaal!

Konrad Wolfenstein

Mijn team en ik staan graag tot uw beschikking als uw persoonlijke adviseur.

U kunt contact met mij opnemen door hier het contactformulier in te vullen of door mij te bellen op +49 89 89 674 804 ( München) . Mijn e-mailadres is: [email protected]

Ik kijk uit naar ons gezamenlijke project.

☑️ Ondersteuning van het MKB op het gebied van strategie, advies, planning en implementatie

☑️ Opstellen of herzien van de digitale strategie en digitalisering

☑️ Uitbreiding en optimalisatie van internationale verkoopprocessen

☑️ Wereldwijde en digitale B2B-handelsplatformen

☑️ Pionier in bedrijfsontwikkeling / marketing / PR / beurzen

🎯🎯🎯 Profiteer van de uitgebreide, vijfvoudige expertise van Xpert.Digital in één compleet servicepakket | Business Development, R&D, XR, PR & Optimalisatie van digitale zichtbaarheid

Profiteer van de uitgebreide, vijfvoudige expertise van Xpert.Digital in een compleet servicepakket | R&D, XR, PR & Optimalisatie van digitale zichtbaarheid - Afbeelding: Xpert.Digital

Xpert.Digital beschikt over diepgaande kennis van diverse sectoren. Hierdoor kunnen we strategieën op maat ontwikkelen die precies aansluiten op de behoeften en uitdagingen van uw specifieke marktsegment. Door continu markttrends te analyseren en ontwikkelingen in de sector te volgen, kunnen we proactief handelen en innovatieve oplossingen bieden. De combinatie van ervaring en expertise genereert toegevoegde waarde en geeft onze klanten een doorslaggevend concurrentievoordeel.