
AI-confrontatie op de ARC-benchmark voor AI-modellen: GPT-5 vs. Grok vs. o3 – Afbeelding: Xpert.Digital
De grote desillusie: Waarom steeds grotere AI-modellen falen voor de cruciale intelligentietest
Wat is de ARC-AGI-benchmark en waarom is deze ontwikkeld?
De ARC-AGI-benchmark is een testreeks voor het meten van de algemene intelligentie van AI-systemen, ontwikkeld in 2019 door François Chollet. ARC staat voor "Abstraction and Reasoning Corpus for Artificial General Intelligence" (Abstractie- en redeneercorpus voor kunstmatige algemene intelligentie). De benchmark is ontwikkeld om het vermogen van AI-systemen te evalueren om nieuwe taken te begrijpen en op te lossen waarvoor ze niet expliciet zijn getraind.
De ontwikkeling van de benchmark is gebaseerd op Chollets definitie van intelligentie uit zijn baanbrekende artikel "On the Measure of Intelligence". Hij betoogt dat ware intelligentie niet schuilt in het beheersen van specifieke taken, maar in de efficiëntie waarmee nieuwe vaardigheden worden aangeleerd. De test bestaat uit visuele puzzels met gekleurde roosters, waarbij AI-systemen de onderliggende transformatieregels moeten identificeren en deze moeten toepassen op nieuwe voorbeelden.
Waarin verschilt ARC-AGI van andere AI-benchmarks?
In tegenstelling tot conventionele AI-tests, die vaak een beroep doen op voorkennis of aangeleerde patronen, richt ARC-AGI zich op zogenaamde "kernkennis"—fundamentele cognitieve vaardigheden zoals objectpermanentie, tellen en ruimtelijk inzicht. Deze vaardigheden worden doorgaans door mensen rond hun vierde levensjaar verworven.
Het cruciale verschil zit hem in het feit dat ARC-AGI specifiek is ontworpen om onoplosbaar te zijn door louter memorisatie of data-interpolatie. Elke taak in de benchmark is uniek en is speciaal voor de test ontwikkeld, waardoor er online geen voorbeelden van te vinden zijn. Dit maakt de test bestand tegen de gebruikelijke strategieën van AI-systemen die afhankelijk zijn van grote trainingsdatasets.
Wat zijn de verschillende versies van de ARC-AGI-benchmark?
Er zijn nu drie hoofdversies van de benchmark:
ARC-AGI-1
De originele versie uit 2019 bestaat uit statische visuele puzzels. Mensen behalen gemiddeld een score van 95% in dit spel, terwijl de meeste AI-systemen al lange tijd onder de 5% scoren.
ARC-AGI-2
Deze verbeterde versie werd uitgebracht in 2025 en is specifiek ontworpen om zelfs moderne redeneersystemen voor een uitdaging te stellen. Terwijl mensen nog steeds bijna 100% succes behalen, slagen zelfs geavanceerde AI-modellen er slechts in om 10-20% van de taken uit te voeren.
ARC-AGI-3
De nieuwste versie, die nog in ontwikkeling is, introduceert interactieve elementen. In plaats van statische puzzels moeten AI-agenten leren door te verkennen en te experimenteren in een rasterwereld, net zoals mensen nieuwe omgevingen verkennen.
Hoe presteren de verschillende AI-modellen in de ARC-AGI-tests?
De prestatieverschillen tussen verschillende AI-modellen zijn aanzienlijk:
Voor ARC-AGI-1 behaalt Grok 4 een nauwkeurigheid van ongeveer 68%, terwijl GPT-5 een nauwkeurigheid van 65,7% bereikt. De kosten per taak bedragen ongeveer US$ 1 voor Grok 4 en US$ 0,51 voor GPT-5.
Bij ARC-AGI-2, de moeilijkere test, daalt de prestatie drastisch: GPT-5 behaalt slechts 9,9% tegen een kostprijs van $0,73 per taak, terwijl Grok 4 (Thinking) beter presteert met ongeveer 16%, maar tegen een aanzienlijk hogere kostprijs van $2-4.
Zoals verwacht presteren de goedkopere modelvarianten minder goed: de GPT-5 Mini behaalt 54,3% op AGI-1 en 4,4% op AGI-2, terwijl de GPT-5 Nano respectievelijk slechts 16,5% en 2,5% haalt.
Wat is het geheim achter het o3 preview-model?
Het o3-previewmodel van OpenAI is een bijzonder geval. In december 2024 behaalde het indrukwekkende prestatiescores van 75,7% tot 87,5% op ARC-AGI-1, afhankelijk van de gebruikte rekenkracht. Dit was de eerste keer dat een AI-systeem de menselijke prestatielimiet van 85% overtrof.
Er is echter één belangrijke beperking: de publiekelijk beschikbare versie van o3 presteert aanzienlijk slechter dan de oorspronkelijke previewversie. Volgens ARC Prize behaalt de uitgebrachte versie van o3 slechts 41% (lage rekenkracht) en 53% (gemiddelde rekenkracht) op ARC-AGI-1, vergeleken met de 76-88% van de previewversie.
OpenAI bevestigde dat het gepubliceerde model een andere, kleinere architectuur heeft en geoptimaliseerd is voor chat- en producttoepassingen. Deze discrepantie roept vragen op over de werkelijke mogelijkheden van het model en benadrukt het belang van een kritische evaluatie van benchmarkresultaten van niet-gepubliceerde modellen.
Hoe werkt de ARC Prize-competitie?
De ARC Prize is een jaarlijkse wedstrijd met een totale prijzenpot van meer dan een miljoen Amerikaanse dollar, die tot doel heeft de ontwikkeling van open-source software voor AGI (Actively Generic Architecture) te bevorderen. De huidige editie van 2025 vindt plaats van 26 maart tot en met 3 november op het Kaggle-platform.
De prijsstructuur omvat:
- Hoofdprijs (USD 700.000): Wordt vrijgegeven wanneer een team een nauwkeurigheid van 85% behaalt op de besloten evaluatiedataset
- Prijs voor de hoogste score (USD 75.000): Voor de teams met de hoogste scores
- Prijs voor beste artikel (USD 50.000): Voor de meest significante conceptuele vernieuwingen
- Overige prijzen (USD 175.000): Aanvullende categorieën worden nog bekendgemaakt
Het is belangrijk dat alle winnaars hun oplossingen als open source publiceren. Dit sluit aan bij de missie van de ARC Prize Foundation om AGI-doorbraken toegankelijk te maken voor de gehele onderzoeksgemeenschap.
Wat zijn de technische uitdagingen van de ARC-AGI-benchmark?
De taken in ARC-AGI vereisen verschillende cognitieve vaardigheden die voor mensen vanzelfsprekend zijn, maar extreem moeilijk voor AI-systemen:
Symbolische interpretatie
AI moet abstracte symbolen begrijpen en hun betekenis afleiden uit de context.
Compositieproces in meerdere fasen
Problemen moeten worden opgedeeld in deelstappen en in de juiste volgorde worden opgelost.
Contextafhankelijke regeltoepassing
Dezelfde regel moet mogelijk op verschillende manieren worden toegepast, afhankelijk van de context.
Generalisatie op basis van enkele voorbeelden
Doorgaans zijn er slechts 2-3 demonstratieparen beschikbaar waaruit de transformatieregel moet worden afgeleid.
Welke rol speelt training tijdens de testfase bij het oplossen van ARC-AGI?
Test-Time Training (TTT) is een veelbelovende aanpak gebleken voor het verbeteren van de prestaties van ARC-AGI. Deze methode past de modelparameters dynamisch aan de actuele invoergegevens aan tijdens de inferentie, in plaats van uitsluitend te vertrouwen op vooraf getrainde kennis.
Onderzoekers van MIT hebben aangetoond dat TTT de prestaties van taalmodellen op ARC-AGI aanzienlijk verbetert. De methode stelt de modellen in staat zich aan te passen tijdens het oplossen van taken en te leren van specifieke voorbeelden. Dit bootst menselijk probleemoplossend gedrag na, waarbij we meer tijd besteden aan moeilijke problemen.
EU/DE-gegevensbeveiliging | Integratie van een onafhankelijk en data-overkoepelend AI-platform voor alle zakelijke behoeften
Onafhankelijke AI-platformen als strategisch alternatief voor Europese bedrijven - Afbeelding: Xpert.Digital
Een gamechanger voor AI: het meest flexibele AI-platform - oplossingen op maat die kosten verlagen, uw besluitvorming verbeteren en de efficiëntie verhogen
Onafhankelijk AI-platform: integreert alle relevante bedrijfsgegevensbronnen
- Snelle AI-integratie: op maat gemaakte AI-oplossingen voor bedrijven in uren of dagen, in plaats van maanden
- Flexibele infrastructuur: cloudgebaseerd of hosting in uw eigen datacenter (Duitsland, Europa, vrije locatiekeuze)
- Maximale gegevensbeveiliging: het gebruik ervan in advocatenkantoren is daar het onweerlegbare bewijs van
- Implementatie over een breed scala aan bedrijfsgegevensbronnen
- Keuze uit eigen of andere AI-modellen (DE, EU, VS, CN)
Meer informatie vindt u hier:
Kunstmatige intelligentie voorbij schaalvergroting: inzichten uit de ARC-AGI-test
Wat betekenen deze resultaten voor de ontwikkeling van AGI?
De resultaten tonen een aanzienlijke kloof aan tussen menselijke en kunstmatige intelligentie. Terwijl mensen ARC-AGI-taken intuïtief oplossen, falen zelfs de meest geavanceerde AI-systemen bij basale cognitieve taken.
François Chollet betoogt dat het huidige paradigma voor AI-ontwikkeling – het trainen van steeds grotere modellen met meer data – zijn grenzen heeft bereikt. De slechte resultaten op ARC-AGI, ondanks exponentiële toenames in modelgrootte, bewijzen volgens hem dat "vloeiende intelligentie niet ontstaat door het opschalen van pre-training".
De toekomst ligt mogelijk in nieuwe benaderingen zoals Test-Time Adaptation, waarbij modellen hun eigen toestand tijdens de uitvoering kunnen wijzigen om zich aan te passen aan nieuwe situaties.
Hoe ziet de toekomst van de ARC-AGI-benchmark eruit?
De ARC Prize Foundation is van plan de benchmark continu verder te ontwikkelen. ARC-AGI-3, met zijn interactieve elementen, zal naar verwachting in 2026 volledig worden uitgebracht en ongeveer 100 unieke omgevingen bevatten.
De stichting streeft ernaar benchmarks te ontwikkelen die als leidraad kunnen dienen voor de ontwikkeling van AGI. Dit houdt niet alleen in dat de vooruitgang wordt gemeten, maar ook dat onderzoek wordt gestuurd in richtingen die kunnen leiden tot echte algemene intelligentie.
Wat zijn de economische gevolgen van benchmarkprestaties?
De kosten voor het oplossen van ARC-AGI-problemen variëren sterk tussen modellen en hebben een directe invloed op de praktische toepasbaarheid.
Hoewel eenvoudige taken kunnen worden opgelost met API-kosten van een paar cent, lopen de kosten voor complexe redeneertaken snel op. Het o3-model kan bijvoorbeeld tot wel $1.000 per taak kosten bij een hoge rekenkracht.
Deze kostenstructuur laat zien dat, zelfs als er technologische doorbraken worden bereikt, economische haalbaarheid een cruciale factor blijft voor de wijdverspreide toepassing van AGI-technologieën.
Wat zijn de filosofische implicaties van de ARC-AGI-resultaten?
De resultaten roepen fundamentele vragen op over de aard van intelligentie. De benchmark toont aan dat er een fundamenteel verschil bestaat tussen het onthouden van patronen en werkelijk begrip.
Het feit dat mensen deze taken moeiteloos oplossen, terwijl AI-systemen falen, suggereert dat menselijke intelligentie kwalitatief anders functioneert dan de huidige AI-benaderingen. Dit ondersteunt Chollets argument dat AGI meer vereist dan alleen grotere modellen en meer data.
Welke invloed heeft ARC-AGI op de richting van AI-onderzoek?
De benchmark heeft al geleid tot een heroverweging in AI-onderzoek. In plaats van zich uitsluitend te richten op het schalen van modellen, onderzoeken toonaangevende laboratoria nu alternatieve benaderingen zoals test-time compute en adaptieve systemen.
Deze verschuiving is ook terug te zien in investeringen: bedrijven investeren steeds vaker in onderzoek naar efficiëntere redeneer- en probleemoplossingsmethoden in plaats van steeds grotere trainingssessies.
Welke rol speelt de open-sourcegemeenschap?
De ARC Prize Foundation benadrukt het belang van open-source ontwikkeling voor de vooruitgang van AGI. Alle winnaars van de wedstrijd moeten hun oplossingen publiekelijk beschikbaar stellen.
Deze filosofie is gebaseerd op de overtuiging dat AGI te belangrijk is om uitsluitend in gesloten laboratoria te worden ontwikkeld. De stichting ziet zichzelf als een katalysator voor een samenwerkingsgerichte, transparante onderzoeksgemeenschap.
Wat zijn de beperkingen van de ARC-AGI-benchmark?
Ondanks het belang ervan kent ARC-AGI ook beperkingen. Chollet zelf benadrukt dat het slagen voor de test niet hetzelfde is als het bereiken van AGI. De benchmark meet slechts één aspect van intelligentie: het vermogen om abstracte problemen op te lossen.
Andere belangrijke aspecten, zoals creativiteit, emotionele intelligentie of langetermijnplanning, worden niet beoordeeld. Bovendien bestaat het risico dat systemen die specifiek geoptimaliseerd zijn voor ARC-AGI de test doorstaan zonder in werkelijkheid over algemene intelligentie te beschikken.
Hoe hoog zijn de kosten voor de ontwikkeling van AI-modellen in de context van ARC-AGI?
De kostenontwikkeling laat interessante trends zien. Terwijl de prestaties slechts langzaam verbeteren, rijzen de kosten voor marginale verbeteringen explosief.
Deze kostendynamiek leidt tot een belangrijk inzicht: efficiëntie wordt de doorslaggevende factor. De ARC Prize Foundation benadrukt dat niet alleen nauwkeurigheid, maar ook de kosten per opgelost probleem een cruciaal criterium zijn.
Wat betekent ARC-AGI voor de toekomst van werk?
De resultaten hebben geruststellende implicaties voor veel beroepen. Het feit dat AI-systemen niet in staat zijn om eenvoudige denkprocessen op te lossen, toont aan dat menselijke cognitieve vermogens nog lang niet vervangen zijn.
Tegelijkertijd wijst de vooruitgang in gespecialiseerde taken erop dat AI een hulpmiddel zal blijven ter ondersteuning van menselijk werk, in plaats van het volledig te vervangen.
Welke nieuwe onderzoeksbenaderingen komen voort uit ARC-AGI?
De benchmark heeft geleid tot diverse innovatieve onderzoeksrichtingen:
Programmasynthese
Systemen die programma's genereren om problemen op te lossen.
Neurosymbolische benaderingen
Combinatie van neurale netwerken met symbolisch redeneren.
Multiagentsystemen
Verschillende gespecialiseerde agenten werken samen.
Evolutionaire algoritmen
Systemen die oplossingen ontwikkelen door middel van evolutie.
Wat is de toekomstvisie van de ARC Prize Foundation?
De stichting streeft een duidelijke missie na: fungeren als een "leidraad" voor de ontwikkeling van open AGI. Dit omvat niet alleen technische benchmarks, maar ook het creëren van een ecosysteem dat innovatie stimuleert en ervoor zorgt dat AGI-vooruitgang de hele mensheid ten goede komt.
De continue ontwikkeling van nieuwe benchmarkversies moet ervoor zorgen dat de lat steeds hoger wordt gelegd en dat onderzoek niet stagneert. Met ARC-AGI-3 en toekomstige versies wil de Stichting de grenzen van wat AI kan doen en wat er nog ontbreekt verder verkennen.
Wij staan voor u klaar - Advies - Planning - Implementatie - Projectmanagement
☑️ Ondersteuning van het MKB op het gebied van strategie, advies, planning en implementatie
☑️ Opzetten of herzien van de AI-strategie
☑️ Pionier in bedrijfsontwikkeling
Ik sta graag tot uw beschikking als uw persoonlijke adviseur.
U kunt contact met mij opnemen door onderstaand contactformulier in te vullen of mij te bellen op +49 7348 4088 965 .
Ik kijk uit naar ons gezamenlijke project.
Xpert.Digital - Konrad Wolfenstein
Xpert.Digital is een platform voor de industrie, gericht op digitalisering, werktuigbouwkunde, logistiek/intralogistiek en fotovoltaïsche energie.
Met onze 360°-oplossing voor bedrijfsontwikkeling ondersteunen we gerenommeerde bedrijven van acquisitie tot aftersales.
Marktinformatie, social media marketing, marketingautomatisering, contentontwikkeling, PR, mailcampagnes, gepersonaliseerde social media en lead nurturing behoren tot onze digitale tools.
Meer informatie vindt u op: www.xpert.digital - www.xpert.solar - www.xpert.plus

