Website -pictogram Xpert.Digital

AI-confrontatie op de ARC-benchmark van AI-modellen: GPT-5 vs. Grok vs. o3

AI-confrontatie op de ARC-benchmark van AI-modellen: GPT-5 vs. Grok vs. o3

AI-confrontatie op de ARC-benchmark van AI-modellen: GPT-5 vs. Grok vs. o3 – Afbeelding: Xpert.Digital

De grote desillusie: waarom steeds grotere AI-modellen de cruciale intelligentietest niet doorstaan

Wat is de ARC-AGI-benchmark en waarom is deze ontwikkeld?

De ARC-AGI-benchmark is een reeks tests voor het meten van de algemene intelligentie van AI-systemen, ontwikkeld door François Chollet in 2019. ARC staat voor "Abstraction and Reasoning Corpus for Artificial General Intelligence" (Abstractie- en Redeneringscorpus voor Algemene Kunstmatige Intelligentie). De benchmark is ontwikkeld om het vermogen van AI-systemen te evalueren om nieuwe taken te begrijpen en op te lossen waarvoor ze niet expliciet zijn getraind.

De ontwikkeling van de benchmark is gebaseerd op Chollet's definitie van intelligentie uit zijn baanbrekende artikel "On the Measure of Intelligence". Hij stelt dat ware intelligentie niet ligt in het beheersen van specifieke taken, maar in de efficiëntie van het verwerven van nieuwe vaardigheden. De test bestaat uit visuele puzzels met gekleurde rasters, waarbij AI-systemen de onderliggende transformatieregels moeten herkennen en toepassen op nieuwe voorbeelden.

Hoe onderscheidt ARC-AGI zich van andere AI-benchmarks?

In tegenstelling tot conventionele AI-tests, die vaak gebaseerd zijn op voorkennis of gememoriseerde patronen, richt ARC-AGI zich op zogenaamde "kernkennisprioriteiten" – elementaire cognitieve vaardigheden zoals objectpermanentie, tellen en ruimtelijk inzicht. Deze vaardigheden worden doorgaans verworven rond de leeftijd van vier jaar.

Het belangrijkste verschil is dat ARC-AGI specifiek is ontworpen om oplosbaar te zijn door middel van pure memorisatie of data-interpolatie. Elke taak in de benchmark is uniek en speciaal voor de test ontwikkeld, dus er zouden geen voorbeelden online beschikbaar moeten zijn. Dit maakt de test resistent tegen de gebruikelijke strategieën van AI-systemen die gebaseerd zijn op grote hoeveelheden trainingsdata.

Wat zijn de verschillende versies van de ARC-AGI benchmark?

Er zijn nu drie hoofdversies van de benchmark:

ARC-AGI-1

De originele versie uit 2019, die bestaat uit statische visuele puzzels, liet mensen gemiddeld een percentage van 95% behalen, terwijl de meeste AI-systemen al lang onder de 5% zitten.

ARC-AGI-2

Deze verbeterde versie, uitgebracht in 2025, is speciaal ontworpen om zelfs moderne redeneersystemen uit te dagen. Terwijl mensen nog steeds bijna 100% presteren, kunnen zelfs geavanceerde AI-modellen slechts 10-20% van de taken uitvoeren.

ARC-AGI-3

De nieuwste versie, nog in ontwikkeling, introduceert interactieve elementen. In plaats van statische puzzels moeten AI-agenten leren door verkenning en vallen en opstaan in een rasterwereld, vergelijkbaar met hoe mensen nieuwe omgevingen verkennen.

Hoe presteren verschillende AI-modellen in de ARC-AGI-tests?

De prestatieverschillen tussen verschillende AI-modellen zijn aanzienlijk:

Op ARC-AGI-1 behaalt Grok 4 ongeveer 68%, terwijl GPT-5 65,7% haalt. De kosten per taak bedragen ongeveer $ 1 voor Grok 4 en $ 0,51 voor GPT-5.

Bij ARC-AGI-2, de moeilijkere test, dalen de prestaties dramatisch: GPT-5 behaalt slechts 9,9% tegen een kostprijs van $ 0,73 per taak, terwijl Grok 4 (Denken) beter presteert met ongeveer 16%, zij het tegen aanzienlijk hogere kosten van $ 2-4.

Zoals verwacht vertonen de goedkopere modelvarianten zwakkere prestaties: de GPT-5 Mini behaalt 54,3% op AGI-1 en 4,4% op AGI-2, terwijl de GPT-5 Nano respectievelijk slechts 16,5% en 2,5% behaalt.

Wat is het geheim van het o3 preview model?

Het o3-previewmodel van OpenAI is een bijzonder geval. In december 2024 behaalde het een indrukwekkende score van 75,7% tot 87,5% op ARC-AGI-1, afhankelijk van de gebruikte rekenkracht. Dit was de eerste keer dat een AI-systeem de menselijke prestatiedrempel van 85% overschreed.

Er is echter één belangrijke beperking: de publiekelijk beschikbare versie van o3 presteert aanzienlijk slechter dan de originele previewversie. Volgens de ARC Prize behaalt de uitgebrachte versie van o3 slechts 41% (lage rekenkracht) en 53% (gemiddelde rekenkracht) op ARC-AGI-1, vergeleken met 76-88% van de previewversie.

OpenAI bevestigde dat het gepubliceerde model een andere, kleinere architectuur heeft en geoptimaliseerd is voor chat- en producttoepassingen. Deze discrepantie roept vragen op over de daadwerkelijke mogelijkheden en onderstreept het belang van een kritische analyse van benchmarkresultaten van niet-gepubliceerde modellen.

Hoe werkt de ARC Prize-competitie?

De ARC Prize is een jaarlijkse wedstrijd met een totaal prijzengeld van meer dan een miljoen dollar, bedoeld om open-sourceontwikkeling richting AGI te stimuleren. De huidige wedstrijd voor 2025 loopt van 26 maart tot en met 3 november op het Kaggle-platform.

De prijsstructuur omvat:

  • Hoofdprijs (700.000 USD): Ontgrendeld wanneer een team een nauwkeurigheid van 85% behaalt op de privé-evaluatiedataset
  • Top Score Prijs (75.000 USD): Voor de teams met de hoogste scores
  • Paper Prize (50.000 USD): Voor de meest significante conceptuele vooruitgang
  • Extra prijzen (175.000 USD): Extra categorieën worden nog aangekondigd

Belangrijk is dat alle winnaars hun oplossingen als open source publiceren. Dit is in lijn met de missie van de ARC Prize Foundation om AGI-ontwikkelingen toegankelijk te maken voor de gehele onderzoeksgemeenschap.

Wat zijn de technische uitdagingen van de ARC-AGI benchmark?

De taken in ARC-AGI vereisen een aantal cognitieve vaardigheden die voor mensen vanzelfsprekend zijn, maar extreem moeilijk voor AI-systemen:

Symbolische interpretatie

AI moet abstracte symbolen begrijpen en hun betekenis afleiden uit de context.

Meervoudig compositiedenken

Problemen moeten worden opgedeeld in substappen en sequentieel worden opgelost.

Contextafhankelijke regeltoepassing

Afhankelijk van de context kan het nodig zijn om dezelfde regel op een andere manier toe te passen.

Generalisatie van een paar voorbeelden

Normaal gesproken zijn er slechts 2-3 demonstratieparen beschikbaar waaruit de transformatieregel moet worden afgeleid.

Welke rol speelt testtijdtraining bij het oplossen van ARC-AGI?

Test-time training (TTT) is een veelbelovende aanpak gebleken voor het verbeteren van de prestaties op ARC-AGI. Deze methode past modelparameters dynamisch aan de huidige invoergegevens aan tijdens de inferentie, in plaats van uitsluitend te vertrouwen op vooraf getrainde kennis.

Onderzoekers van MIT hebben aangetoond dat TTT de prestaties van taalmodellen op ARC-AGI aanzienlijk verbetert. De methode stelt de modellen in staat zich aan te passen tijdens het oplossen van taken en te leren van specifieke voorbeelden. Dit bootst menselijk probleemoplossend gedrag na, waarbij we meer tijd besteden aan moeilijke problemen.

 

EU/DE Databeveiliging | Integratie van een onafhankelijk en data-overkoepelend AI-platform voor alle zakelijke behoeften

Onafhankelijke AI-platforms als strategisch alternatief voor Europese bedrijven – Afbeelding: Xpert.Digital

Ki-Gamechanger: het meest flexibele AI-platform – op maat gemaakte oplossingen die de kosten verlagen, hun beslissingen verbeteren en de efficiëntie verhogen

Onafhankelijk AI -platform: integreert alle relevante bedrijfsgegevensbronnen

  • Snelle AI-integratie: op maat gemaakte AI-oplossingen voor bedrijven in uren of dagen in plaats van maanden
  • Flexibele infrastructuur: cloudgebaseerd of hosting in uw eigen datacenter (Duitsland, Europa, gratis locatie-keuze)
  • Hoogste gegevensbeveiliging: gebruik in advocatenkantoren is het veilige bewijs
  • Gebruik in een breed scala aan bedrijfsgegevensbronnen
  • Keuze voor uw eigen of verschillende AI -modellen (DE, EU, VS, CN)

Meer hierover hier:

 

Kunstmatige intelligentie voorbij schaal: inzichten uit de ARC-AGI-test

Wat betekenen de resultaten voor de ontwikkeling van AGI?

De resultaten laten een duidelijke kloof zien tussen menselijke en kunstmatige intelligentie. Terwijl mensen ARC-AGI-taken intuïtief oplossen, falen zelfs geavanceerde AI-systemen bij eenvoudige redeneertaken.

François Chollet stelt dat het huidige paradigma van AI-ontwikkeling – het trainen van steeds grotere modellen met meer data – zijn grenzen heeft bereikt. De magere resultaten met ARC-AGI, ondanks de exponentieel toenemende modelgrootte, bewijzen volgens hem dat "vloeibare intelligentie niet voortkomt uit het opschalen van de pre-training."

De toekomst zou kunnen liggen in nieuwe benaderingen zoals test-time-adaptatie, waarbij modellen hun eigen toestand tijdens runtime kunnen veranderen om zich aan te passen aan nieuwe situaties.

Hoe ziet de toekomst van de ARC-AGI benchmark eruit?

De ARC Prize Foundation is van plan de benchmark continu te blijven ontwikkelen. ARC-AGI-3, met zijn interactieve elementen, zal naar verwachting in 2026 volledig worden uitgebracht en zal ongeveer 100 unieke omgevingen bevatten.

Het doel van de stichting is het ontwikkelen van benchmarks die dienen als een "poolster" voor de ontwikkeling van AGI. Dit is niet alleen bedoeld om de voortgang te meten, maar ook om onderzoek te sturen in richtingen die kunnen leiden tot echte algemene intelligentie.

Wat zijn de economische implicaties van benchmarkprestaties?

De kosten voor het oplossen van ARC-AGI-taken variëren sterk tussen modellen en hebben directe gevolgen voor de praktische toepasbaarheid.

Terwijl eenvoudige taken kunnen worden opgelost met API-kosten in de orde van grootte van een paar cent, lopen de kosten voor complexe redeneertaken snel op. Het o3-model kan bijvoorbeeld tot $ 1.000 per taak kosten bij hoge rekenkracht.

Deze kostenstructuur laat zien dat, zelfs als er technische doorbraken worden bereikt, economische haalbaarheid een cruciale factor blijft voor de wijdverbreide acceptatie van AGI-technologieën.

Wat zijn de filosofische implicaties van de ARC-AGI-resultaten?

De resultaten roepen fundamentele vragen op over de aard van intelligentie. De benchmark laat zien dat er een fundamenteel verschil is tussen het onthouden van patronen en het daadwerkelijk begrijpen ervan.

Het feit dat mensen deze taken moeiteloos oplossen, terwijl AI-systemen falen, suggereert dat menselijke intelligentie kwalitatief anders functioneert dan de huidige AI-benaderingen. Dit ondersteunt Chollet's argument dat AGI meer vereist dan alleen grotere modellen en meer data.

Welke invloed heeft ARC-AGI op AI-onderzoek?

De benchmark heeft al geleid tot een heroverweging van AI-onderzoek. In plaats van zich uitsluitend te richten op het schalen van modellen, onderzoeken toonaangevende labs nu alternatieve benaderingen zoals test-time computing en adaptieve systemen.

Deze verschuiving is ook terug te zien in investeringen: bedrijven investeren steeds meer in onderzoek naar efficiënter redeneren en probleemoplossen in plaats van in steeds grotere trainingstrajecten.

Welke rol speelt de open source community?

De ARC Prize Foundation benadrukt het belang van open-sourceontwikkeling voor de ontwikkeling van AGI. Alle winnaars van de wedstrijd zijn verplicht hun oplossingen openbaar te maken.

Deze filosofie is gebaseerd op de overtuiging dat AGI te belangrijk is om uitsluitend in gesloten laboratoria te worden ontwikkeld. De Stichting ziet zichzelf als een katalysator voor een collaboratieve, transparante onderzoeksgemeenschap.

Wat zijn de beperkingen van de ARC-AGI benchmark?

Ondanks het belang ervan kent ARC-AGI ook beperkingen. Chollet zelf benadrukt dat het behalen van de test niet gelijkstaat aan het behalen van AGI. De benchmark meet slechts één aspect van intelligentie – het vermogen om abstracte problemen op te lossen.

Andere belangrijke aspecten zoals creativiteit, emotionele intelligentie of langetermijnplanning worden niet gemeten. Bovendien bestaat het risico dat er specifiek voor ARC-AGI geoptimaliseerde systemen worden ontwikkeld die de test doorstaan zonder over het algemeen echt intelligent te zijn.

Hoe ontwikkelen de kosten van AI-modellen zich in de context van ARC-AGI?

De kostenontwikkelingen laten interessante trends zien. Terwijl de prestaties slechts langzaam toenemen, stijgen de kosten voor marginale verbeteringen explosief.

Deze kostendynamiek leidt tot een belangrijk inzicht: efficiëntie wordt de belangrijkste onderscheidende factor. De ARC Prize Foundation benadrukt dat niet alleen nauwkeurigheid, maar ook de kosten per opgeloste taak een belangrijk criterium zijn.

Wat betekent ARC-AGI voor de toekomst van werk?

De resultaten hebben geruststellende implicaties voor veel beroepen. Het onvermogen van AI-systemen om basale redeneertaken uit te voeren, toont aan dat menselijke cognitieve vermogens nog lang niet vervangen zijn.

Tegelijkertijd wijst de vooruitgang op gespecialiseerde taken erop dat AI een hulpmiddel blijft ter ondersteuning van menselijk werk, en dat AI het niet volledig zal vervangen.

Welke nieuwe onderzoeksbenaderingen ontstaan dankzij ARC-AGI?

De benchmark heeft geleid tot diverse innovatieve onderzoeksrichtingen:

Programmasynthese

Systemen die programma's genereren om problemen op te lossen.

Neurosymbolische benaderingen

Combinatie van neurale netwerken met symbolisch redeneren.

Multi-agentsystemen

Verschillende gespecialiseerde agenten werken samen.

Evolutionaire algoritmen

Systemen die op evolutionaire wijze oplossingen ontwikkelen.

Wat is de visie van de ARC Prize Foundation voor de toekomst?

De stichting heeft een duidelijke missie: dienen als een "poolster" voor de ontwikkeling van open AGI. Dit gaat niet alleen over het stellen van technische maatstaven, maar ook over het creëren van een ecosysteem dat innovatie stimuleert en er tegelijkertijd voor zorgt dat de vooruitgang in AGI de hele mensheid ten goede komt.

De continue ontwikkeling van nieuwe benchmarkversies moet ervoor zorgen dat de lat steeds hoger komt te liggen en onderzoek niet stagneert. Met ARC-AGI-3 en toekomstige versies wil de Foundation de grenzen van wat AI kan en wat er nog ontbreekt verder verkennen.

 

Wij zijn er voor u – Advies – Planning – Implementatie – Projectbeheer

☑️ MKB -ondersteuning in strategie, advies, planning en implementatie

☑️ Creatie of herschikking van de AI -strategie

☑️ Pioneer Business Development

 

Konrad Wolfenstein

Ik help u graag als een persoonlijk consultant.

U kunt contact met mij opnemen door het onderstaande contactformulier in te vullen of u gewoon bellen op +49 89 674 804 (München) .

Ik kijk uit naar ons gezamenlijke project.

 

 

Schrijf me

 
Xpert.Digital – Konrad Wolfenstein

Xpert.Digital is een hub voor de industrie met een focus, digitalisering, werktuigbouwkunde, logistiek/intralogistiek en fotovoltaïsche.

Met onze 360 ​​° bedrijfsontwikkelingsoplossing ondersteunen we goed bekende bedrijven, van nieuwe bedrijven tot na verkoop.

Marktinformatie, smarketing, marketingautomatisering, contentontwikkeling, PR, e -mailcampagnes, gepersonaliseerde sociale media en lead koestering maken deel uit van onze digitale tools.

U kunt meer vinden op: www.xpert.Digitalwww.xpert.solarwww.xpert.plus

Contact houden

Verlaat de mobiele versie