AI-opgør på ARC-benchmarken for AI-modeller: GPT-5 vs. Grok vs. o3

Konrad Wolfenstein

for 10 måneder siden

AI-opgør på ARC-benchmarken for AI-modeller: GPT-5 vs. Grok vs. o3 – Billede: Xpert.Digital

Den store desillusionering: Hvorfor stadig større AI-modeller ikke består den afgørende intelligenstest

Hvad er ARC-AGI-benchmarket, og hvorfor blev det udviklet?

ARC-AGI-benchmarken er en testserie til måling af den generelle intelligens i AI-systemer, udviklet i 2019 af François Chollet. ARC står for "Abstraction and Reasoning Corpus for Artificial General Intelligence." Benchmarken blev oprettet for at evaluere AI-systemers evne til at forstå og løse nye opgaver, som de ikke eksplicit var trænet til.

Udviklingen af benchmarken er baseret på Chollets definition af intelligens fra hans skelsættende artikel "On the Measure of Intelligence". Han argumenterer for, at sand intelligens ikke ligger i at mestre specifikke opgaver, men i effektiviteten af at tilegne sig nye færdigheder. Testen består af visuelle gåder med farvede gitre, hvor AI-systemer skal identificere de underliggende transformationsregler og anvende dem på nye eksempler.

Hvordan adskiller ARC-AGI sig fra andre AI-benchmarks?

I modsætning til konventionelle AI-tests, som ofte er afhængige af forudgående viden eller indlærte mønstre, fokuserer ARC-AGI på såkaldte "Core Knowledge Priors" - grundlæggende kognitive færdigheder såsom objektpermanens, tælling og rumlig ræsonnement. Disse færdigheder tilegnes typisk af mennesker omkring fireårsalderen.

Den afgørende forskel ligger i, at ARC-AGI er specifikt designet til at være uløselig blot ved udenadslære eller datainterpolation. Hver opgave i benchmarken er unik og blev udviklet specifikt til testen, så der bør ikke findes eksempler på den online. Dette gør testen modstandsdygtig over for de typiske strategier for AI-systemer, der er afhængige af store træningsdatasæt.

Hvad er de forskellige versioner af ARC-AGI-benchmarket?

Der er nu tre hovedversioner af benchmarken:

ARC-AGI-1

Den originale 2019-version består af statiske visuelle gåder. Mennesker opnår en gennemsnitlig score på 95% i dette spil, mens de fleste AI-systemer længe har scoret under 5%.

ARC-AGI-2

Denne forbedrede version blev udgivet i 2025 og er specifikt designet til at udfordre selv moderne ræsonnementssystemer. Mens mennesker fortsat opnår næsten 100% succes, klarer selv avancerede AI-modeller kun 10-20% af opgaverne.

ARC-AGI-3

Den seneste version, som stadig er under udvikling, introducerer interaktive elementer. I stedet for statiske gåder skal AI-agenter lære gennem udforskning og trial and error i en gitterverden, ligesom mennesker udforsker nye miljøer.

Hvordan klarer forskellige AI-modeller sig i ARC-AGI-testene?

Ydelsesforskellene mellem forskellige AI-modeller er betydelige:

For ARC-AGI-1 opnår Grok 4 cirka 68 %, mens GPT-5 når 65,7 %. Omkostningerne pr. opgave er cirka 1 USD for Grok 4 og 0,51 USD for GPT-5.

I ARC-AGI-2, den sværere test, falder ydeevnen drastisk: GPT-5 opnår kun 9,9% til en pris på $0,73 pr. opgave, mens Grok 4 (Tænkning) klarer sig bedre med omkring 16%, men til en betydeligt højere pris på $2-4.

Som forventet viser billigere modelvarianter svagere ydeevne: GPT-5 Mini opnår 54,3% på AGI-1 og 4,4% på AGI-2, mens GPT-5 Nano kun når henholdsvis 16,5% og 2,5%.

Hvad er hemmeligheden bag o3 preview-modellen?

OpenAIs o3-forhåndsvisningsmodel repræsenterer et særligt tilfælde. I december 2024 opnåede den imponerende ydeevnescorer på 75,7 % til 87,5 % på ARC-AGI-1, afhængigt af den anvendte computerkraft. Dette var første gang, at et AI-system havde overskredet den menneskelige ydeevnegrænse på 85 %.

Der er dog én vigtig begrænsning: Den offentligt tilgængelige version af o3 klarer sig betydeligt dårligere end den originale forhåndsvisningsversion. Ifølge ARC Prize opnår den udgivne o3 kun 41% (lav beregning) og 53% (medium beregning) på ARC-AGI-1, sammenlignet med 76-88% i forhåndsvisningsversionen.

OpenAI bekræftede, at den offentliggjorte model har en anden, mindre arkitektur og er optimeret til chat- og produktapplikationer. Denne uoverensstemmelse rejser spørgsmål om dens faktiske muligheder og understreger vigtigheden af kritisk at evaluere benchmarkresultater fra ikke-offentliggjorte modeller.

Hvordan fungerer ARC-priskonkurrencen?

ARC-prisen er en årlig konkurrence med en samlet præmiesum på over en million amerikanske dollars, der har til formål at fremme open source-udviklingen mod AGI (Actively Generic Architecture). Den nuværende konkurrence i 2025 løber fra 26. marts til 3. november på Kaggle-platformen.

Prisstrukturen omfatter:

Hovedpræmie (700.000 USD): Oplåses, når et hold opnår 85 % nøjagtighed på det private evalueringsdatasæt
Topscorepræmie (75.000 USD): Til holdene med de højeste point
Paperpris (USD 50.000): For de mest betydningsfulde konceptuelle fremskridt
Andre præmier (175.000 USD): Yderligere kategorier vil blive annonceret senere

Det er vigtigt, at alle vindere udgiver deres løsninger som open source. Dette stemmer overens med ARC Prize Foundations mission om at gøre AGI-fremskridt tilgængelige for hele forskningsmiljøet.

Hvad er de tekniske udfordringer ved ARC-AGI-benchmarket?

Opgaverne i ARC-AGI kræver adskillige kognitive evner, der er selvindlysende for mennesker, men ekstremt vanskelige for AI-systemer:

Symbolfortolkning

AI skal forstå abstrakte symboler og udlede deres betydning fra konteksten.

Flertrins kompositionel tænkning

Problemer skal opdeles i undertrin og løses sekventielt.

Kontekstafhængig regelanvendelse

Den samme regel skal muligvis anvendes forskelligt afhængigt af konteksten.

Generalisering fra et par eksempler

Typisk er der kun 2-3 demonstrationspar tilgængelige, hvorfra transformationsreglen skal udledes.

Hvilken rolle spiller træning under test i løsningen af ARC-AGI?

Test-Time Training (TTT) har vist sig at være en lovende tilgang til at forbedre ydeevnen på ARC-AGI. Denne metode justerer dynamisk modelparametrene til de aktuelle inputdata under inferens, i stedet for udelukkende at stole på foruddannet viden.

MIT-forskere har vist, at TTT forbedrer sprogmodellers ydeevne betydeligt på ARC-AGI. Metoden gør det muligt for modellerne at tilpasse sig under opgaveløsning og lære af specifikke eksempler. Dette efterligner menneskelig problemløsningsadfærd, hvor vi bruger mere tid på vanskelige problemer.

EU/DE Datasikkerhed | Integration af en uafhængig og tværgående AI-platform til alle forretningsbehov

Uafhængige AI-platforme som et strategisk alternativ for europæiske virksomheder - Billede: Xpert.Digital

AI Game Changer: Den mest fleksible AI-platform - Skræddersyede løsninger, der reducerer omkostninger, forbedrer dine beslutninger og øger effektiviteten

Uafhængig AI-platform: Integrerer alle relevante virksomhedsdatakilder

Hurtig AI-integration: Skræddersyede AI-løsninger til virksomheder på timer eller dage i stedet for måneder
Fleksibel infrastruktur: Cloudbaseret eller hosting i dit eget datacenter (Tyskland, Europa, frit valg af lokation)

Maksimal datasikkerhed: brugen i advokatfirmaer er et uomtvisteligt bevis
Implementering på tværs af en bred vifte af virksomhedsdatakilder
Valg af egne eller forskellige AI-modeller (Tyskland, EU, USA, Canada)

Mere information her:

Uafhængige AI-platforme vs. hyperscalere: Hvilken løsning er den rigtige?

Kunstig intelligens ud over skalering: Indsigt fra ARC-AGI-testen

Hvad betyder resultaterne for udviklingen af AGI?

Resultaterne afslører en betydelig forskel mellem menneskelig og kunstig intelligens. Mens mennesker løser ARC-AGI-opgaver intuitivt, fejler selv de mest avancerede AI-systemer i basale kognitive opgaver.

François Chollet argumenterer for, at det nuværende paradigme for AI-udvikling – træning af stadig større modeller med flere data – har nået sine grænser. De dårlige resultater på ARC-AGI, på trods af eksponentielle stigninger i modelstørrelse, beviser efter hans mening, at "flydende intelligens ikke opstår ved skalering af præ-træning.".

Fremtiden kunne ligge i nye tilgange såsom testtidsadaptation, hvor modeller kan ændre deres egne tilstande under kørsel for at tilpasse sig nye situationer.

Hvad bringer fremtiden for ARC-AGI-benchmarket?

ARC Prize Foundation planlægger løbende udvikling af benchmarken. ARC-AGI-3, med sine interaktive elementer, er planlagt til fuld udgivelse i 2026 og vil omfatte cirka 100 unikke miljøer.

Fonden sigter mod at udvikle benchmarks, der kan fungere som en "nordstjerne" for udviklingen af AGI. Dette indebærer ikke blot at måle fremskridt, men også at styre forskningen i retninger, der kan føre til ægte generel intelligens.

Hvad er de økonomiske konsekvenser af benchmark-præstationen?

Omkostningerne ved at løse ARC-AGI-problemer varierer meget mellem modeller og har en direkte indflydelse på den praktiske anvendelighed.

Mens simple opgaver kan løses med API-omkostninger i centklassen, stiger omkostningerne til komplekse ræsonnementsopgaver hurtigt. O3-modellen kan for eksempel koste op til $1.000 pr. opgave med høj computerkraft.

Denne omkostningsstruktur viser, at selv hvis der opnås tekniske gennembrud, forbliver økonomisk gennemførlighed en afgørende faktor for den udbredte anvendelse af AGI-teknologier.

Hvad er de filosofiske implikationer af ARC-AGI-resultaterne?

Resultaterne rejser fundamentale spørgsmål om intelligensens natur. Benchmarken viser, at der er en fundamental forskel mellem at huske mønstre og sand forståelse.

Det faktum, at mennesker løser disse opgaver ubesværet, mens AI-systemer fejler, antyder, at menneskelig intelligens fungerer kvalitativt anderledes end nuværende AI-tilgange. Dette understøtter Chollets argument om, at AGI kræver mere end blot større modeller og flere data.

Hvordan påvirker ARC-AGI retningen for AI-forskning?

Benchmarken har allerede ført til en nytænkning af AI-forskning. I stedet for udelukkende at fokusere på skaleringsmodeller udforsker førende laboratorier nu alternative tilgange såsom testtidsberegning og adaptive systemer.

Dette skift afspejles også i investeringer: Virksomheder investerer i stigende grad i forskning i mere effektiv ræsonnement og problemløsning i stedet for stadigt større træningskørsler.

Hvilken rolle spiller open source-fællesskabet?

ARC Prize Foundation understreger vigtigheden af open source-udvikling for AGI-fremskridt. Alle konkurrencevindere skal gøre deres løsninger offentligt tilgængelige.

Denne filosofi er baseret på den overbevisning, at AGI er for vigtig til udelukkende at blive udviklet i lukkede laboratorier. Fonden ser sig selv som en katalysator for et samarbejdsorienteret og transparent forskningsmiljø.

Hvad er begrænsningerne ved ARC-AGI-benchmarket?

Trods sin betydning har ARC-AGI også begrænsninger. Chollet understreger selv, at det at bestå testen ikke er synonymt med at opnå AGI. Benchmarken måler kun ét aspekt af intelligens – evnen til at løse abstrakte problemer.

Andre vigtige aspekter såsom kreativitet, følelsesmæssig intelligens eller langsigtet planlægning vurderes ikke. Derudover er der en risiko for, at der udvikles systemer, der er specifikt optimeret til ARC-AGI, som består testen uden egentlig at være generelt intelligente.

Hvordan udvikler omkostningerne til AI-modeller sig i forbindelse med ARC-AGI?

Omkostningsudviklingen afslører interessante tendenser. Mens præstationen kun stiger langsomt, eksploderer omkostningerne til marginale forbedringer.

Denne omkostningsdynamik fører til en vigtig indsigt: effektivitet er ved at blive den afgørende differentiator. ARC Prize Foundation understreger, at ikke kun nøjagtighed, men også omkostningerne pr. løst problem er et afgørende kriterium.

Hvad betyder ARC-AGI for fremtidens arbejde?

Resultaterne har betryggende konsekvenser for mange erhverv. AI-systemers manglende evne til at løse basale tænkeopgaver viser, at menneskelige kognitive evner langt fra er blevet erstattet.

Samtidig tyder fremskridt inden for specialiserede opgaver på, at AI fortsat vil fungere som et værktøj til at understøtte menneskeligt arbejde, snarere end fuldstændigt at erstatte det.

Hvilke nye forskningsmetoder opstår fra ARC-AGI?

Benchmarken har inspireret adskillige innovative forskningsretninger:

Programsyntese

Systemer, der genererer programmer til at løse problemer.

Neurosymbolske tilgange

Kombination af neurale netværk med symbolsk ræsonnement.

Multiagentsystemer

Flere specialiserede agenter arbejder sammen.

Evolutionære algoritmer

Systemer, der udvikler løsninger gennem evolution.

Hvad er ARC Prize Foundations vision for fremtiden?

Fonden forfølger en klar mission: at fungere som en "Nordstjerne" for udviklingen af åben AGI. Dette involverer ikke kun tekniske benchmarks, men også skabelsen af et økosystem, der fremmer innovation, samtidig med at det sikres, at AGI-fremskridt gavner hele menneskeheden.

Den løbende udvikling af nye benchmarkversioner har til formål at sikre, at barren konstant hæves, og at forskningen ikke stagnerer. Med ARC-AGI-3 og fremtidige versioner sigter fonden mod yderligere at udforske grænserne for, hvad AI kan gøre, og hvad den stadig mangler.

Vi er her for dig - Rådgivning - Planlægning - Implementering - Projektledelse

☑️ SMV-support inden for strategi, rådgivning, planlægning og implementering

☑️ Oprettelse eller omlægning af AI-strategien

☑️ Pioner inden for forretningsudvikling

Konrad Wolfenstein

Jeg vil med glæde fungere som din personlige rådgiver.

Du kan kontakte mig ved at udfylde kontaktformularen nedenfor eller blot ringe til mig på +49 7348 4088 965 .

Jeg glæder mig til vores fælles projekt.

Skriv til mig

➡️ Anmodning om videoopkald 👩👱

Xpert.Digital - Konrad Wolfenstein

Xpert.Digital er et knudepunkt for industrien med fokus på digitalisering, maskinteknik, logistik/intralogistik og solceller.

Med vores 360° forretningsudviklingsløsning understøtter vi anerkendte virksomheder fra nye forretninger til eftersalg.

Markedsinformation, smarketing, marketingautomatisering, indholdsudvikling, PR, postkampagner, personlige sociale medier og lead nurturing er en del af vores digitale værktøjer.

Du kan finde mere information på: www.xpert.digital - www.xpert.solar - www.xpert.plus

Hold kontakten

Den store desillusionering: Hvorfor stadig større AI-modeller ikke består den afgørende intelligenstest

Hvad er ARC-AGI-benchmarket, og hvorfor blev det udviklet?

Hvordan adskiller ARC-AGI sig fra andre AI-benchmarks?

Hvad er de forskellige versioner af ARC-AGI-benchmarket?

ARC-AGI-1

ARC-AGI-2

ARC-AGI-3

Hvordan klarer forskellige AI-modeller sig i ARC-AGI-testene?

Hvad er hemmeligheden bag o3 preview-modellen?

Hvordan fungerer ARC-priskonkurrencen?

Hvad er de tekniske udfordringer ved ARC-AGI-benchmarket?

Symbolfortolkning

Flertrins kompositionel tænkning

Kontekstafhængig regelanvendelse

Generalisering fra et par eksempler

Hvilken rolle spiller træning under test i løsningen af ​​ARC-AGI?

EU/DE Datasikkerhed | Integration af en uafhængig og tværgående AI-platform til alle forretningsbehov

AI Game Changer: Den mest fleksible AI-platform - Skræddersyede løsninger, der reducerer omkostninger, forbedrer dine beslutninger og øger effektiviteten

Uafhængig AI-platform: Integrerer alle relevante virksomhedsdatakilder

Kunstig intelligens ud over skalering: Indsigt fra ARC-AGI-testen

Hvad betyder resultaterne for udviklingen af ​​AGI?

Hvad bringer fremtiden for ARC-AGI-benchmarket?

Hvad er de økonomiske konsekvenser af benchmark-præstationen?

Hvad er de filosofiske implikationer af ARC-AGI-resultaterne?

Hvordan påvirker ARC-AGI retningen for AI-forskning?

Hvilken rolle spiller open source-fællesskabet?

Hvad er begrænsningerne ved ARC-AGI-benchmarket?

Hvordan udvikler omkostningerne til AI-modeller sig i forbindelse med ARC-AGI?

Hvad betyder ARC-AGI for fremtidens arbejde?

Hvilke nye forskningsmetoder opstår fra ARC-AGI?

Programsyntese

Neurosymbolske tilgange

Multiagentsystemer

Evolutionære algoritmer

Hvad er ARC Prize Foundations vision for fremtiden?

☑️ SMV-support inden for strategi, rådgivning, planlægning og implementering

☑️ Oprettelse eller omlægning af AI-strategien

☑️ Pioner inden for forretningsudvikling

Andre emner

Hvilken rolle spiller træning under test i løsningen af ARC-AGI?

Hvad betyder resultaterne for udviklingen af AGI?