AI-uppgörelse med ARC-riktmärket för AI-modeller: GPT-5 vs. Grok vs o3
Xpert pre-release
Röstval 📢
Publicerad den: 8 augusti 2025 / Uppdaterad den: 8 augusti 2025 – Författare: Konrad Wolfenstein
Den stora desillusioneringen: Varför allt större AI-modeller misslyckas med det avgörande intelligenstestet
Vad är ARC-AGI-riktmärket och varför utvecklades det?
ARC-AGI-riktmärket är en serie tester för att mäta den allmänna intelligensen hos AI-system, utvecklade av François Chollet år 2019. ARC står för "Abstraction and Reasoning Corpus for Artificial General Intelligence". Riktmärket skapades för att utvärdera AI-systems förmåga att förstå och lösa nya uppgifter som de inte uttryckligen har tränats för.
Utvecklingen av riktmärket baseras på Chollets definition av intelligens från hans banbrytande artikel "On the Measure of Intelligence". Han menar att sann intelligens inte ligger i att behärska specifika uppgifter, utan i effektiviteten i att förvärva nya färdigheter. Testet består av visuella pussel med färgade rutnät, där AI-system måste känna igen de underliggande transformationsreglerna och tillämpa dem på nya exempel.
Hur skiljer sig ARC-AGI från andra AI-riktmärken?
Till skillnad från konventionella AI-tester, som ofta förlitar sig på förkunskaper eller memorerade mönster, fokuserar ARC-AGI på så kallade "kärnkunskapsförkunskaper" – kognitiva färdigheter som objektbeständighet, räkning och rumslig förståelse. Dessa färdigheter förvärvas vanligtvis vid fyra års ålder.
Den viktigaste skillnaden är att ARC-AGI är specifikt utformat för att kunna lösas genom ren memorering eller datainterpolering. Varje uppgift i testet är unik och utvecklades specifikt för testet, så inga exempel på den bör finnas online. Detta gör testet motståndskraftigt mot de vanliga strategierna hos AI-system baserade på stora mängder träningsdata.
Vilka olika versioner av ARC-AGI-riktmärket finns det?
Det finns nu tre huvudversioner av riktmärket:
ARC-AGI-1
Den ursprungliga versionen från 2019, som består av statiska visuella pussel, har människor som uppnår ett genomsnitt på 95 %, medan de flesta AI-system länge har legat under 5 %.
ARC-AGI-2
Denna förbättrade version, som släpptes 2025, är specifikt utformad för att utmana även moderna resonemangssystem. Medan människor fortsätter att uppnå nästan 100 % prestanda, kan även avancerade AI-modeller bara hantera 10–20 % av uppgifterna.
ARC-AGI-3
Den senaste versionen, som fortfarande är under utveckling, introducerar interaktiva element. Istället för statiska pussel måste AI-agenter lära sig genom utforskning och trial and error i en rutnätsvärld, ungefär som hur människor utforskar nya miljöer.
Hur presterar olika AI-modeller i ARC-AGI-testerna?
Prestandaskillnaderna mellan olika AI-modeller är betydande:
På ARC-AGI-1 uppnår Grok 4 cirka 68 %, medan GPT-5 ligger på 65,7 %. Kostnaden per uppgift är cirka 1 dollar för Grok 4 och 0,51 dollar för GPT-5.
På ARC-AGI-2, det svårare testet, sjunker prestandan dramatiskt: GPT-5 uppnår endast 9,9 % till en kostnad av 0,73 dollar per uppgift, medan Grok 4 (Tänkande) presterar bättre med cirka 16 %, om än till en betydligt högre kostnad på 2–4 dollar.
Som förväntat visar billigare modellvarianter svagare prestanda: GPT-5 Mini uppnår 54,3 % på AGI-1 och 4,4 % på AGI-2, medan GPT-5 Nano bara uppnår 16,5 % respektive 2,5 %.
Vad är hemligheten bakom förhandsvisningsmodellen för o3?
OpenAIs o3-förhandsvisningsmodell representerar ett specialfall. I december 2024 uppnådde den imponerande 75,7 % till 87,5 % på ARC-AGI-1, beroende på vilken datorkraft som användes. Detta var första gången ett AI-system överträffade tröskeln för mänsklig prestanda på 85 %.
Det finns dock en viktig begränsning: Den offentligt tillgängliga versionen av o3 presterar betydligt sämre än den ursprungliga förhandsvisningsversionen. Enligt ARC-priset uppnår den släppta versionen av o3 endast 41 % (låg beräkningsförmåga) och 53 % (medelhög beräkningsförmåga) på ARC-AGI-1, jämfört med 76–88 % i förhandsvisningsversionen.
OpenAI bekräftade att den publicerade modellen har en annan, mindre arkitektur och är optimerad för chatt och produktapplikationer. Denna skillnad väcker frågor om dess faktiska kapacitet och belyser vikten av att kritiskt granska benchmarkresultat från opublicerade modeller.
Hur fungerar ARC-pristävlingen?
ARC-priset är en årlig tävling med en total prispott på över en miljon amerikanska dollar som syftar till att främja öppen källkods framsteg mot AGI. Den nuvarande tävlingen 2025 pågår från 26 mars till 3 november på Kaggle-plattformen.
Prisstrukturen inkluderar:
- Huvudpris (700 000 USD): Låses upp när ett team uppnår 85 % noggrannhet på den privata utvärderingsdatauppsättningen.
- Pris för högsta poäng (75 000 USD): För lagen med högsta poäng
- Paperpris (50 000 USD): För de mest betydande konceptuella framstegen
- Ytterligare priser (175 000 USD): Ytterligare kategorier kommer att tillkännages senare
Det är viktigt att alla vinnare publicerar sina lösningar som öppen källkod. Detta är i linje med ARC Prize Foundations uppdrag att göra AGI-framsteg tillgängliga för hela forskarsamhället.
Vilka är de tekniska utmaningarna med ARC-AGI-riktmärket?
Uppgifterna i ARC-AGI kräver flera kognitiva färdigheter som är naturliga för människor men extremt svåra för AI-system:
Symboltolkning
AI måste förstå abstrakta symboler och härleda deras betydelse från sammanhanget.
Flernivåigt kompositionstänkande
Problem måste delas upp i delsteg och lösas sekventiellt.
Kontextberoende regeltillämpning
Samma regel kan behöva tillämpas olika beroende på sammanhanget.
Generalisering från några exempel
Vanligtvis finns endast 2–3 demonstrationspar tillgängliga från vilka transformationsregeln måste härledas.
Vilken roll spelar träning under testtid för att lösa ARC-AGI?
Testtidsträning (TTT) har visat sig vara en lovande metod för att förbättra prestanda på ARC-AGI. Denna metod anpassar dynamiskt modellparametrar till aktuell indata under inferens, snarare än att enbart förlita sig på förtränad kunskap.
MIT-forskare har visat att TTT avsevärt förbättrar prestandan hos språkmodeller på ARC-AGI. Metoden gör det möjligt för modellerna att anpassa sig under uppgiftslösning och lära sig av specifika exempel. Detta efterliknar mänskligt problemlösningsbeteende, där vi lägger mer tid på svåra problem.
Datasäkerhet i EU/DE | Integrering av en oberoende och dataövergripande AI-plattform för alla affärsbehov
Oberoende AI-plattformar som ett strategiskt alternativ för europeiska företag – Bild: Xpert.Digital
Ki-Gamechanger: Den mest flexibla AI-plattformen – skräddarsydda lösningar som minskar kostnaderna, förbättrar deras beslut och ökar effektiviteten
Oberoende AI -plattform: Integrerar alla relevanta företagsdatakällor
- Snabb AI-integration: Skräddarsydd AI-lösningar för företag i timmar eller dagar istället för månader
- Flexibel infrastruktur: molnbaserad eller värd i ditt eget datacenter (Tyskland, Europa, gratis val av plats)
- Högsta datasäkerhet: Användning i advokatbyråer är säkra bevis
- Användning över ett brett utbud av företagsdatakällor
- Val av dina egna eller olika AI -modeller (DE, EU, USA, CN)
Mer om detta här:
Artificiell intelligens bortom skala: Insikter från ARC-AGI-testet
Vad betyder resultaten för utvecklingen av AGI?
Resultaten visar på en tydlig skillnad mellan mänsklig och artificiell intelligens. Medan människor löser ARC-AGI-uppgifter intuitivt, misslyckas även toppmoderna AI-system med grundläggande resonemangsuppgifter.
François Chollet menar att det nuvarande paradigmet för AI-utveckling – att träna allt större modeller med mer data – har nått sina gränser. De dåliga resultaten på ARC-AGI, trots exponentiellt ökande modellstorlek, bevisar enligt hans uppfattning att "flytande intelligens inte uppstår genom att skala upp förträning".
Framtiden skulle kunna ligga i nya metoder som testtidsanpassning, där modeller kan ändra sina egna tillstånd under körning för att anpassa sig till nya situationer.
Hur ser framtiden ut för ARC-AGI-riktmärket?
ARC Prize Foundation planerar att kontinuerligt utveckla riktmärket. ARC-AGI-3, med sina interaktiva element, är planerad att släppas i sin helhet 2026 och kommer att inkludera cirka 100 unika miljöer.
Stiftelsens mål är att utveckla riktmärken som fungerar som en "nordstjärna" för utvecklingen av AGI. Detta syftar inte bara till att mäta framsteg utan också till att vägleda forskningen i riktningar som kan leda till verklig allmän information.
Vilka är de ekonomiska konsekvenserna av riktmärkets prestanda?
Kostnaden för att lösa ARC-AGI-uppgifter varierar kraftigt mellan modeller och har en direkt inverkan på den praktiska tillämpbarheten.
Medan enkla uppgifter kan lösas med API-kostnader i centklassen, stiger kostnaderna för komplexa resonemangsuppgifter snabbt. O3-modellen kan till exempel kosta upp till 1 000 dollar per uppgift vid hög datorkraft.
Denna kostnadsstruktur visar att även om tekniska genombrott uppnås, förblir ekonomisk genomförbarhet en avgörande faktor för ett brett införande av AGI-tekniker.
Vilka är de filosofiska implikationerna av ARC-AGI-resultaten?
Resultaten väcker grundläggande frågor om intelligensens natur. Riktmärket visar att det finns en grundläggande skillnad mellan att memorera mönster och sann förståelse.
Det faktum att människor löser dessa uppgifter utan ansträngning medan AI-system misslyckas tyder på att mänsklig intelligens fungerar kvalitativt annorlunda än nuvarande AI-metoder. Detta stöder Chollets argument att AGI kräver mer än bara större modeller och mer data.
Hur påverkar ARC-AGI AI-forskning?
Riktmärket har redan lett till ett nytänkande inom AI-forskning. Istället för att fokusera enbart på skalningsmodeller utforskar ledande laboratorier nu alternativa metoder som testtidsberäkning och adaptiva system.
Denna förändring återspeglas även i investeringar: företag investerar i allt större utsträckning i forskning om effektivare resonemang och problemlösning istället för i allt större utbildningsomgångar.
Vilken roll spelar öppen källkodsgemenskapen?
ARC Prize Foundation betonar vikten av öppen källkod för AGI-utveckling. Alla tävlingsvinnare är skyldiga att göra sina lösningar tillgängliga för allmänheten.
Denna filosofi bygger på övertygelsen att AGI är för viktigt för att utvecklas enbart i slutna laboratorier. Stiftelsen ser sig själv som en katalysator för ett samarbetsinriktat och transparent forskningssamhälle.
Vilka är begränsningarna med ARC-AGI-riktmärket?
Trots sin betydelse har ARC-AGI också begränsningar. Chollet betonar själv att ett godkänt test inte innebär att man uppnår AGI. Riktmärket mäter bara en aspekt av intelligens – förmågan att lösa abstrakta problem.
Andra viktiga aspekter som kreativitet, emotionell intelligens eller långsiktig planering mäts inte. Dessutom finns det en risk att system som är specifikt optimerade för ARC-AGI utvecklas men som klarar testet utan att vara verkligt intelligenta i allmänhet.
Hur utvecklas kostnaderna för AI-modeller i samband med ARC-AGI?
Kostnadstrenderna visar intressanta trender. Medan prestandan bara ökar långsamt, exploderar kostnaderna för marginella förbättringar.
Denna kostnadsdynamik leder till en viktig insikt: effektivitet håller på att bli den viktigaste differentieringsfaktorn. ARC Prize Foundation betonar att inte bara noggrannhet utan även kostnaden per löst uppgift är ett viktigt kriterium.
Vad betyder ARC-AGI för framtidens arbete?
Resultaten har lugnande konsekvenser för många yrken. AI-systemens oförmåga att lösa grundläggande resonemangsuppgifter visar att mänskliga kognitiva förmågor långt ifrån är ersatta.
Samtidigt tyder framstegen inom specialiserade uppgifter på att AI kommer att fortsätta fungera som ett verktyg för att stödja mänskligt arbete snarare än att helt ersätta det.
Vilka nya forskningsmetoder framträder genom ARC-AGI?
Riktmärket har inspirerat flera innovativa forskningsinriktningar:
Programsyntes
System som genererar program för att lösa problem.
Neurosymboliska tillvägagångssätt
Kombination av neurala nätverk med symboliskt resonemang.
Multiagentsystem
Flera specialiserade agenter arbetar tillsammans.
Evolutionära algoritmer
System som utvecklar lösningar på ett evolutionärt sätt.
Vad är ARC Prize Foundations vision för framtiden?
Stiftelsen har ett tydligt uppdrag: att fungera som en "nordstjärna" för utvecklingen av öppen AGI. Det handlar inte bara om att sätta tekniska riktmärken, utan om att skapa ett ekosystem som främjar innovation samtidigt som det säkerställer att AGI-framsteg gynnar hela mänskligheten.
Den kontinuerliga utvecklingen av nya benchmarkversioner syftar till att säkerställa att ribban kontinuerligt höjs och att forskningen inte stagnerar. Med ARC-AGI-3 och framtida versioner strävar stiftelsen efter att ytterligare utforska gränserna för vad AI kan göra och vad den fortfarande saknar.
Vi är där för dig – Råd – Planering – Implementering – Projektledning
☑ SME -stöd i strategi, rådgivning, planering och implementering
☑ Skapande eller omjustering av AI -strategin
☑ Pioneer Business Development
Jag hjälper dig gärna som personlig konsult.
Du kan kontakta mig genom att fylla i kontaktformuläret nedan eller helt enkelt ringa mig på +49 89 674 804 (München) .
Jag ser fram emot vårt gemensamma projekt.
Xpert.digital – Konrad Wolfenstein
Xpert.Digital är ett nav för bransch med fokus, digitalisering, maskinteknik, logistik/intralogistik och fotovoltaik.
Med vår 360 ° affärsutvecklingslösning stöder vi välkända företag från ny verksamhet till efter försäljning.
Marknadsintelligens, smarketing, marknadsföringsautomation, innehållsutveckling, PR, postkampanjer, personliga sociala medier och blyomsorg är en del av våra digitala verktyg.
Du kan hitta mer på: www.xpert.digital – www.xpert.solar – www.xpert.plus