Den stora desillusioneringen: Varför allt större AI-modeller misslyckas med det avgörande intelligenstestet
Vad är ARC-AGI-riktmärket och varför utvecklades det?
ARC-AGI-riktmärket är en testserie för att mäta den allmänna intelligensen hos AI-system, utvecklad 2019 av François Chollet. ARC står för "Abstraction and Reasoning Corpus for Artificial General Intelligence". Riktmärket skapades för att utvärdera AI-systems förmåga att förstå och lösa nya uppgifter som de inte uttryckligen tränats för.
Utvecklingen av riktmärket baseras på Chollets definition av intelligens från hans banbrytande artikel "On the Measure of Intelligence". Han menar att sann intelligens inte ligger i att bemästra specifika uppgifter, utan i effektiviteten i att förvärva nya färdigheter. Testet består av visuella pussel med färgade rutnät, där AI-system måste identifiera de underliggande transformationsreglerna och tillämpa dem på nya exempel.
Hur skiljer sig ARC-AGI från andra AI-riktmärken?
Till skillnad från konventionella AI-tester, som ofta förlitar sig på förkunskaper eller memorerade mönster, fokuserar ARC-AGI på så kallade "Core Knowledge Priors" – grundläggande kognitiva färdigheter som objektpermanens, räkning och spatial resonemang. Dessa färdigheter förvärvas vanligtvis av människor runt fyra års ålder.
Den avgörande skillnaden ligger i att ARC-AGI är specifikt utformat för att vara olösligt genom ren memorering eller datainterpolering. Varje uppgift i testet är unik och utvecklades specifikt för testet, så inga exempel på den bör finnas online. Detta gör testet motståndskraftigt mot de typiska strategierna för AI-system som förlitar sig på stora träningsdatamängder.
Vilka olika versioner av ARC-AGI-riktmärket finns det?
Det finns nu tre huvudversioner av riktmärket:
ARC-AGI-1
Den ursprungliga versionen från 2019 består av statiska visuella pussel. Människor uppnår en genomsnittlig poäng på 95 % i detta spel, medan de flesta AI-system länge har fått poäng under 5 %.
ARC-AGI-2
Denna förbättrade version släpptes 2025 och är specifikt utformad för att utgöra en utmaning även för moderna resonemangssystem. Medan människor fortsätter att uppnå nästan 100 % framgång, klarar även avancerade AI-modeller bara 10–20 % av uppgifterna.
ARC-AGI-3
Den senaste versionen, som fortfarande är under utveckling, introducerar interaktiva element. Istället för statiska pussel måste AI-agenter lära sig genom utforskning och trial and error i en rutnätsvärld, ungefär som människor utforskar nya miljöer.
Hur presterar olika AI-modeller i ARC-AGI-testerna?
Prestandaskillnaderna mellan olika AI-modeller är betydande:
För ARC-AGI-1 uppnår Grok 4 cirka 68 %, medan GPT-5 når 65,7 %. Kostnaden per uppgift är cirka 1 USD för Grok 4 och 0,51 USD för GPT-5.
I ARC-AGI-2, det svårare testet, sjunker prestandan drastiskt: GPT-5 uppnår endast 9,9 % till en kostnad av 0,73 dollar per uppgift, medan Grok 4 (Tänkande) presterar bättre med cirka 16 %, men till en betydligt högre kostnad på 2–4 dollar.
Som förväntat visar billigare modellvarianter svagare prestanda: GPT-5 Mini uppnår 54,3 % på AGI-1 och 4,4 % på AGI-2, medan GPT-5 Nano bara når 16,5 % respektive 2,5 %.
Vad är hemligheten bakom förhandsvisningsmodellen för o3?
OpenAIs förhandsvisningsmodell för o3 representerar ett specialfall. I december 2024 uppnådde den imponerande prestandapoäng på 75,7 % till 87,5 % på ARC-AGI-1, beroende på vilken datorkraft som användes. Detta var första gången ett AI-system hade överträffat den mänskliga prestandagränsen på 85 %.
Det finns dock en viktig begränsning: Den offentligt tillgängliga versionen av o3 presterar betydligt sämre än den ursprungliga förhandsvisningsversionen. Enligt ARC Prize uppnår den släppta o3:an bara 41 % (låg beräkningsförmåga) och 53 % (medelberäkningsförmåga) på ARC-AGI-1, jämfört med 76–88 % i förhandsvisningsversionen.
OpenAI bekräftade att den publicerade modellen har en annan, mindre arkitektur och är optimerad för chatt och produktapplikationer. Denna skillnad väcker frågor om dess faktiska kapacitet och belyser vikten av att kritiskt utvärdera benchmarkresultat från opublicerade modeller.
Hur fungerar ARC-pristävlingen?
ARC-priset är en årlig tävling med en total prissumma på över en miljon amerikanska dollar, som syftar till att främja öppen källkods framsteg mot AGI (Actively Generic Architecture). Den nuvarande tävlingen 2025 pågår från 26 mars till 3 november på Kaggle-plattformen.
Prisstrukturen inkluderar:
- Huvudpris (700 000 USD): Låses upp när ett team uppnår 85 % noggrannhet på den privata utvärderingsdatauppsättningen
- Pris för högsta poäng (75 000 USD): För lagen med högst poäng
- Artikelpris (50 000 USD): För de mest betydande konceptuella framstegen
- Övriga priser (175 000 USD): Ytterligare kategorier meddelas senare
Det är viktigt att alla vinnare publicerar sina lösningar som öppen källkod. Detta ligger i linje med ARC Prize Foundations uppdrag att göra AGI-framsteg tillgängliga för hela forskarsamhället.
Vilka är de tekniska utmaningarna med ARC-AGI-riktmärket?
Uppgifterna i ARC-AGI kräver flera kognitiva förmågor som är självklara för människor men extremt svåra för AI-system:
Symboltolkning
AI måste förstå abstrakta symboler och härleda deras betydelse från sammanhanget.
Flerstegs kompositionstänkande
Problem måste delas upp i delsteg och lösas sekventiellt.
Kontextberoende regeltillämpning
Samma regel kan behöva tillämpas olika beroende på sammanhanget.
Generalisering från några exempel
Vanligtvis finns endast 2–3 demonstrationspar tillgängliga från vilka transformationsregeln måste härledas.
Vilken roll spelar träning under testtid för att lösa ARC-AGI?
Testtidsträning (TTT) har visat sig vara en lovande metod för att förbättra prestanda på ARC-AGI. Denna metod justerar dynamiskt modellparametrarna till aktuell indata under inferens, istället för att enbart förlita sig på förtränad kunskap.
MIT-forskare har visat att TTT avsevärt förbättrar språkmodellers prestanda på ARC-AGI. Metoden gör det möjligt för modellerna att anpassa sig under uppgiftslösning och lära sig av specifika exempel. Detta efterliknar mänskligt problemlösningsbeteende, där vi lägger mer tid på svåra problem.
Datasäkerhet i EU/DE | Integrering av en oberoende och källöverskridande AI-plattform för alla affärsbehov
Oberoende AI-plattformar som ett strategiskt alternativ för europeiska företag - Bild: Xpert.Digital
AI-spelförändrare: Den mest flexibla AI-plattformen - Skräddarsydda lösningar som minskar kostnader, förbättrar dina beslut och ökar effektiviteten
Oberoende AI-plattform: Integrerar alla relevanta företagsdatakällor
- Snabb AI-integration: Skräddarsydda AI-lösningar för företag på timmar eller dagar, istället för månader
- Flexibel infrastruktur: Molnbaserat eller hosting i eget datacenter (Tyskland, Europa, fritt val av plats)
- Maximal datasäkerhet: dess användning i advokatbyråer är ett obestridligt bevis
- Implementering över en mängd olika företagsdatakällor
- Val av egna eller olika AI-modeller (Tyskland, EU, USA, Kanada)
Mer information här:
Artificiell intelligens bortom skalning: Insikter från ARC-AGI-testet
Vad betyder resultaten för utvecklingen av AGI?
Resultaten visar på en betydande skillnad mellan mänsklig och artificiell intelligens. Medan människor löser ARC-AGI-uppgifter intuitivt, misslyckas även de mest avancerade AI-systemen med grundläggande kognitiva uppgifter.
François Chollet menar att det nuvarande paradigmet för AI-utveckling – att träna allt större modeller med mer data – har nått sina gränser. De dåliga resultaten på ARC-AGI, trots exponentiella ökningar i modellstorlek, bevisar enligt hans uppfattning att ”flytande intelligens inte uppstår genom att skala upp förträning”.
Framtiden skulle kunna ligga i nya metoder som testtidsanpassning, där modeller kan ändra sina egna tillstånd under körning för att anpassa sig till nya situationer.
Hur ser framtiden ut för ARC-AGI-riktmärket?
ARC Prize Foundation planerar kontinuerlig utveckling av riktmärket. ARC-AGI-3, med sina interaktiva element, är planerad att släppas i sin helhet 2026 och kommer att inkludera cirka 100 unika miljöer.
Stiftelsen strävar efter att utveckla riktmärken som ska fungera som en "nordstjärna" för utvecklingen av AGI. Detta innebär inte bara att mäta framsteg utan också att styra forskningen i riktningar som kan leda till verklig allmän information.
Vilka är de ekonomiska konsekvenserna av riktmärkets prestanda?
Kostnaden för att lösa ARC-AGI-problem varierar kraftigt mellan modeller och har en direkt inverkan på den praktiska tillämpbarheten.
Medan enkla uppgifter kan lösas med API-kostnader i centklassen, stiger kostnaderna för komplexa resonemangsuppgifter snabbt. O3-modellen kan till exempel kosta upp till 1 000 dollar per uppgift med hög datorkraft.
Denna kostnadsstruktur visar att även om tekniska genombrott uppnås, förblir ekonomisk genomförbarhet en avgörande faktor för en utbredd tillämpning av AGI-tekniker.
Vilka är de filosofiska implikationerna av ARC-AGI-resultaten?
Resultaten väcker grundläggande frågor om intelligensens natur. Riktmärket visar att det finns en grundläggande skillnad mellan att memorera mönster och sann förståelse.
Det faktum att människor löser dessa uppgifter utan ansträngning, medan AI-system misslyckas, tyder på att mänsklig intelligens fungerar kvalitativt annorlunda än nuvarande AI-metoder. Detta stöder Chollets argument att AGI kräver mer än bara större modeller och mer data.
Hur påverkar ARC-AGI inriktningen för AI-forskning?
Riktmärket har redan lett till ett nytänkande inom AI-forskning. Istället för att enbart fokusera på skalningsmodeller utforskar ledande laboratorier nu alternativa metoder som testtidsberäkning och adaptiva system.
Denna förändring återspeglas även i investeringar: företag investerar i allt större utsträckning i forskning om effektivare resonemang och problemlösning istället för allt större utbildningsomgångar.
Vilken roll spelar öppen källkodsgemenskapen?
ARC Prize Foundation betonar vikten av öppen källkod för AGI-framsteg. Alla tävlingsvinnare måste göra sina lösningar tillgängliga för allmänheten.
Denna filosofi bygger på övertygelsen att AGI är för viktigt för att utvecklas enbart i slutna laboratorier. Stiftelsen ser sig själv som en katalysator för ett samarbetsinriktat och transparent forskningssamhälle.
Vilka är begränsningarna med ARC-AGI-riktmärket?
Trots sin betydelse har ARC-AGI också begränsningar. Chollet betonar själv att det inte är synonymt med att uppnå AGI att klara testet. Riktmärket mäter bara en aspekt av intelligens – förmågan att lösa abstrakta problem.
Andra viktiga aspekter som kreativitet, emotionell intelligens eller långsiktig planering bedöms inte. Dessutom finns det en risk att system som är specifikt optimerade för ARC-AGI utvecklas och som klarar testet utan att egentligen vara generellt intelligenta.
Hur utvecklas kostnaderna för AI-modeller i samband med ARC-AGI?
Kostnadsutvecklingen visar intressanta trender. Medan prestandan bara ökar långsamt, exploderar kostnaderna för marginella förbättringar.
Denna kostnadsdynamik leder till en viktig insikt: effektivitet håller på att bli den avgörande differentieringsfaktorn. ARC Prize Foundation betonar att inte bara noggrannhet, utan även kostnaden per löst problem är ett avgörande kriterium.
Vad betyder ARC-AGI för framtidens arbete?
Resultaten har lugnande konsekvenser för många yrken. AI-systemens oförmåga att lösa grundläggande tankeuppgifter visar att mänskliga kognitiva förmågor långt ifrån är ersatta.
Samtidigt tyder framstegen inom specialiserade uppgifter på att AI kommer att fortsätta fungera som ett verktyg för att stödja mänskligt arbete, snarare än att helt ersätta det.
Vilka nya forskningsmetoder uppstår från ARC-AGI?
Riktmärket har inspirerat flera innovativa forskningsinriktningar:
Programsyntes
System som genererar program för att lösa problem.
Neurosymboliska tillvägagångssätt
Kombination av neurala nätverk med symboliskt resonemang.
Multiagentsystem
Flera specialiserade agenter samarbetar.
Evolutionära algoritmer
System som utvecklar lösningar genom evolution.
Vad är ARC Prize Foundations vision för framtiden?
Stiftelsen har ett tydligt uppdrag: att fungera som en "nordstjärna" för utvecklingen av öppna AGI. Detta innebär inte bara tekniska riktmärken, utan också skapandet av ett ekosystem som främjar innovation samtidigt som det säkerställer att AGI-framsteg gynnar hela mänskligheten.
Den kontinuerliga utvecklingen av nya benchmarkversioner syftar till att säkerställa att ribban ständigt höjs och att forskningen inte stagnerar. Med ARC-AGI-3 och framtida versioner strävar stiftelsen efter att ytterligare utforska gränserna för vad AI kan göra och vad den fortfarande saknar.
Vi finns här för dig - Konsulttjänster - Planering - Implementering - Projektledning
☑️ Stöd till små och medelstora företag inom strategi, konsultation, planering och implementering
☑️ Skapande eller omstrukturering av AI-strategin
☑️ Pionjär inom affärsutveckling
Jag skulle gärna fungera som din personliga rådgivare.
Du kan kontakta mig genom att fylla i kontaktformuläret nedan eller helt enkelt ringa mig på +49 7348 4088 965 .
Jag ser fram emot vårt gemensamma projekt.
Xpert.Digital - Konrad Wolfenstein
Xpert.Digital är ett nav för industrin med fokus på digitalisering, maskinteknik, logistik/intralogistik och solceller.
Med vår 360° affärsutvecklingslösning stödjer vi välrenommerade företag från nya affärer till eftermarknadsförsäljning.
Marknadsinformation, smarketing, marknadsautomation, innehållsutveckling, PR, utskick, personliga sociala medier och lead nurturing är en del av våra digitala verktyg.
Du hittar mer information på: www.xpert.digital - www.xpert.solar - www.xpert.plus


