Blogg/Portal för Smart Factory | Stad | Xr | Metaverse | Ki (ai) | Digitalisering | Solar | Industry Influencer (II)

Industry Hub & Blog för B2B Industry – Mechanical Engineering – Logistics/Instalogistics – Photovoltaics (PV/Solar)
för Smart Factory | Stad | Xr | Metaverse | Ki (ai) | Digitalisering | Solar | Industry Influencer (II) | Startups | Support/råd

Business Innovator – Xpert.Digital – Konrad Wolfenstein
Mer om detta här

AI-uppgörelse med ARC-riktmärket för AI-modeller: GPT-5 vs. Grok vs o3

Xpert pre-release


Konrad Wolfenstein – varumärkesambassadör – Industry InfluencerOnline -kontakt (Konrad Wolfenstein)

Röstval 📢

Publicerad den: 8 augusti 2025 / Uppdaterad den: 8 augusti 2025 – Författare: Konrad Wolfenstein

AI-uppgörelse med ARC-riktmärket för AI-modeller: GPT-5 vs. Grok vs o3

AI-uppgörelse om ARC-riktmärket för AI-modeller: GPT-5 vs. Grok vs o3 – Bild: Xpert.Digital

Den stora desillusioneringen: Varför allt större AI-modeller misslyckas med det avgörande intelligenstestet

Vad är ARC-AGI-riktmärket och varför utvecklades det?

ARC-AGI-riktmärket är en serie tester för att mäta den allmänna intelligensen hos AI-system, utvecklade av François Chollet år 2019. ARC står för "Abstraction and Reasoning Corpus for Artificial General Intelligence". Riktmärket skapades för att utvärdera AI-systems förmåga att förstå och lösa nya uppgifter som de inte uttryckligen har tränats för.

Utvecklingen av riktmärket baseras på Chollets definition av intelligens från hans banbrytande artikel "On the Measure of Intelligence". Han menar att sann intelligens inte ligger i att behärska specifika uppgifter, utan i effektiviteten i att förvärva nya färdigheter. Testet består av visuella pussel med färgade rutnät, där AI-system måste känna igen de underliggande transformationsreglerna och tillämpa dem på nya exempel.

Hur skiljer sig ARC-AGI från andra AI-riktmärken?

Till skillnad från konventionella AI-tester, som ofta förlitar sig på förkunskaper eller memorerade mönster, fokuserar ARC-AGI på så kallade "kärnkunskapsförkunskaper" – kognitiva färdigheter som objektbeständighet, räkning och rumslig förståelse. Dessa färdigheter förvärvas vanligtvis vid fyra års ålder.

Den viktigaste skillnaden är att ARC-AGI är specifikt utformat för att kunna lösas genom ren memorering eller datainterpolering. Varje uppgift i testet är unik och utvecklades specifikt för testet, så inga exempel på den bör finnas online. Detta gör testet motståndskraftigt mot de vanliga strategierna hos AI-system baserade på stora mängder träningsdata.

Vilka olika versioner av ARC-AGI-riktmärket finns det?

Det finns nu tre huvudversioner av riktmärket:

ARC-AGI-1

Den ursprungliga versionen från 2019, som består av statiska visuella pussel, har människor som uppnår ett genomsnitt på 95 %, medan de flesta AI-system länge har legat under 5 %.

ARC-AGI-2

Denna förbättrade version, som släpptes 2025, är specifikt utformad för att utmana även moderna resonemangssystem. Medan människor fortsätter att uppnå nästan 100 % prestanda, kan även avancerade AI-modeller bara hantera 10–20 % av uppgifterna.

ARC-AGI-3

Den senaste versionen, som fortfarande är under utveckling, introducerar interaktiva element. Istället för statiska pussel måste AI-agenter lära sig genom utforskning och trial and error i en rutnätsvärld, ungefär som hur människor utforskar nya miljöer.

Hur presterar olika AI-modeller i ARC-AGI-testerna?

Prestandaskillnaderna mellan olika AI-modeller är betydande:

På ARC-AGI-1 uppnår Grok 4 cirka 68 %, medan GPT-5 ligger på 65,7 %. Kostnaden per uppgift är cirka 1 dollar för Grok 4 och 0,51 dollar för GPT-5.

På ARC-AGI-2, det svårare testet, sjunker prestandan dramatiskt: GPT-5 uppnår endast 9,9 % till en kostnad av 0,73 dollar per uppgift, medan Grok 4 (Tänkande) presterar bättre med cirka 16 %, om än till en betydligt högre kostnad på 2–4 dollar.

Som förväntat visar billigare modellvarianter svagare prestanda: GPT-5 Mini uppnår 54,3 % på AGI-1 och 4,4 % på AGI-2, medan GPT-5 Nano bara uppnår 16,5 % respektive 2,5 %.

Vad är hemligheten bakom förhandsvisningsmodellen för o3?

OpenAIs o3-förhandsvisningsmodell representerar ett specialfall. I december 2024 uppnådde den imponerande 75,7 % till 87,5 % på ARC-AGI-1, beroende på vilken datorkraft som användes. Detta var första gången ett AI-system överträffade tröskeln för mänsklig prestanda på 85 %.

Det finns dock en viktig begränsning: Den offentligt tillgängliga versionen av o3 presterar betydligt sämre än den ursprungliga förhandsvisningsversionen. Enligt ARC-priset uppnår den släppta versionen av o3 endast 41 % (låg beräkningsförmåga) och 53 % (medelhög beräkningsförmåga) på ARC-AGI-1, jämfört med 76–88 % i förhandsvisningsversionen.

OpenAI bekräftade att den publicerade modellen har en annan, mindre arkitektur och är optimerad för chatt och produktapplikationer. Denna skillnad väcker frågor om dess faktiska kapacitet och belyser vikten av att kritiskt granska benchmarkresultat från opublicerade modeller.

Hur fungerar ARC-pristävlingen?

ARC-priset är en årlig tävling med en total prispott på över en miljon amerikanska dollar som syftar till att främja öppen källkods framsteg mot AGI. Den nuvarande tävlingen 2025 pågår från 26 mars till 3 november på Kaggle-plattformen.

Prisstrukturen inkluderar:

  • Huvudpris (700 000 USD): Låses upp när ett team uppnår 85 % noggrannhet på den privata utvärderingsdatauppsättningen.
  • Pris för högsta poäng (75 000 USD): För lagen med högsta poäng
  • Paperpris (50 000 USD): För de mest betydande konceptuella framstegen
  • Ytterligare priser (175 000 USD): Ytterligare kategorier kommer att tillkännages senare

Det är viktigt att alla vinnare publicerar sina lösningar som öppen källkod. Detta är i linje med ARC Prize Foundations uppdrag att göra AGI-framsteg tillgängliga för hela forskarsamhället.

Vilka är de tekniska utmaningarna med ARC-AGI-riktmärket?

Uppgifterna i ARC-AGI kräver flera kognitiva färdigheter som är naturliga för människor men extremt svåra för AI-system:

Symboltolkning

AI måste förstå abstrakta symboler och härleda deras betydelse från sammanhanget.

Flernivåigt kompositionstänkande

Problem måste delas upp i delsteg och lösas sekventiellt.

Kontextberoende regeltillämpning

Samma regel kan behöva tillämpas olika beroende på sammanhanget.

Generalisering från några exempel

Vanligtvis finns endast 2–3 demonstrationspar tillgängliga från vilka transformationsregeln måste härledas.

Vilken roll spelar träning under testtid för att lösa ARC-AGI?

Testtidsträning (TTT) har visat sig vara en lovande metod för att förbättra prestanda på ARC-AGI. Denna metod anpassar dynamiskt modellparametrar till aktuell indata under inferens, snarare än att enbart förlita sig på förtränad kunskap.

MIT-forskare har visat att TTT avsevärt förbättrar prestandan hos språkmodeller på ARC-AGI. Metoden gör det möjligt för modellerna att anpassa sig under uppgiftslösning och lära sig av specifika exempel. Detta efterliknar mänskligt problemlösningsbeteende, där vi lägger mer tid på svåra problem.

 

Datasäkerhet i EU/DE | Integrering av en oberoende och dataövergripande AI-plattform för alla affärsbehov

Oberoende AI -plattformar som ett strategiskt alternativ för europeiska företag

Oberoende AI-plattformar som ett strategiskt alternativ för europeiska företag – Bild: Xpert.Digital

Ki-Gamechanger: Den mest flexibla AI-plattformen – skräddarsydda lösningar som minskar kostnaderna, förbättrar deras beslut och ökar effektiviteten

Oberoende AI -plattform: Integrerar alla relevanta företagsdatakällor

  • Snabb AI-integration: Skräddarsydd AI-lösningar för företag i timmar eller dagar istället för månader
  • Flexibel infrastruktur: molnbaserad eller värd i ditt eget datacenter (Tyskland, Europa, gratis val av plats)
  • Högsta datasäkerhet: Användning i advokatbyråer är säkra bevis
  • Användning över ett brett utbud av företagsdatakällor
  • Val av dina egna eller olika AI -modeller (DE, EU, USA, CN)

Mer om detta här:

  • Oberoende AI-plattformar kontra hyperskalare: Vilken lösning är rätt för dig?

 

Artificiell intelligens bortom skala: Insikter från ARC-AGI-testet

Vad betyder resultaten för utvecklingen av AGI?

Resultaten visar på en tydlig skillnad mellan mänsklig och artificiell intelligens. Medan människor löser ARC-AGI-uppgifter intuitivt, misslyckas även toppmoderna AI-system med grundläggande resonemangsuppgifter.

François Chollet menar att det nuvarande paradigmet för AI-utveckling – att träna allt större modeller med mer data – har nått sina gränser. De dåliga resultaten på ARC-AGI, trots exponentiellt ökande modellstorlek, bevisar enligt hans uppfattning att "flytande intelligens inte uppstår genom att skala upp förträning".

Framtiden skulle kunna ligga i nya metoder som testtidsanpassning, där modeller kan ändra sina egna tillstånd under körning för att anpassa sig till nya situationer.

Hur ser framtiden ut för ARC-AGI-riktmärket?

ARC Prize Foundation planerar att kontinuerligt utveckla riktmärket. ARC-AGI-3, med sina interaktiva element, är planerad att släppas i sin helhet 2026 och kommer att inkludera cirka 100 unika miljöer.

Stiftelsens mål är att utveckla riktmärken som fungerar som en "nordstjärna" för utvecklingen av AGI. Detta syftar inte bara till att mäta framsteg utan också till att vägleda forskningen i riktningar som kan leda till verklig allmän information.

Vilka är de ekonomiska konsekvenserna av riktmärkets prestanda?

Kostnaden för att lösa ARC-AGI-uppgifter varierar kraftigt mellan modeller och har en direkt inverkan på den praktiska tillämpbarheten.

Medan enkla uppgifter kan lösas med API-kostnader i centklassen, stiger kostnaderna för komplexa resonemangsuppgifter snabbt. O3-modellen kan till exempel kosta upp till 1 000 dollar per uppgift vid hög datorkraft.

Denna kostnadsstruktur visar att även om tekniska genombrott uppnås, förblir ekonomisk genomförbarhet en avgörande faktor för ett brett införande av AGI-tekniker.

Vilka är de filosofiska implikationerna av ARC-AGI-resultaten?

Resultaten väcker grundläggande frågor om intelligensens natur. Riktmärket visar att det finns en grundläggande skillnad mellan att memorera mönster och sann förståelse.

Det faktum att människor löser dessa uppgifter utan ansträngning medan AI-system misslyckas tyder på att mänsklig intelligens fungerar kvalitativt annorlunda än nuvarande AI-metoder. Detta stöder Chollets argument att AGI kräver mer än bara större modeller och mer data.

Hur påverkar ARC-AGI AI-forskning?

Riktmärket har redan lett till ett nytänkande inom AI-forskning. Istället för att fokusera enbart på skalningsmodeller utforskar ledande laboratorier nu alternativa metoder som testtidsberäkning och adaptiva system.

Denna förändring återspeglas även i investeringar: företag investerar i allt större utsträckning i forskning om effektivare resonemang och problemlösning istället för i allt större utbildningsomgångar.

Vilken roll spelar öppen källkodsgemenskapen?

ARC Prize Foundation betonar vikten av öppen källkod för AGI-utveckling. Alla tävlingsvinnare är skyldiga att göra sina lösningar tillgängliga för allmänheten.

Denna filosofi bygger på övertygelsen att AGI är för viktigt för att utvecklas enbart i slutna laboratorier. Stiftelsen ser sig själv som en katalysator för ett samarbetsinriktat och transparent forskningssamhälle.

Vilka är begränsningarna med ARC-AGI-riktmärket?

Trots sin betydelse har ARC-AGI också begränsningar. Chollet betonar själv att ett godkänt test inte innebär att man uppnår AGI. Riktmärket mäter bara en aspekt av intelligens – förmågan att lösa abstrakta problem.

Andra viktiga aspekter som kreativitet, emotionell intelligens eller långsiktig planering mäts inte. Dessutom finns det en risk att system som är specifikt optimerade för ARC-AGI utvecklas men som klarar testet utan att vara verkligt intelligenta i allmänhet.

Hur utvecklas kostnaderna för AI-modeller i samband med ARC-AGI?

Kostnadstrenderna visar intressanta trender. Medan prestandan bara ökar långsamt, exploderar kostnaderna för marginella förbättringar.

Denna kostnadsdynamik leder till en viktig insikt: effektivitet håller på att bli den viktigaste differentieringsfaktorn. ARC Prize Foundation betonar att inte bara noggrannhet utan även kostnaden per löst uppgift är ett viktigt kriterium.

Vad betyder ARC-AGI för framtidens arbete?

Resultaten har lugnande konsekvenser för många yrken. AI-systemens oförmåga att lösa grundläggande resonemangsuppgifter visar att mänskliga kognitiva förmågor långt ifrån är ersatta.

Samtidigt tyder framstegen inom specialiserade uppgifter på att AI kommer att fortsätta fungera som ett verktyg för att stödja mänskligt arbete snarare än att helt ersätta det.

Vilka nya forskningsmetoder framträder genom ARC-AGI?

Riktmärket har inspirerat flera innovativa forskningsinriktningar:

Programsyntes

System som genererar program för att lösa problem.

Neurosymboliska tillvägagångssätt

Kombination av neurala nätverk med symboliskt resonemang.

Multiagentsystem

Flera specialiserade agenter arbetar tillsammans.

Evolutionära algoritmer

System som utvecklar lösningar på ett evolutionärt sätt.

Vad är ARC Prize Foundations vision för framtiden?

Stiftelsen har ett tydligt uppdrag: att fungera som en "nordstjärna" för utvecklingen av öppen AGI. Det handlar inte bara om att sätta tekniska riktmärken, utan om att skapa ett ekosystem som främjar innovation samtidigt som det säkerställer att AGI-framsteg gynnar hela mänskligheten.

Den kontinuerliga utvecklingen av nya benchmarkversioner syftar till att säkerställa att ribban kontinuerligt höjs och att forskningen inte stagnerar. Med ARC-AGI-3 och framtida versioner strävar stiftelsen efter att ytterligare utforska gränserna för vad AI kan göra och vad den fortfarande saknar.

 

Vi är där för dig – Råd – Planering – Implementering – Projektledning

☑ SME -stöd i strategi, rådgivning, planering och implementering

☑ Skapande eller omjustering av AI -strategin

☑ Pioneer Business Development

 

Digital Pioneer – Konrad Wolfenstein

Konrad Wolfenstein

Jag hjälper dig gärna som personlig konsult.

Du kan kontakta mig genom att fylla i kontaktformuläret nedan eller helt enkelt ringa mig på +49 89 674 804 (München) .

Jag ser fram emot vårt gemensamma projekt.

 

 

Skriv mig

Skriv mig – Konrad Wolfenstein / Xpert.Digital

Konrad Wolfenstein / Xpert.Digital – Brand Ambassador & Industry Influencer (II) – Videosamtal med Microsoft -team➡ Videosamtalsförfrågan 👩👱
 
Xpert.digital – Konrad Wolfenstein

Xpert.Digital är ett nav för bransch med fokus, digitalisering, maskinteknik, logistik/intralogistik och fotovoltaik.

Med vår 360 ° affärsutvecklingslösning stöder vi välkända företag från ny verksamhet till efter försäljning.

Marknadsintelligens, smarketing, marknadsföringsautomation, innehållsutveckling, PR, postkampanjer, personliga sociala medier och blyomsorg är en del av våra digitala verktyg.

Du kan hitta mer på: www.xpert.digital – www.xpert.solar – www.xpert.plus

Hålla kontakten med

Infomail / Nyhetsbrev: Håll kontakten med Konrad Wolfenstein / Xpert.Digital

Fler ämnen

  • Grok 3 mini: Ytterligare utveckling av de kostnadseffektiva AI-språkmodellerna
    Grok 3 mini: Ytterligare utveckling av de kostnadseffektiva AI-språkmodellerna ...
  • ChatGPT för hemmet? Framstegen inom lokal AI: OpenAIs nya AI-modeller demokratiserar artificiell intelligens
    ChatGPT för hemmet? Utvecklingen av lokal AI: OpenAIs nya AI-modeller demokratiserar artificiell intelligens...
  • AI -modeller i siffror: 15 stora språkmodeller – 149 grundmodeller /
    AI -modeller i siffror: Topp 15 stora språkmodeller – 149 Grundmodeller / "Foundation Models" – Machine Learning Models ...
  • Chatgpt blir en super-ki-agent: Openais nya AI-modeller O3 och O4-Mini tänker nu!
    Chatgpt blir en super-ki-agent: Openais nya AI-modeller O3 och O4-Mini tänker nu! ...
  • AI Model GPT-4.1 & Mini & Nano från OpenAI: Programmering Boost for Software Development – The End of GPT-4.5?
    API AI-modellerna GPT-4.1 & Mini & Nano från OpenAAI: Programmering Boost for Software Development – The End of GPT-4.5? ...
  • Deepseek V3: Förbättrad AI -modell med imponerande AI -prestanda överstiger toppmodeller i riktmärken
    Deepseek V3: Förbättrad AI -modell med imponerande AI -prestanda överstiger toppmodeller i riktmärken ...
  • Grok 4: Den nya AI -milstolpen från XAI erövrar toppen av konstgjord intelligens
    Grok 4: Den nya AI -milstolpen från XAI erövrar spetsen för konstgjord intelligens ...
  • En ny
    Ett nytt "Sputnik -ögonblick"? AI -modeller: Kommer Kimi K3 snart? Varför väljer Kimi K2 AI -industrin? ...
  • Nyheter om Supergrok – Grok 2, Grok 3 och App Store släppt den 28 februari 2025
    Nyheter om Supergrok – The Grok 2, Grok 3 och App Store släppt den 28 februari 2025 ...
Konstgjord intelligens: Stor och omfattande KI -blogg för B2B och små och medelstora företag inom kommersiella, industri och maskinteknikKontakt – Frågor – Hjälp – Konrad Wolfenstein / Xpert.DigitalIndustriell metaverse online -konfiguratorUrbanisering, logistik, fotovoltaik och 3D -visualiseringar infotainment / PR / marknadsföring / media 
  • Materialhantering – Lageroptimering – Råd – med Konrad Wolfenstein / Xpert.DigitalSolar / Photovoltaic – Rådplanering – Installation – med Konrad Wolfenstein / Xpert.Digital
  • Conntect med mig:

    LinkedIn Contact – Konrad Wolfenstein / Xpert.Digital
  • Kategorier

    • Logistik/intralogistik
    • Artificial Intelligence (AI) – -blogg, hotspot och innehållsnav
    • Förnybar energi
    • Framtidsvärme Systems – Kolvärmesystem (kolfibervärme) – Infraröd uppvärmning – Värmepumpar
    • Smart & Intelligent B2B / Industry 4.0 (Maskinteknik, byggbransch, logistik, intralogistik) – Producerande handel
    • Smart City & Intelligent Cities, Hubs & Columbarium – Urbanization Solutions – City Logistics Advice and Planning
    • Sensor och mätningsteknik – Branschsensorer – Smart & Intelligent – Autonoma & Automation Systems
    • Augmented & Extended Reality – Metaver's Planning Office / Agency
    • Digital nav för entreprenörskap och nystartade företag – Information, tips, support och råd
    • Agri-Photovoltaic (Agrar-PV) Råd, planering och implementering (konstruktion, installation och montering)
    • Täckta solparkeringsplatser: Solar Carport – Solar Carports – Solar Carports
    • Elminne, batterilagring och energilagring
    • Blockchain -teknik
    • Försäljnings-/marknadsföringsblogg
    • AIS Artificial Intelligence Search / Kis – Ki-Search / Neo SEO = NSEO (nästa gen Sökmotoroptimering)
    • Digital intelligens
    • Digital transformation
    • E-handel
    • Internet of Things
    • Robotik/robotik
    • Nytt: Ekonomi
    • Usa
    • Porslin
    • Nav för säkerhet och försvar
    • Sociala medier
    • Vindkraft / vindkraft
    • Kall kedjelogistik (färsk logistik/kyllogistik)
    • Expertråd och insiderkunskap
    • Press – Xpert Press Work | Råd och erbjudande
  • Fler artiklar: Hurra, GPT-5 är här! Hype eller inte, vad erbjuder GPT-5 oss mer? Alla viktiga frågor och svar på en överblick.
  • Xpert.digital översikt
  • Xpert.digital SEO
Kontakt/info
  • Kontakt – Pioneer Business Development Expert och expertis
  • Kontaktformulär
  • avtryck
  • Dataskyddsförklaring
  • Villkor
  • E.xpert infotainment
  • Utstrålning
  • Solar Systems Configurator (alla varianter)
  • Industrial (B2B/Business) Metaverse Configurator
Meny/kategorier
  • B2B-upphandling: försörjningskedjor, handel, marknadsplatser och AI-stödd inköp
  • Tabeller för skrivbordet
  • Logistik/intralogistik
  • Artificial Intelligence (AI) – -blogg, hotspot och innehållsnav
  • Förnybar energi
  • Framtidsvärme Systems – Kolvärmesystem (kolfibervärme) – Infraröd uppvärmning – Värmepumpar
  • Smart & Intelligent B2B / Industry 4.0 (Maskinteknik, byggbransch, logistik, intralogistik) – Producerande handel
  • Smart City & Intelligent Cities, Hubs & Columbarium – Urbanization Solutions – City Logistics Advice and Planning
  • Sensor och mätningsteknik – Branschsensorer – Smart & Intelligent – Autonoma & Automation Systems
  • Augmented & Extended Reality – Metaver's Planning Office / Agency
  • Digital nav för entreprenörskap och nystartade företag – Information, tips, support och råd
  • Agri-Photovoltaic (Agrar-PV) Råd, planering och implementering (konstruktion, installation och montering)
  • Täckta solparkeringsplatser: Solar Carport – Solar Carports – Solar Carports
  • Energisk renovering och nybyggnation – energieffektivitet
  • Elminne, batterilagring och energilagring
  • Blockchain -teknik
  • Försäljnings-/marknadsföringsblogg
  • AIS Artificial Intelligence Search / Kis – Ki-Search / Neo SEO = NSEO (nästa gen Sökmotoroptimering)
  • Digital intelligens
  • Digital transformation
  • E-handel
  • Ekonomi / blogg / ämnen
  • Internet of Things
  • Robotik/robotik
  • Nytt: Ekonomi
  • Usa
  • Porslin
  • Nav för säkerhet och försvar
  • Trender
  • I praktiken
  • vision
  • Cyber ​​Crime/Data Protection
  • Sociala medier
  • esports
  • ordlista
  • Hälsosam kost
  • Vindkraft / vindkraft
  • Innovation och strategiplanering, råd, implementering för artificiell intelligens / fotovoltaik / logistik / digitalisering / finansiering
  • Kall kedjelogistik (färsk logistik/kyllogistik)
  • Solar i Ulm, runt Neu -Ulm och runt Biberach Photovoltaic Solar Systems – Råd – Planering – Installation
  • Franconia / Franconian Schweiz – Solar / Photovoltaic Solar Systems – Råd – Planering – Installation
  • Berlin och Berlin Area – Solar/Photovoltaic Solar Systems – Råd – Planering – Installation
  • Augsburg och Augsburg Area – Solar/Photovoltaic Solar Systems – Råd – Planering – Installation
  • Nya PV-lösningar
  • Expertråd och insiderkunskap
  • Press – Xpert Press Work | Råd och erbjudande
  • Xpaper
  • Xsek
  • Skyddsområde
  • Preliminär version
  • Engelsk version för LinkedIn

© augusti 2025 Xpert.Digital / Xpert.Plus – Konrad Wolfenstein – Affärsutveckling