KI-konfrontasie op die ARC-maatstaf van KI-modelle: GPT-5 vs. Grok vs o3

Konrad Wolfenstein

4 maande gelede

KI-konfrontasie op die ARC-maatstaf van KI-modelle: GPT-5 vs. Grok vs o3 – Beeld: Xpert.Digital

Die groot ontnugtering: Waarom toenemend groter KI-modelle die deurslaggewende intelligensietoets druip

Wat is die ARC-AGI-maatstaf en waarom is dit ontwikkel?

Die ARC-AGI-maatstaf is 'n reeks toetse vir die meting van die algemene intelligensie van KI-stelsels, ontwikkel deur François Chollet in 2019. ARC staan vir "Abstraksie- en Redeneringskorpus vir Kunsmatige Algemene Intelligensie." Die maatstaf is geskep om die vermoë van KI-stelsels te evalueer om nuwe take te verstaan en op te los waarvoor hulle nie eksplisiet opgelei is nie.

Die ontwikkeling van die maatstaf is gebaseer op Chollet se definisie van intelligensie uit sy baanbrekersartikel "On the Measure of Intelligence." Hy voer aan dat ware intelligensie nie in die bemeestering van spesifieke take lê nie, maar in die doeltreffendheid van die aanleer van nuwe vaardighede. Die toets bestaan uit visuele legkaarte met gekleurde roosters, waar KI-stelsels die onderliggende transformasiereëls moet herken en dit op nuwe voorbeelde moet toepas.

Hoe verskil ARC-AGI van ander KI-maatstawwe?

Anders as konvensionele KI-toetse, wat dikwels staatmaak op vorige kennis of gememoriseerde patrone, fokus ARC-AGI op sogenaamde "kernkennis-voorafgaande vaardighede" - basiese kognitiewe vaardighede soos voorwerppermanensie, tel en ruimtelike begrip. Hierdie vaardighede word tipies teen die ouderdom van vier aangeleer.

Die belangrikste verskil is dat ARC-AGI spesifiek ontwerp is om oplosbaar te wees deur suiwer memorisering of data-interpolasie. Elke taak in die maatstaf is uniek en is spesifiek vir die toets ontwikkel, dus geen voorbeelde daarvan behoort aanlyn te bestaan nie. Dit maak die toets bestand teen die gewone strategieë van KI-stelsels gebaseer op groot hoeveelhede opleidingsdata.

Wat is die verskillende weergawes van die ARC-AGI-maatstaf?

Daar is nou drie hoofweergawes van die maatstaf:

ARC-AGI-1

Die oorspronklike 2019-weergawe, wat uit statiese visuele legkaarte bestaan, het mense wat 'n gemiddeld van 95% behaal, terwyl die meeste KI-stelsels lankal onder 5% was.

ARC-AGI-2

Hierdie verbeterde weergawe, wat in 2025 vrygestel is, is spesifiek ontwerp om selfs moderne redenasiestelsels uit te daag. Terwyl mense steeds byna 100% werkverrigting behaal, kan selfs gevorderde KI-modelle slegs 10-20% van die take hanteer.

ARC-AGI-3

Die nuutste weergawe, steeds in ontwikkeling, stel interaktiewe elemente bekend. In plaas van statiese legkaarte, moet KI-agente leer deur verkenning en probeer-en-tref in 'n roosterwêreld, soortgelyk aan hoe mense nuwe omgewings verken.

Hoe presteer verskillende KI-modelle in die ARC-AGI-toetse?

Die prestasieverskille tussen verskillende KI-modelle is beduidend:

Op ARC-AGI-1 behaal Grok 4 ongeveer 68%, terwyl GPT-5 op 65.7% is. Die koste per taak is ongeveer $1 vir Grok 4 en $0.51 vir GPT-5.

Op ARC-AGI-2, die moeiliker toets, daal prestasie dramaties: GPT-5 behaal slegs 9.9% teen 'n koste van $0.73 per taak, terwyl Grok 4 (Denke) beter presteer teen ongeveer 16%, alhoewel teen 'n aansienlik hoër koste van $2-4.

Soos verwag, toon goedkoper modelvariante swakker prestasie: GPT-5 Mini behaal 54.3% op AGI-1 en 4.4% op AGI-2, terwyl GPT-5 Nano slegs onderskeidelik 16.5% en 2.5% behaal.

Wat is die geheim van die o3 voorskoumodel?

OpenAI se o3-voorskoumodel verteenwoordig 'n spesiale geval. In Desember 2024 het dit 'n indrukwekkende 75,7% tot 87,5% op ARC-AGI-1 behaal, afhangende van die rekenaarkrag wat gebruik word. Dit was die eerste keer dat 'n KI-stelsel die menslike prestasiedrempel van 85% oorskry het.

Daar is egter een belangrike beperking: Die publiek beskikbare weergawe van o3 presteer aansienlik swakker as die oorspronklike voorskouweergawe. Volgens die ARC-prys behaal die vrygestelde weergawe van o3 slegs 41% (lae berekening) en 53% (medium berekening) op ARC-AGI-1, in vergelyking met die 76-88% van die voorskouweergawe.

OpenAI het bevestig dat die gepubliseerde model 'n ander, kleiner argitektuur het en geoptimaliseer is vir klets- en produktoepassings. Hierdie teenstrydigheid laat vrae ontstaan oor die werklike vermoëns daarvan en beklemtoon die belangrikheid daarvan om maatstafresultate van ongepubliseerde modelle krities te ondersoek.

Hoe werk die ARC-pryskompetisie?

Die ARC-prys is 'n jaarlikse kompetisie met 'n totale prysfonds van meer as een miljoen Amerikaanse dollar wat daarop gemik is om oopbronvordering in die rigting van AGI te bevorder. Die huidige 2025-kompetisie loop van 26 Maart tot 3 November op die Kaggle-platform.

Die prysstruktuur sluit in:

Grootprys (700,000 USD): Ontsluit wanneer 'n span 85% akkuraatheid op die private evalueringsdatastel behaal.
Toptellingprys (75 000 USD): Vir die spanne met die hoogste tellings
Papierprys (50 000 USD): Vir die belangrikste konseptuele vooruitgang
Bykomende pryse (175 000 USD): Bykomende kategorieë word binnekort aangekondig

Dit is belangrik dat alle wenners hul oplossings as oopbron moet publiseer. Dit is in lyn met die ARC-prysstigting se missie om AGI-vooruitgang toeganklik te maak vir die hele navorsingsgemeenskap.

Wat is die tegniese uitdagings van die ARC-AGI-maatstaf?

Die take in ARC-AGI vereis verskeie kognitiewe vaardighede wat natuurlik vir mense is, maar uiters moeilik vir KI-stelsels:

Simboolinterpretasie

KI moet abstrakte simbole verstaan en hul betekenis uit die konteks aflei.

Multi-vlak komposisionele denke

Probleme moet in substappe verdeel word en opeenvolgend opgelos word.

Konteksafhanklike reëltoepassing

Dieselfde reël moet moontlik anders toegepas word, afhangende van die konteks.

Veralgemening uit 'n paar voorbeelde

Tipies is slegs 2-3 demonstrasiepare beskikbaar waaruit die transformasiereël afgelei moet word.

Watter rol speel toetstydse opleiding in die oplossing van ARC-AGI?

Toetstydse opleiding (TTT) het bewys dat dit 'n belowende benadering is om prestasie op ARC-AGI te verbeter. Hierdie metode pas modelparameters dinamies aan by die huidige invoerdata tydens inferensie, eerder as om slegs op voorafopgeleide kennis staat te maak.

MIT-navorsers het gedemonstreer dat TTT die werkverrigting van taalmodelle op ARC-AGI aansienlik verbeter. Die metode laat die modelle toe om aan te pas tydens taakoplossing en uit spesifieke voorbeelde te leer. Dit boots menslike probleemoplossingsgedrag na, waarin ons meer tyd aan moeilike probleme spandeer.

EU/DE Datasekuriteit | Integrasie van 'n onafhanklike en kruis-databron KI-platform vir alle sakebehoeftes

Onafhanklike KI-platforms as 'n strategiese alternatief vir Europese maatskappye - Beeld: Xpert.Digital

Ki-GameShanger: die mees buigsame AI-platform-tailor-vervaardigde oplossings wat koste verlaag, hul besluite verbeter en doeltreffendheid verhoog

Onafhanklike AI -platform: integreer alle relevante maatskappy -databronne

Vinnige AI-integrasie: AI-oplossings vir maatskappye vir ondernemings in ure of dae in plaas van maande
Buigsame infrastruktuur: wolkgebaseerde of hosting in u eie datasentrum (Duitsland, Europa, vrye keuse van ligging)

Hoogste datasekuriteit: Gebruik in regsfirmas is die veilige getuienis
Gebruik oor 'n wye verskeidenheid maatskappy -databronne
Keuse van u eie of verskillende AI -modelle (DE, EU, VSA, CN)

Meer daaroor hier:

Onafhanklike KI-platforms teenoor hiperskalers: Watter oplossing is reg vir jou?

Kunsmatige Intelligensie Verder as Skaal: Insigte uit die ARC-AGI-toets

Wat beteken die resultate vir die ontwikkeling van AGI?

Die resultate toon 'n duidelike gaping tussen menslike en kunsmatige intelligensie. Terwyl mense ARC-AGI-take intuïtief oplos, faal selfs die nuutste KI-stelsels met basiese redenasietake.

François Chollet voer aan dat die huidige paradigma van KI-ontwikkeling – die opleiding van steeds groter modelle met meer data – sy perke bereik het. Die swak resultate op ARC-AGI, ten spyte van eksponensieel toenemende modelgrootte, bewys, na sy mening, dat "vloeibare intelligensie nie voortspruit uit die opskaal van vooropleiding nie."

Die toekoms kan lê in nuwe benaderings soos toetstyd-aanpassing, waar modelle hul eie toestande tydens looptyd kan verander om by nuwe situasies aan te pas.

Hoe lyk die toekoms van die ARC-AGI-maatstaf?

Die ARC-prysstigting beplan om die maatstaf voortdurend te ontwikkel. ARC-AGI-3, met sy interaktiewe elemente, is geskeduleer vir volle vrystelling in 2026 en sal ongeveer 100 unieke omgewings insluit.

Die Stigting se doel is om maatstawwe te ontwikkel wat as 'n "noordster" vir AGI-ontwikkeling dien. Dit is nie net daarop gemik om vordering te meet nie, maar ook om navorsing in rigtings te lei wat tot ware algemene intelligensie kan lei.

Wat is die ekonomiese implikasies van maatstafprestasie?

Die koste om ARC-AGI-take op te los, wissel baie tussen modelle en het 'n direkte impak op praktiese toepaslikheid.

Terwyl eenvoudige take met API-koste in die sentreeks opgelos kan word, styg die koste vir komplekse redenasietake vinnig. Die o3-model kan byvoorbeeld tot $1 000 per taak teen hoë rekenaarkrag kos.

Hierdie kostestruktuur toon dat selfs al word tegniese deurbrake behaal, ekonomiese haalbaarheid 'n deurslaggewende faktor bly vir die wydverspreide aanvaarding van AGI-tegnologieë.

Wat is die filosofiese implikasies van die ARC-AGI-resultate?

Die resultate laat fundamentele vrae ontstaan oor die aard van intelligensie. Die maatstaf toon dat daar 'n fundamentele verskil is tussen die memorisering van patrone en ware begrip.

Die feit dat mense hierdie take moeiteloos oplos terwyl KI-stelsels faal, dui daarop dat menslike intelligensie kwalitatief anders funksioneer as huidige KI-benaderings. Dit ondersteun Chollet se argument dat AGI meer as net groter modelle en meer data vereis.

Hoe beïnvloed ARC-AGI KI-navorsing?

Die maatstaf het reeds gelei tot 'n herbesinning in KI-navorsing. In plaas daarvan om uitsluitlik op skaalmodelle te fokus, ondersoek toonaangewende laboratoriums nou alternatiewe benaderings soos toetstyd-berekening en aanpasbare stelsels.

Hierdie verskuiwing word ook weerspieël in beleggings: maatskappye belê toenemend in navorsing oor meer doeltreffende redenasie en probleemoplossing in plaas van in al groter opleidingslopies.

Watter rol speel die oopbrongemeenskap?

Die ARC-prysstigting beklemtoon die belangrikheid van oopbron-ontwikkeling vir AGI-vooruitgang. Alle kompetisiewenners word vereis om hul oplossings publiek beskikbaar te stel.

Hierdie filosofie is gebaseer op die oortuiging dat AGI te belangrik is om uitsluitlik in geslote laboratoriums ontwikkel te word. Die Stigting sien hulself as 'n katalisator vir 'n samewerkende, deursigtige navorsingsgemeenskap.

Wat is die beperkings van die ARC-AGI-maatstaf?

Ten spyte van die belangrikheid daarvan, het ARC-AGI ook beperkings. Chollet beklemtoon self dat die slaag van die toets nie gelykstaande is aan die bereiking van AGI nie. Die maatstaf meet slegs een aspek van intelligensie—die vermoë om abstrakte probleme op te los.

Ander belangrike aspekte soos kreatiwiteit, emosionele intelligensie of langtermynbeplanning word nie gemeet nie. Verder is daar 'n risiko dat stelsels wat spesifiek vir ARC-AGI geoptimaliseer is, ontwikkel sal word wat die toets slaag sonder om oor die algemeen werklik intelligent te wees.

Hoe ontwikkel die koste van KI-modelle in die konteks van ARC-AGI?

Koste-tendense toon interessante tendense. Terwyl prestasie stadig toeneem, ontplof die koste vir marginale verbeterings.

Hierdie kostedinamika lei tot 'n belangrike insig: doeltreffendheid word die belangrikste onderskeidende faktor. Die ARC-prysstigting beklemtoon dat nie net akkuraatheid nie, maar ook die koste per opgeloste taak 'n belangrike kriterium is.

Wat beteken ARC-AGI vir die toekoms van werk?

Die resultate het gerusstellende implikasies vir baie beroepe. Die onvermoë van KI-stelsels om basiese redenasietake op te los, toon dat menslike kognitiewe vermoëns nog lank nie vervang kan word nie.

Terselfdertyd dui vooruitgang in gespesialiseerde take daarop dat KI sal voortgaan om as 'n instrument te dien om menslike werk te ondersteun eerder as om dit heeltemal te vervang.

Watter nuwe navorsingsbenaderings ontstaan deur ARC-AGI?

Die maatstaf het verskeie innoverende navorsingsrigtings geïnspireer:

Program Sintese

Stelsels wat programme genereer om probleme op te los.

Neurosimboliese benaderings

Kombinasie van neurale netwerke met simboliese redenasie.

Multi-agent stelsels

Verskeie gespesialiseerde agente werk saam.

Evolusionêre algoritmes

Stelsels wat oplossings op 'n evolusionêre wyse ontwikkel.

Wat is die ARC-prysstigting se visie vir die toekoms?

Die Stigting het 'n duidelike missie: om as 'n "Noordster" te dien vir die ontwikkeling van oop AGI. Dit gaan nie net oor die stel van tegniese maatstawwe nie, maar oor die skep van 'n ekosisteem wat innovasie bevorder terwyl verseker word dat AGI-vooruitgang die hele mensdom bevoordeel.

Die voortdurende ontwikkeling van nuwe maatstafweergawes is bedoel om te verseker dat die standaard voortdurend verhoog word en navorsing nie stagneer nie. Met ARC-AGI-3 en toekomstige weergawes beoog die Stigting om die grense van wat KI kan doen en wat dit nog kortkom, verder te ondersoek.

Ons is daar vir jou - advies - beplanning - implementering - projekbestuur

☑️ KMO-ondersteuning in strategie, konsultasie, beplanning en implementering

☑️ Die skepping of herbelyning van die AI -strategie

☑️ Pionier Besigheidsontwikkeling

Konrad Wolfenstein

Ek sal graag as jou persoonlike adviseur dien.

Jy kan my kontak deur die kontakvorm hieronder in te vul of my eenvoudig by +49 89 89 674 804 (München) .

Ek sien uit na ons gesamentlike projek.

Skryf aan my

➡️ Video-oproepversoek 👩👱

Xpert.Digitaal - Konrad Wolfenstein

Xpert.Digital is 'n spilpunt vir die industrie met 'n fokus op digitalisering, meganiese ingenieurswese, logistiek/intralogistiek en fotovoltaïese.

Met ons 360° besigheidsontwikkelingsoplossing ondersteun ons bekende maatskappye van nuwe besigheid tot naverkope.

Markintelligensie, smarketing, bemarkingsoutomatisering, inhoudontwikkeling, PR, posveldtogte, persoonlike sosiale media en loodversorging is deel van ons digitale hulpmiddels.

Jy kan meer uitvind by: www.xpert.digital - www.xpert.solar - www.xpert.plus

Behou kontak

Die groot ontnugtering: Waarom toenemend groter KI-modelle die deurslaggewende intelligensietoets druip

Wat is die ARC-AGI-maatstaf en waarom is dit ontwikkel?

Hoe verskil ARC-AGI van ander KI-maatstawwe?

Wat is die verskillende weergawes van die ARC-AGI-maatstaf?

ARC-AGI-1

ARC-AGI-2

ARC-AGI-3

Hoe presteer verskillende KI-modelle in die ARC-AGI-toetse?

Wat is die geheim van die o3 voorskoumodel?

Hoe werk die ARC-pryskompetisie?

Wat is die tegniese uitdagings van die ARC-AGI-maatstaf?

Simboolinterpretasie

Multi-vlak komposisionele denke

Konteksafhanklike reëltoepassing

Veralgemening uit 'n paar voorbeelde

Watter rol speel toetstydse opleiding in die oplossing van ARC-AGI?

EU/DE Datasekuriteit | Integrasie van 'n onafhanklike en kruis-databron KI-platform vir alle sakebehoeftes

Ki-GameShanger: die mees buigsame AI-platform-tailor-vervaardigde oplossings wat koste verlaag, hul besluite verbeter en doeltreffendheid verhoog

Onafhanklike AI -platform: integreer alle relevante maatskappy -databronne

Kunsmatige Intelligensie Verder as Skaal: Insigte uit die ARC-AGI-toets

Wat beteken die resultate vir die ontwikkeling van AGI?

Hoe lyk die toekoms van die ARC-AGI-maatstaf?

Wat is die ekonomiese implikasies van maatstafprestasie?

Wat is die filosofiese implikasies van die ARC-AGI-resultate?

Hoe beïnvloed ARC-AGI KI-navorsing?

Watter rol speel die oopbrongemeenskap?

Wat is die beperkings van die ARC-AGI-maatstaf?

Hoe ontwikkel die koste van KI-modelle in die konteks van ARC-AGI?

Wat beteken ARC-AGI vir die toekoms van werk?

Watter nuwe navorsingsbenaderings ontstaan deur ARC-AGI?

Program Sintese

Neurosimboliese benaderings

Multi-agent stelsels

Evolusionêre algoritmes

Wat is die ARC-prysstigting se visie vir die toekoms?

☑️ KMO-ondersteuning in strategie, konsultasie, beplanning en implementering

☑️ Die skepping of herbelyning van die AI -strategie

☑️ Pionier Besigheidsontwikkeling

ander onderwerpe