Webwerf-ikoon Xpert.Digitaal

KI-konfrontasie op die ARC-maatstaf van KI-modelle: GPT-5 vs. Grok vs o3

KI-konfrontasie op die ARC-maatstaf van KI-modelle: GPT-5 vs. Grok vs o3

KI-konfrontasie op die ARC-maatstaf van KI-modelle: GPT-5 vs. Grok vs o3 – Beeld: Xpert.Digital

Die groot ontnugtering: Waarom toenemend groter KI-modelle die deurslaggewende intelligensietoets druip

Wat is die ARC-AGI-maatstaf en waarom is dit ontwikkel?

Die ARC-AGI-maatstaf is 'n toetsreeks vir die meting van die algemene intelligensie van KI-stelsels, wat in 2019 deur François Chollet ontwikkel is. ARC staan ​​vir "Abstraksie- en Redeneringskorpus vir Kunsmatige Algemene Intelligensie." Die maatstaf is geskep om die vermoë van KI-stelsels te evalueer om nuwe take te verstaan ​​en op te los waarvoor hulle nie eksplisiet opgelei is nie.

Die ontwikkeling van die maatstaf is gebaseer op Chollet se definisie van intelligensie uit sy baanbrekersartikel, "On the Measure of Intelligence." Hy voer aan dat ware intelligensie nie lê in die bemeestering van spesifieke take nie, maar in die doeltreffendheid van die aanleer van nuwe vaardighede. Die toets bestaan ​​uit visuele legkaarte met gekleurde roosters, waar KI-stelsels die onderliggende transformasiereëls moet identifiseer en dit op nuwe voorbeelde moet toepas.

Hoe verskil ARC-AGI van ander KI-maatstawwe?

Anders as konvensionele KI-toetse, wat dikwels staatmaak op vorige kennis of gememoriseerde patrone, fokus ARC-AGI op sogenaamde "Kernkennis-Priors" - fundamentele kognitiewe vaardighede soos objekpermanensie, tel en ruimtelike redenasie. Hierdie vaardighede word tipies deur mense rondom die ouderdom van vier aangeleer.

Die deurslaggewende verskil lê in die feit dat ARC-AGI spesifiek ontwerp is om onoplosbaar te wees deur blote memorisering of data-interpolasie. Elke taak in die maatstaf is uniek en is spesifiek vir die toets ontwikkel, dus geen voorbeelde daarvan behoort aanlyn te bestaan ​​nie. Dit maak die toets bestand teen die tipiese strategieë van KI-stelsels wat staatmaak op groot opleidingsdatastelle.

Wat is die verskillende weergawes van die ARC-AGI-maatstaf?

Daar is nou drie hoofweergawes van die maatstaf:

ARC-AGI-1

Die oorspronklike 2019-weergawe bestaan ​​uit statiese visuele legkaarte. Mense behaal 'n gemiddelde telling van 95% op hierdie speletjie, terwyl die meeste KI-stelsels lank reeds onder 5% behaal.

ARC-AGI-2

Hierdie verbeterde weergawe is in 2025 vrygestel en is spesifiek ontwerp om selfs vir moderne redenasiestelsels 'n uitdaging te bied. Terwyl mense steeds byna 100% sukses behaal, bestuur selfs gevorderde KI-modelle slegs 10-20% van die take.

ARC-AGI-3

Die nuutste weergawe, wat steeds onder ontwikkeling is, stel interaktiewe elemente bekend. In plaas van statiese legkaarte, moet KI-agente leer deur verkenning en probeer-en-tref in 'n roosterwêreld, baie soos mense nuwe omgewings verken.

Hoe presteer verskillende KI-modelle in die ARC-AGI-toetse?

Die prestasieverskille tussen verskillende KI-modelle is beduidend:

Vir ARC-AGI-1 behaal Grok 4 ongeveer 68%, terwyl GPT-5 65.7% bereik. Die koste per taak is ongeveer US$1 vir Grok 4 en US$0.51 vir GPT-5.

In ARC-AGI-2, die moeiliker toets, daal prestasie drasties: GPT-5 behaal slegs 9.9% teen 'n koste van $0.73 per taak, terwyl Grok 4 (Denke) beter presteer teen ongeveer 16%, maar teen 'n aansienlik hoër koste van $2-4.

Soos verwag, toon goedkoper modelvariante swakker prestasie: GPT-5 Mini behaal 54.3% op AGI-1 en 4.4% op AGI-2, terwyl GPT-5 Nano slegs onderskeidelik 16.5% en 2.5% bereik.

Wat is die geheim agter die o3-voorskoumodel?

OpenAI se o3-voorskoumodel verteenwoordig 'n spesiale geval. In Desember 2024 het dit indrukwekkende prestasietellings van 75,7% tot 87,5% op ARC-AGI-1 behaal, afhangende van die rekenaarkrag wat gebruik word. Dit was die eerste keer dat 'n KI-stelsel die menslike prestasielimiet van 85% oorskry het.

Daar is egter een belangrike beperking: Die publiek beskikbare weergawe van o3 presteer aansienlik swakker as die oorspronklike voorskouweergawe. Volgens die ARC-prys behaal die vrygestelde o3 slegs 41% (lae berekening) en 53% (medium berekening) op ARC-AGI-1, in vergelyking met die 76-88% van die voorskouweergawe.

OpenAI het bevestig dat die gepubliseerde model 'n ander, kleiner argitektuur het en geoptimaliseer is vir klets- en produktoepassings. Hierdie teenstrydigheid laat vrae ontstaan ​​oor die werklike vermoëns daarvan en beklemtoon die belangrikheid daarvan om maatstafresultate van ongepubliseerde modelle krities te evalueer.

Hoe werk die ARC-pryskompetisie?

Die ARC-prys is 'n jaarlikse kompetisie met 'n totale prysgeld van meer as een miljoen Amerikaanse dollar, wat daarop gemik is om oopbronvordering in die rigting van AGI (Actively Generic Architecture) te bevorder. Die huidige 2025-kompetisie loop van 26 Maart tot 3 November op die Kaggle-platform.

Die prysstruktuur sluit in:

  • Grootprys (USD 700,000): Ontsluit wanneer 'n span 85% akkuraatheid op die private evalueringsdatastel behaal
  • Prys vir die hoogste telling (USD 75 000): Vir die spanne met die hoogste tellings
  • Artikelprys (USD 50,000): Vir die belangrikste konseptuele vooruitgang
  • Ander pryse (USD 175,000): Bykomende kategorieë word binnekort aangekondig

Dit is belangrik dat alle wenners hul oplossings as oopbron publiseer. Dit stem ooreen met die missie van die ARC-prysstigting om AGI-vooruitgang toeganklik te maak vir die hele navorsingsgemeenskap.

Wat is die tegniese uitdagings van die ARC-AGI-maatstaf?

Die take in ARC-AGI vereis verskeie kognitiewe vermoëns wat vir mense vanselfsprekend is, maar uiters moeilik vir KI-stelsels:

Simboolinterpretasie

KI moet abstrakte simbole verstaan ​​en hul betekenis uit die konteks aflei.

Meerstadium-komposisionele denke

Probleme moet in substappe verdeel word en opeenvolgend opgelos word.

Konteksafhanklike reëltoepassing

Dieselfde reël moet moontlik anders toegepas word, afhangende van die konteks.

Veralgemening uit 'n paar voorbeelde

Tipies is slegs 2-3 demonstrasiepare beskikbaar waaruit die transformasiereël afgelei moet word.

Watter rol speel toetstydse opleiding in die oplossing van ARC-AGI?

Toetstydse Opleiding (TTT) het bewys dat dit 'n belowende benadering is om prestasie op ARC-AGI te verbeter. Hierdie metode pas die modelparameters dinamies aan by die huidige invoerdata tydens inferensie, in plaas daarvan om slegs op voorafopgeleide kennis staat te maak.

MIT-navorsers het getoon dat TTT die werkverrigting van taalmodelle op ARC-AGI aansienlik verbeter. Die metode laat die modelle toe om aan te pas tydens taakoplossing en uit spesifieke voorbeelde te leer. Dit boots menslike probleemoplossingsgedrag na, waar ons meer tyd aan moeilike probleme spandeer.

 

EU/DE Datasekuriteit | Integrasie van 'n onafhanklike en kruis-databron KI-platform vir alle sakebehoeftes

Onafhanklike KI-platforms as 'n strategiese alternatief vir Europese maatskappye - Beeld: Xpert.Digital

KI-spelwisselaar: Die mees buigsame KI-platform - Oplossings op maat wat koste verminder, jou besluite verbeter en doeltreffendheid verhoog

Onafhanklike KI-platform: Integreer alle relevante maatskappydatabronne

  • Vinnige KI-integrasie: Pasgemaakte KI-oplossings vir besighede binne ure of dae, in plaas van maande
  • Buigsame infrastruktuur: Wolkgebaseerd of hosting in u eie datasentrum (Duitsland, Europa, vrye keuse van ligging)
  • Maksimum datasekuriteit: die gebruik daarvan in regsfirmas is onweerlegbare bewys
  • Implementering oor 'n wye verskeidenheid van ondernemingsdatabronne
  • Keuse van eie of verskillende KI-modelle (DE, EU, VSA, CN)

Meer inligting hier:

 

Kunsmatige intelligensie verder as skaal: Insigte uit die ARC-AGI-toets

Wat beteken die resultate vir die ontwikkeling van AGI?

Die resultate toon 'n beduidende gaping tussen menslike en kunsmatige intelligensie. Terwyl mense ARC-AGI-take intuïtief oplos, faal selfs die mees gevorderde KI-stelsels met basiese kognitiewe take.

François Chollet voer aan dat die huidige paradigma van KI-ontwikkeling – die opleiding van steeds groter modelle met meer data – sy perke bereik het. Die swak resultate op ARC-AGI, ten spyte van eksponensiële toenames in modelgrootte, bewys, na sy mening, dat "vloeibare intelligensie nie voortspruit uit die opskaal van vooropleiding nie.".

Die toekoms kan lê in nuwe benaderings soos Toetstyd-aanpassing, waar modelle hul eie toestande tydens looptyd kan verander om by nuwe situasies aan te pas.

Hoe lyk die toekoms van die ARC-AGI-maatstaf?

Die ARC-prysstigting beplan voortdurende ontwikkeling van die maatstaf. ARC-AGI-3, met sy interaktiewe elemente, is geskeduleer vir volle vrystelling in 2026 en sal ongeveer 100 unieke omgewings insluit.

Die Stigting beoog om maatstawwe te ontwikkel wat as 'n "Noordster" vir AGI-ontwikkeling sal dien. Dit behels nie net die meting van vordering nie, maar ook die leiding van navorsing in rigtings wat tot ware algemene intelligensie kan lei.

Wat is die ekonomiese implikasies van maatstafprestasie?

Die koste om ARC-AGI-probleme op te los, wissel baie tussen modelle en het 'n direkte impak op praktiese toepaslikheid.

Terwyl eenvoudige take met API-koste in die sentreeks opgelos kan word, styg die koste vir komplekse redenasietake vinnig. Die o3-model kan byvoorbeeld tot $1 000 per taak kos met hoë rekenaarkrag.

Hierdie kostestruktuur toon dat selfs al word tegniese deurbrake behaal, ekonomiese haalbaarheid 'n deurslaggewende faktor bly vir die wydverspreide toepassing van AGI-tegnologieë.

Wat is die filosofiese implikasies van die ARC-AGI-resultate?

Die resultate laat fundamentele vrae ontstaan ​​oor die aard van intelligensie. Die maatstaf toon dat daar 'n fundamentele verskil is tussen die memorisering van patrone en ware begrip.

Die feit dat mense hierdie take moeiteloos oplos, terwyl KI-stelsels faal, dui daarop dat menslike intelligensie kwalitatief anders funksioneer as huidige KI-benaderings. Dit ondersteun Chollet se argument dat AGI meer as net groter modelle en meer data vereis.

Hoe beïnvloed ARC-AGI die rigting van KI-navorsing?

Die maatstaf het reeds gelei tot 'n herbesinning in KI-navorsing. In plaas daarvan om slegs op skaalmodelle te fokus, ondersoek toonaangewende laboratoriums nou alternatiewe benaderings soos toetstyd-berekening en aanpasbare stelsels.

Hierdie verskuiwing word ook in beleggings weerspieël: maatskappye belê toenemend in navorsing oor meer doeltreffende redenasie en probleemoplossing in plaas van al hoe groter opleidingslopies.

Watter rol speel die oopbrongemeenskap?

Die ARC-prysstigting beklemtoon die belangrikheid van oopbronontwikkeling vir AGI-vordering. Alle kompetisiewenners moet hul oplossings publiek beskikbaar stel.

Hierdie filosofie is gebaseer op die oortuiging dat AGI te belangrik is om uitsluitlik in geslote laboratoriums ontwikkel te word. Die Stigting sien hulself as 'n katalisator vir 'n samewerkende, deursigtige navorsingsgemeenskap.

Wat is die beperkings van die ARC-AGI-maatstaf?

Ten spyte van die belangrikheid daarvan, het ARC-AGI ook beperkings. Chollet beklemtoon self dat die slaag van die toets nie sinoniem is met die bereiking van AGI nie. Die maatstaf meet slegs een aspek van intelligensie – die vermoë om abstrakte probleme op te los.

Ander belangrike aspekte soos kreatiwiteit, emosionele intelligensie of langtermynbeplanning word nie beoordeel nie. Verder is daar 'n risiko dat stelsels wat spesifiek vir ARC-AGI geoptimaliseer is, ontwikkel sal word wat die toets slaag sonder om eintlik oor die algemeen intelligent te wees.

Hoe ontwikkel die koste vir KI-modelle in die konteks van ARC-AGI?

Die koste-ontwikkeling toon interessante tendense. Terwyl prestasie stadig toeneem, ontplof die koste vir marginale verbeterings.

Hierdie kostedinamika lei tot 'n belangrike insig: doeltreffendheid word die deurslaggewende onderskeidende faktor. Die ARC-prysstigting beklemtoon dat nie net akkuraatheid nie, maar ook die koste per opgeloste probleem 'n deurslaggewende maatstaf is.

Wat beteken ARC-AGI vir die toekoms van werk?

Die resultate het gerusstellende implikasies vir baie beroepe. Die onvermoë van KI-stelsels om basiese denktake op te los, toon dat menslike kognitiewe vermoëns nog lank nie vervang kan word nie.

Terselfdertyd dui vooruitgang in gespesialiseerde take daarop dat KI sal voortgaan om as 'n instrument te dien om menslike werk te ondersteun, eerder as om dit heeltemal te vervang.

Watter nuwe navorsingsbenaderings spruit voort uit ARC-AGI?

Die maatstaf het verskeie innoverende navorsingsrigtings geïnspireer:

Program Sintese

Stelsels wat programme genereer om probleme op te los.

Neurosimboliese benaderings

Kombinasie van neurale netwerke met simboliese redenasie.

Multi-agent stelsels

Verskeie gespesialiseerde agente werk saam.

Evolusionêre algoritmes

Stelsels wat oplossings deur evolusie ontwikkel.

Wat is die ARC-prysstigting se visie vir die toekoms?

Die Stigting streef 'n duidelike missie na: om as 'n "Noordster" te dien vir die ontwikkeling van oop AGI. Dit behels nie net tegniese maatstawwe nie, maar ook die skepping van 'n ekosisteem wat innovasie bevorder terwyl verseker word dat AGI-vooruitgang die hele mensdom bevoordeel.

Die voortdurende ontwikkeling van nuwe maatstafweergawes is bedoel om te verseker dat die standaard voortdurend verhoog word en navorsing nie stagneer nie. Met ARC-AGI-3 en toekomstige weergawes beoog die Stigting om die grense van wat KI kan doen en wat dit nog kortkom, verder te verken.

 

Ons is hier vir jou - Konsultasie - Beplanning - Implementering - Projekbestuur

☑️ KMO-ondersteuning in strategie, konsultasie, beplanning en implementering

☑️ Skepping of herbelyning van die KI-strategie

☑️ Pionier Besigheidsontwikkeling

 

Konrad Wolfenstein

Ek sal graag as u persoonlike adviseur dien.

Jy kan my kontak deur die onderstaande kontakvorm in te vul of my eenvoudig te skakel by +49 7348 4088 965 .

Ek sien uit na ons gesamentlike projek.

 

 

Skryf vir my

 
Xpert.Digitaal - Konrad Wolfenstein

Xpert.Digital is 'n spilpunt vir die industrie wat fokus op digitalisering, meganiese ingenieurswese, logistiek/intralogistiek en fotovoltaïese eenhede.

Met ons 360° Besigheidsontwikkelingsoplossing ondersteun ons bekende maatskappye, van nuwe besigheid tot na-verkope.

Markintelligensie, bemarking, bemarkingsoutomatisering, inhoudontwikkeling, PR, posveldtogte, gepersonaliseerde sosiale media en potensiële kliënte-ontwikkeling is deel van ons digitale gereedskap.

Jy kan meer inligting vind by: www.xpert.digital - www.xpert.solar - www.xpert.plus

Bly in kontak

Verlaat die mobiele weergawe