Tehisintellekti vastasseis tehisintellekti mudelite ARC võrdlustestil: GPT-5 vs. Grok vs o3

Konrad Wolfenstein

10 kuud tagasi

Tehisintellekti vastasseis tehisintellekti mudelite ARC võrdlustestil: GPT-5 vs. Grok vs o3 – Pilt: Xpert.Digital

Suur pettumus: miks üha suuremad tehisintellekti mudelid ei läbi olulist intelligentsustesti

Mis on ARC-AGI võrdlusalus ja miks see välja töötati?

ARC-AGI võrdlustest on testiseeria tehisintellekti süsteemide üldise intelligentsuse mõõtmiseks, mille töötas 2019. aastal välja François Chollet. ARC tähistab „Abstraktsiooni ja Arutelu korpust tehisintellekti üldintelligentsuse jaoks“. Võrdlustest loodi tehisintellekti süsteemide võime hindamiseks mõista ja lahendada uusi ülesandeid, milleks neid otseselt ei treenitud.

Võrdlusaluse väljatöötamine põhineb Chollet' intelligentsuse definitsioonil tema murrangulisest artiklist "Intelligentsuse mõõtmisest". Ta väidab, et tõeline intelligentsus ei seisne konkreetsete ülesannete valdamises, vaid uute oskuste omandamise efektiivsuses. Test koosneb visuaalsetest mõistatustest värviliste ruudustikega, kus tehisintellekti süsteemid peavad tuvastama aluseks olevad teisendusreeglid ja rakendama neid uutele näidetele.

Mille poolest erineb ARC-AGI teistest tehisintellekti võrdlusalustest?

Erinevalt tavapärastest tehisintellekti testidest, mis sageli tuginevad eelnevatele teadmistele või päheõpitud mustritele, keskendub ARC-AGI nn põhiteadmiste eelteadmistele – fundamentaalsetele kognitiivsetele oskustele, nagu objektide püsivus, lugemine ja ruumiline mõtlemine. Need oskused omandavad inimesed tavaliselt umbes nelja-aastaselt.

Oluline erinevus seisneb selles, et ARC-AGI on spetsiaalselt loodud nii, et seda ei saa lahendada pelgalt meeldejätmise või andmete interpoleerimise teel. Iga võrdlusaluse ülesanne on unikaalne ja töötati välja spetsiaalselt selle testi jaoks, seega ei tohiks selle kohta veebis näiteid olla. See muudab testi vastupidavaks tehisintellekti süsteemide tüüpilistele strateegiatele, mis tuginevad suurtele treeningandmekogumitele.

Millised on ARC-AGI võrdlusaluse erinevad versioonid?

Võrdlusalusel on nüüd kolm peamist versiooni:

ARC-AGI-1

Algne 2019. aasta versioon koosneb staatilistest visuaalsetest mõistatustest. Inimesed saavutavad selles mängus keskmise tulemuse 95%, samas kui enamik tehisintellekti süsteeme on pikka aega saanud alla 5%.

ARC-AGI-2

See täiustatud versioon ilmus 2025. aastal ja on spetsiaalselt loodud esitama väljakutse isegi tänapäevastele arutlussüsteemidele. Samal ajal kui inimesed saavutavad jätkuvalt peaaegu 100% edu, saavad isegi täiustatud tehisintellekti mudelid hakkama vaid 10–20% ülesannetest.

ARC-AGI-3

Uusim versioon, mis on veel arendusjärgus, tutvustab interaktiivseid elemente. Staatiliste mõistatuste asemel peavad tehisintellekti agendid õppima uurimise ja katse-eksituse meetodil ruudustikumaailmas, sarnaselt sellele, kuidas inimesed uusi keskkondi uurivad.

Kuidas erinevad tehisintellekti mudelid ARC-AGI testides toimivad?

Erinevate tehisintellekti mudelite jõudluse erinevused on märkimisväärsed:

ARC-AGI-1 puhul saavutab Grok 4 ligikaudu 68% ja GPT-5 65,7%. Ülesande maksumus on Grok 4 puhul ligikaudu 1 USA dollar ja GPT-5 puhul 0,51 USA dollarit.

ARC-AGI-2-s, mis on keerulisem test, langeb jõudlus drastiliselt: GPT-5 saavutab vaid 9,9%, makstes 0,73 dollarit ülesande kohta, samas kui Grok 4 (Mõtlemine) saavutab parema tulemuse, umbes 16%, kuid oluliselt kõrgema hinnaga, 2–4 dollarit.

Nagu oodatud, näitavad odavamad mudelivariandid nõrgemat jõudlust: GPT-5 Mini saavutab AGI-1-l 54,3% ja AGI-2-l 4,4%, samas kui GPT-5 Nano ulatub vastavalt vaid 16,5% ja 2,5%-ni.

Mis on O3 eelvaatemudeli saladus?

OpenAI o3 eelvaatemudel kujutab endast erijuhtu. 2024. aasta detsembris saavutas see ARC-AGI-1 testiga muljetavaldavad jõudlustulemused vahemikus 75,7% kuni 87,5%, olenevalt kasutatavast arvutusvõimsusest. See oli esimene kord, kui tehisintellekti süsteem ületas inimese jõudluspiiri 85%.

Siiski on üks oluline piirang: avalikult kättesaadav o3 versioon toimib oluliselt halvemini kui algne eelvaateversioon. ARC Prize'i andmetel saavutab avaldatud o3 ARC-AGI-1-l vaid 41% (madal arvutusvõimsus) ja 53% (keskmine arvutusvõimsus), võrreldes eelvaateversiooni 76–88%-ga.

OpenAI kinnitas, et avaldatud mudelil on erinev, väiksem arhitektuur ning see on optimeeritud vestlus- ja tooterakenduste jaoks. See lahknevus tekitab küsimusi selle tegelike võimete kohta ja rõhutab avaldamata mudelite võrdlustulemuste kriitilise hindamise olulisust.

Kuidas ARC auhinna konkurss toimib?

ARC Prize on iga-aastane võistlus, mille auhinnafond on üle miljoni USA dollari ja mille eesmärk on edendada avatud lähtekoodiga projektide arengut AGI (aktiivselt geneerilise arhitektuuri) suunas. Praegune 2025. aasta võistlus toimub 26. märtsist kuni 3. novembrini Kaggle'i platvormil.

Hinnastruktuur sisaldab:

Peaauhind (700 000 USA dollarit): Avatakse, kui meeskond saavutab privaatses hindamisandmekogumis 85% täpsuse
Parima punktisumma auhind (75 000 USA dollarit): Parima punktisummaga meeskondadele
Paberipreemia (50 000 USA dollarit): kõige olulisemate kontseptuaalsete edusammude eest
Muud auhinnad (175 000 USD): Lisakategooriad teatatakse hiljem

On oluline, et kõik võitjad avaldaksid oma lahendused avatud lähtekoodiga. See on kooskõlas ARC Prize Foundationi missiooniga muuta AGI edusammud kättesaadavaks kogu teadusringkonnale.

Millised on ARC-AGI võrdlusaluse tehnilised väljakutsed?

ARC-AGI ülesanded nõuavad mitmeid kognitiivseid võimeid, mis on inimestele enesestmõistetavad, kuid tehisintellekti süsteemidele äärmiselt keerulised:

Sümbolite tõlgendamine

Tehisintellekt peab mõistma abstraktseid sümboleid ja tuletama nende tähenduse kontekstist.

Mitmeastmeline kompositsiooniline mõtlemine

Probleemid tuleb jagada alaetappideks ja lahendada järjestikku.

Kontekstist sõltuv reeglite rakendamine

Sama reeglit võib kontekstist olenevalt olla vaja rakendada erinevalt.

Üldistamine mõne näite põhjal

Tavaliselt on saadaval ainult 2-3 demonstratsioonipaari, millest tuleb teisendusreegel tuletada.

Milline roll on test-aja treenimisel ARC-AGI lahendamisel?

Testimisaegne treenimine (TTT) on osutunud paljulubavaks lähenemisviisiks ARC-AGI jõudluse parandamiseks. See meetod kohandab mudeli parameetreid dünaamiliselt vastavalt hetke sisendandmetele järelduse tegemise ajal, selle asemel, et tugineda ainult eelnevalt treenitud teadmistele.

MIT teadlased on näidanud, et tekstipõhine simulatsioon (TTT) parandab oluliselt keelemudelite jõudlust ARC-AGI-s. See meetod võimaldab mudelitel ülesannete lahendamise ajal kohaneda ja õppida konkreetsetest näidetest. See jäljendab inimeste probleemide lahendamise käitumist, kus me kulutame rohkem aega keerulistele probleemidele.

EL/DE andmeturve | Sõltumatu ja andmeallikateülese tehisintellekti platvormi integreerimine kõigi ärivajaduste jaoks

Sõltumatud tehisintellekti platvormid kui strateegiline alternatiiv Euroopa ettevõtetele - Pilt: Xpert.Digital

Tehisintellekti mängumuutja: kõige paindlikum tehisintellekti platvorm – rätsepatööna valminud lahendused, mis vähendavad kulusid, parandavad teie otsuseid ja suurendavad tõhusust

Sõltumatu tehisintellekti platvorm: integreerib kõik olulised ettevõtte andmeallikad

Kiire tehisintellekti integreerimine: ettevõtetele kohandatud tehisintellekti lahendused tundide või päevadega, mitte kuude jooksul
Paindlik infrastruktuur: pilvepõhine või majutamine teie enda andmekeskuses (Saksamaa, Euroopa, asukoha vaba valik)

Maksimaalne andmeturve: selle kasutamine advokaadibüroodes on ümberlükkamatu tõend
Juurutamine paljudes erinevates ettevõtte andmeallikates
Oma või erinevate tehisintellekti mudelite valik (Saksamaa, EL, USA, CN)

Lisateavet leiate siit:

Sõltumatud tehisintellekti platvormid vs hüperskaleerijad: kumb lahendus sobib?

Tehisintellekt skaleerimisest kaugemale: arusaamad ARC-AGI testist

Mida need tulemused üldise geentehnoloogia arengu seisukohalt tähendavad?

Tulemused näitavad märkimisväärset lõhet inimese ja tehisintellekti vahel. Kuigi inimesed lahendavad ARC-AGI ülesandeid intuitiivselt, ebaõnnestuvad isegi kõige arenenumad tehisintellekti süsteemid põhiliste kognitiivsete ülesannete täitmisel.

François Chollet väidab, et tehisintellekti arendamise praegune paradigma – üha suuremate mudelite treenimine suurema hulga andmetega – on jõudnud oma piirini. ARC-AGI kehvad tulemused, hoolimata mudeli suuruse eksponentsiaalsest suurenemisest, tõestavad tema arvates, et „sujuv intelligentsus ei teki eeltreeningu skaleerimisest“.

Tulevik võib peituda uutes lähenemisviisides, näiteks test-aja kohandamises, kus mudelid saavad oma olekuid käitusajal muuta, et kohaneda uute olukordadega.

Milline näeb välja ARC-AGI võrdlusaluse tulevik?

ARC Prize Foundation plaanib võrdlusaluse pidevat arendamist. ARC-AGI-3 koos oma interaktiivsete elementidega on täielikult välja antud 2026. aastal ja see sisaldab umbes 100 unikaalset keskkonda.

Sihtasutuse eesmärk on töötada välja võrdlusalused, mis toimivad üldise tehisintellekti arendamise „põhjatähena“. See hõlmab lisaks edusammude mõõtmisele ka uuringute suunamist suundades, mis võiksid viia tõelise üldise intelligentsuseni.

Millised on võrdlusnäitajate tulemuslikkuse majanduslikud tagajärjed?

ARC-AGI probleemide lahendamise maksumus on mudeliti väga erinev ja mõjutab otseselt praktilist rakendatavust.

Kuigi lihtsaid ülesandeid saab lahendada API-kuludega vaid sendi suurusjärgus, tõusevad keerukate arutlusülesannete hinnad kiiresti. Näiteks O3 mudel võib suure arvutusvõimsuse korral maksta kuni 1000 dollarit ülesande kohta.

See kulustruktuur näitab, et isegi kui saavutatakse tehnilisi läbimurdeid, jääb majanduslik teostatavus AGI-tehnoloogiate laialdase rakendamise oluliseks teguriks.

Millised on ARC-AGI tulemuste filosoofilised tagajärjed?

Tulemused tõstatavad põhimõttelisi küsimusi intelligentsuse olemuse kohta. Võrdlusuuring näitab, et mustrite meeldejätmise ja tegeliku mõistmise vahel on põhimõtteline erinevus.

Asjaolu, et inimesed lahendavad neid ülesandeid pingutuseta, samas kui tehisintellekti süsteemid ebaõnnestuvad, viitab sellele, et inimese intelligentsus toimib kvalitatiivselt erinevalt praegustest tehisintellekti lähenemisviisidest. See toetab Cholleti argumenti, et tehisintellekt nõuab enamat kui lihtsalt suuremaid mudeleid ja rohkem andmeid.

Kuidas mõjutab ARC-AGI tehisintellekti uuringute suunda?

See võrdlusalus on juba pannud tehisintellekti uurimist ümber mõtlema. Selle asemel, et keskenduda ainult skaleerimismudelitele, uurivad juhtivad laborid nüüd alternatiivseid lähenemisviise, nagu testimisaegne arvutamine ja adaptiivsed süsteemid.

See nihe kajastub ka investeeringutes: ettevõtted investeerivad üha enam tõhusama arutluskäigu ja probleemide lahendamise uuringutesse, mitte aga üha suurematesse koolitustsüklitesse.

Milline roll on avatud lähtekoodiga kogukonnal?

ARC auhinnafond rõhutab avatud lähtekoodiga arenduse olulisust tehisintellekti (AGI) edendamiseks. Kõik võistluse võitjad peavad oma lahendused avalikult kättesaadavaks tegema.

See filosoofia põhineb veendumusel, et tehisintellekt on liiga oluline, et seda arendada üksnes suletud laborites. Sihtasutus näeb end koostööl põhineva ja läbipaistva teaduskogukonna katalüsaatorina.

Millised on ARC-AGI võrdlusaluse piirangud?

Vaatamata olulisusele on ARC-AGI-l ka piirangud. Chollet ise rõhutab, et testi sooritamine ei ole AGI saavutamise sünonüüm. See võrdlustest mõõdab ainult ühte intelligentsuse aspekti – võimet lahendada abstraktseid probleeme.

Teisi olulisi aspekte, nagu loovus, emotsionaalne intelligentsus või pikaajaline planeerimine, ei hinnata. Lisaks on oht, et arendatakse spetsiaalselt ARC-AGI jaoks optimeeritud süsteeme, mis läbivad testi, kuid pole tegelikult üldiselt intelligentsed.

Kuidas arenevad tehisintellekti mudelite kulud ARC-AGI kontekstis?

Kulude areng näitab huvitavaid trende. Kuigi jõudlus paraneb aeglaselt, kasvavad marginaalsete täiustuste kulud plahvatuslikult.

See kuludünaamika viib olulise arusaamani: efektiivsusest on saamas otsustav eristav tegur. ARC auhinnafond rõhutab, et lisaks täpsusele on oluliseks kriteeriumiks ka lahendatud probleemi maksumus.

Mida tähendab ARC-AGI töö tuleviku jaoks?

Tulemustel on paljudele elukutsetele julgustav mõju. Tehisintellekti süsteemide suutmatus lahendada elementaarseid mõtlemisülesandeid näitab, et inimese kognitiivsed võimed pole kaugeltki asendatud.

Samal ajal viitab spetsialiseeritud ülesannete areng sellele, et tehisintellekt jääb inimtöö toetamise vahendiks, mitte ei asenda seda täielikult.

Millised uued uurimismeetodid tulenevad ARC-AGI-st?

See võrdlusalus on inspireerinud mitmeid uuenduslikke uurimissuundi:

Programmi süntees

Süsteemid, mis genereerivad programme probleemide lahendamiseks.

Neurosümboolsed lähenemisviisid

Neuraalvõrkude kombineerimine sümboolse arutluskäiguga.

Mitmeagentilised süsteemid

Mitmed spetsialiseerunud agendid teevad koostööd.

Evolutsioonilised algoritmid

Süsteemid, mis arendavad lahendusi evolutsiooni teel.

Milline on ARC Prize'i fondi tulevikuvisioon?

Sihtasutusel on selge missioon: olla avatud tehisintellekti arendamise „põhjatäheks“. See hõlmab lisaks tehnilistele võrdlusalustele ka innovatsiooni edendava ökosüsteemi loomist, tagades samal ajal, et tehisintellekti edusammud tooksid kasu kogu inimkonnale.

Uute võrdlusversioonide pidev väljatöötamine on mõeldud tagama, et latti pidevalt tõstetakse ja uuringud ei stagneeru. ARC-AGI-3 ja tulevaste versioonidega soovib sihtasutus uurida tehisintellekti võimaluste piire ja seda, mis sellel veel puudu jääb.

Oleme teie jaoks olemas - Konsultatsioon - Planeerimine - Teostus - Projektijuhtimine

☑️ VKEde tugi strateegia, konsultatsioonide, planeerimise ja rakendamise alal

☑️ Tehisintellekti strateegia loomine või ümberkorraldamine

☑️ Pioneer Äriarendus

Konrad Wolfenstein

Mul oleks hea meel olla teie isiklik nõustaja.

Võite minuga ühendust võtta, täites alloleva kontaktvormi või helistades mulle numbril +49 7348 4088 965 .

Ootan põnevusega meie ühist projekti.

Kirjuta mulle

➡️ Videokõne taotlus 👩👱

Xpert.Digital - Konrad Wolfenstein

Xpert.Digital on tööstuskeskus, mis keskendub digitaliseerimisele, masinaehitusele, logistikale/siselogistikale ja fotogalvaanikale.

Meie 360° äriarenduslahendusega toetame tuntud ettevõtteid alates uutest klientidest kuni järelmüügini.

Turu-uuring, s-turundus, turunduse automatiseerimine, sisu loomine, suhtekorraldus, meilikampaaniad, personaalne sotsiaalmeedia ja müügivihjete haldamine on osa meie digitaalsetest tööriistadest.

Lisateavet leiate aadressilt: www.xpert.digital - www.xpert.solar - www.xpert.plus

Hoidke ühendust

Suur pettumus: miks üha suuremad tehisintellekti mudelid ei läbi olulist intelligentsustesti

Mis on ARC-AGI võrdlusalus ja miks see välja töötati?

Mille poolest erineb ARC-AGI teistest tehisintellekti võrdlusalustest?

Millised on ARC-AGI võrdlusaluse erinevad versioonid?

ARC-AGI-1

ARC-AGI-2

ARC-AGI-3

Kuidas erinevad tehisintellekti mudelid ARC-AGI testides toimivad?

Mis on O3 eelvaatemudeli saladus?

Kuidas ARC auhinna konkurss toimib?

Millised on ARC-AGI võrdlusaluse tehnilised väljakutsed?

Sümbolite tõlgendamine

Mitmeastmeline kompositsiooniline mõtlemine

Kontekstist sõltuv reeglite rakendamine

Üldistamine mõne näite põhjal

Milline roll on test-aja treenimisel ARC-AGI lahendamisel?

EL/DE andmeturve | Sõltumatu ja andmeallikateülese tehisintellekti platvormi integreerimine kõigi ärivajaduste jaoks

Tehisintellekti mängumuutja: kõige paindlikum tehisintellekti platvorm – rätsepatööna valminud lahendused, mis vähendavad kulusid, parandavad teie otsuseid ja suurendavad tõhusust

Sõltumatu tehisintellekti platvorm: integreerib kõik olulised ettevõtte andmeallikad

Tehisintellekt skaleerimisest kaugemale: arusaamad ARC-AGI testist

Mida need tulemused üldise geentehnoloogia arengu seisukohalt tähendavad?

Milline näeb välja ARC-AGI võrdlusaluse tulevik?

Millised on võrdlusnäitajate tulemuslikkuse majanduslikud tagajärjed?

Millised on ARC-AGI tulemuste filosoofilised tagajärjed?

Kuidas mõjutab ARC-AGI tehisintellekti uuringute suunda?

Milline roll on avatud lähtekoodiga kogukonnal?

Millised on ARC-AGI võrdlusaluse piirangud?

Kuidas arenevad tehisintellekti mudelite kulud ARC-AGI kontekstis?

Mida tähendab ARC-AGI töö tuleviku jaoks?

Millised uued uurimismeetodid tulenevad ARC-AGI-st?

Programmi süntees

Neurosümboolsed lähenemisviisid

Mitmeagentilised süsteemid

Evolutsioonilised algoritmid

Milline on ARC Prize'i fondi tulevikuvisioon?

☑️ VKEde tugi strateegia, konsultatsioonide, planeerimise ja rakendamise alal

☑️ Tehisintellekti strateegia loomine või ümberkorraldamine

☑️ Pioneer Äriarendus

Muud teemad