Tehisintellekti vastasseis tehisintellekti mudelite ARC võrdlustestil: GPT-5 vs. Grok vs o3
Xpert-eelne vabastamine
Häälevalik 📢
Avaldatud: 8. augustil 2025 / Uuendatud: 8. augustil 2025 – Autor: Konrad Wolfenstein
Tehisintellekti vastasseis tehisintellekti mudelite ARC võrdlustestil: GPT-5 vs. Grok vs o3 – Pilt: Xpert.Digital
Suur pettumus: miks üha suuremad tehisintellekti mudelid ei läbi olulist intelligentsustesti
Mis on ARC-AGI võrdlusalus ja miks see välja töötati?
ARC-AGI võrdlustest on testide seeria tehisintellekti süsteemide üldise intelligentsuse mõõtmiseks, mille töötas välja François Chollet 2019. aastal. ARC tähistab "Abstraktsiooni ja Arutelu korpust tehisintellekti üldintelligentsuse jaoks". Võrdlustest loodi tehisintellekti süsteemide võime hindamiseks mõista ja lahendada uusi ülesandeid, milleks neid pole otseselt koolitatud.
Võrdlusaluse väljatöötamine põhineb Chollet' intelligentsuse definitsioonil tema murrangulisest artiklist "Intelligentsuse mõõtmisest". Ta väidab, et tõeline intelligentsus ei seisne mitte konkreetsete ülesannete valdamises, vaid uute oskuste omandamise efektiivsuses. Test koosneb visuaalsetest mõistatustest värviliste ruudustikega, kus tehisintellekti süsteemid peavad ära tundma aluseks olevad teisendusreeglid ja rakendama neid uutele näidetele.
Mille poolest erineb ARC-AGI teistest tehisintellekti võrdlusalustest?
Erinevalt tavapärastest tehisintellekti testidest, mis sageli tuginevad eelnevatele teadmistele või päheõpitud mustritele, keskendub ARC-AGI nn põhiteadmistele – kognitiivsetele oskustele, nagu objektide püsivus, lugemine ja ruumiline arusaam. Need oskused omandatakse tavaliselt nelja-aastaseks saades.
Peamine erinevus seisneb selles, et ARC-AGI on spetsiaalselt loodud lahendatavaks puhta meeldejätmise või andmete interpoleerimise teel. Iga võrdlusaluse ülesanne on unikaalne ja töötati välja spetsiaalselt selle testi jaoks, seega ei tohiks selle kohta veebis näiteid olla. See muudab testi vastupidavaks tehisintellekti süsteemide tavapärastele strateegiatele, mis põhinevad suurel hulgal treeningandmetel.
Millised on ARC-AGI võrdlusaluse erinevad versioonid?
Võrdlusalusel on nüüd kolm peamist versiooni:
ARC-AGI-1
Algses 2019. aasta versioonis, mis koosneb staatilistest visuaalsetest mõistatustest, saavutavad inimesed keskmiselt 95%, samas kui enamik tehisintellekti süsteeme on pikka aega olnud alla 5%.
ARC-AGI-2
See täiustatud versioon, mis ilmus 2025. aastal, on spetsiaalselt loodud esitama väljakutse isegi tänapäevastele arutlussüsteemidele. Samal ajal kui inimesed saavutavad jätkuvalt peaaegu 100% jõudlust, suudavad isegi täiustatud tehisintellekti mudelid hallata vaid 10–20% ülesannetest.
ARC-AGI-3
Uusim versioon, mis on veel arendusjärgus, tutvustab interaktiivseid elemente. Staatiliste mõistatuste asemel peavad tehisintellekti agendid õppima uurimise ja katse-eksituse meetodil ruudustikumaailmas, sarnaselt sellele, kuidas inimesed uusi keskkondi uurivad.
Kuidas erinevad tehisintellekti mudelid ARC-AGI testides toimivad?
Erinevate tehisintellekti mudelite jõudluse erinevused on märkimisväärsed:
ARC-AGI-1 puhul saavutab Grok 4 ligikaudu 68%, samas kui GPT-5 puhul on see 65,7%. Ülesande maksumus on Grok 4 puhul ligikaudu 1 dollar ja GPT-5 puhul 0,51 dollarit.
ARC-AGI-2 puhul, mis on keerulisem test, langeb jõudlus dramaatiliselt: GPT-5 saavutab vaid 9,9%, makstes 0,73 dollarit ülesande kohta, samas kui Grok 4 (Mõtlemine) saavutab parema tulemuse, umbes 16%, ehkki oluliselt kõrgema hinnaga, 2–4 dollarit.
Nagu oodatud, näitavad odavamad mudelivariandid nõrgemat jõudlust: GPT-5 Mini saavutab AGI-1-l 54,3% ja AGI-2-l 4,4%, samas kui GPT-5 Nano saavutab vastavalt vaid 16,5% ja 2,5%.
Mis on O3 eelvaatemudeli saladus?
OpenAI o3-eelvaatemudel kujutab endast erijuhtu. 2024. aasta detsembris saavutas see ARC-AGI-1-l muljetavaldava tulemuse 75,7–87,5%, olenevalt kasutatavast arvutusvõimsusest. See oli esimene kord, kui tehisintellekti süsteem ületas inimese võimekuse läve 85%.
Siiski on üks oluline piirang: avalikult kättesaadav o3 versioon toimib oluliselt halvemini kui algne eelvaateversioon. ARC Prize'i andmetel saavutab o3 avaldatud versioon ARC-AGI-1-l vaid 41% (madal arvutusvõimsus) ja 53% (keskmine arvutusvõimsus), võrreldes eelvaateversiooni 76–88%-ga.
OpenAI kinnitas, et avaldatud mudelil on erinev, väiksem arhitektuur ning see on optimeeritud vestlus- ja tooterakenduste jaoks. See lahknevus tekitab küsimusi selle tegelike võimete kohta ja rõhutab avaldamata mudelite võrdlustulemuste kriitilise uurimise olulisust.
Kuidas ARC auhinna konkurss toimib?
ARC Prize on iga-aastane võistlus, mille auhinnafond on kokku üle miljoni USA dollari ja mille eesmärk on edendada avatud lähtekoodiga projektide arengut tehisintellekti suunas. Praegune 2025. aasta võistlus toimub 26. märtsist kuni 3. novembrini Kaggle'i platvormil.
Hinnastruktuur sisaldab:
- Peaauhind (700 000 USD): Avatakse, kui meeskond saavutab privaatses hindamisandmekogumis 85% täpsuse
- Parima punktisumma auhind (75 000 USD): Parima punktisummaga meeskondadele
- Paberipreemia (50 000 USA dollarit): kõige olulisemate kontseptuaalsete edusammude eest
- Lisaauhinnad (175 000 USD): Lisakategooriad kuulutatakse välja hiljem
Oluline on see, et kõik võitjad peavad oma lahendused avaldama avatud lähtekoodiga. See on kooskõlas ARC Prize Foundationi missiooniga muuta AGI edusammud kättesaadavaks kogu teadusringkonnale.
Millised on ARC-AGI võrdlusaluse tehnilised väljakutsed?
ARC-AGI ülesanded nõuavad mitmeid kognitiivseid oskusi, mis on inimestele loomupärased, kuid tehisintellekti süsteemidele äärmiselt keerulised:
Sümbolite tõlgendamine
Tehisintellekt peab mõistma abstraktseid sümboleid ja tuletama nende tähenduse kontekstist.
Mitmetasandiline kompositsiooniline mõtlemine
Probleemid tuleb jagada alamsammudeks ja lahendada järjestikku.
Kontekstist sõltuv reeglite rakendamine
Sama reeglit võib kontekstist olenevalt olla vaja rakendada erinevalt.
Üldistamine mõne näite põhjal
Tavaliselt on saadaval ainult 2-3 demonstratsioonipaari, millest tuleb teisendusreegel tuletada.
Milline roll on test-aja treenimisel ARC-AGI lahendamisel?
Testiaegne treenimine (TTT) on osutunud paljulubavaks lähenemisviisiks ARC-AGI jõudluse parandamiseks. See meetod kohandab mudeli parameetreid dünaamiliselt järelduse tegemise ajal praeguste sisendandmetega, selle asemel et tugineda ainult eelnevalt treenitud teadmistele.
MIT teadlased on näidanud, et tekstipõhine simulatsioon (TTT) parandab oluliselt keelemudelite jõudlust ARC-AGI-s. See meetod võimaldab mudelitel ülesannete lahendamise ajal kohaneda ja õppida konkreetsetest näidetest. See jäljendab inimeste probleemide lahendamise käitumist, kus me kulutame rohkem aega keerulistele probleemidele.
EL/DE andmeturve | Sõltumatu ja andmeülese tehisintellekti platvormi integreerimine kõigi ärivajaduste jaoks
Sõltumatud tehisintellekti platvormid kui strateegiline alternatiiv Euroopa ettevõtetele – pilt: Xpert.Digital
Ki-Gamechanger: kõige paindlikum AI-platvorm – kohandatud lahendused, mis vähendavad kulusid, parandavad nende otsuseid ja suurendavad tõhusust
Sõltumatu AI platvorm: integreerib kõik asjakohased ettevõtte andmeallikad
- Kiire AI integreerimine: kohandatud AI-lahendused ettevõtetele tundidel või päevadel kuude asemel
- Paindlik infrastruktuur: pilvepõhine või hostimine oma andmekeskuses (Saksamaa, Euroopa, vaba asukoha valik)
- Suurim andmeturve: kasutamine advokaadibüroodes on ohutu tõendusmaterjal
- Kasutage paljudes ettevõtte andmeallikates
- Oma või mitmesuguste AI -mudelite valik (DE, EL, USA, CN)
Lisateavet selle kohta siin:
Tehisintellekt üle mastaabi: arusaamad ARC-AGI testist
Mida need tulemused üldise geentehnoloogia arengu seisukohalt tähendavad?
Tulemused näitavad selget lõhet inimese ja tehisintellekti vahel. Kuigi inimesed lahendavad ARC-AGI ülesandeid intuitiivselt, ebaõnnestuvad isegi tipptasemel tehisintellekti süsteemid elementaarsete arutlusülesannete puhul.
François Chollet väidab, et tehisintellekti arendamise praegune paradigma – üha suuremate mudelite treenimine suurema hulga andmetega – on jõudnud oma piirini. ARC-AGI kehvad tulemused, hoolimata mudeli suuruse eksponentsiaalselt suurenemisest, tõestavad tema arvates, et "sujuv intelligentsus ei teki eeltreeningu skaleerimisest".
Tulevik võib peituda uutes lähenemisviisides, näiteks testimisaegses kohandamises, kus mudelid saavad oma olekuid käitusajal muuta, et kohaneda uute olukordadega.
Milline näeb välja ARC-AGI võrdlusaluse tulevik?
ARC Prize Foundation plaanib võrdlusalust pidevalt edasi arendada. ARC-AGI-3 koos oma interaktiivsete elementidega on täielikult välja antud 2026. aastal ja see sisaldab umbes 100 unikaalset keskkonda.
Sihtasutuse eesmärk on töötada välja võrdlusalused, mis toimivad üldise tehisintellekti arendamise "suunatähena". Selle eesmärk ei ole mitte ainult edusammude mõõtmine, vaid ka uurimistöö suunamine suundades, mis võiksid viia tõelise üldise intelligentsuseni.
Millised on võrdlusnäitajate tulemuslikkuse majanduslikud tagajärjed?
ARC-AGI ülesannete lahendamise maksumus on mudeliti väga erinev ja mõjutab otseselt praktilist rakendatavust.
Kuigi lihtsaid ülesandeid saab lahendada API-kuludega, mis jäävad mõne sendi piiresse, tõusevad keerukate arutlusülesannete hinnad kiiresti. Näiteks O3-mudel võib suure arvutusvõimsuse korral maksta kuni 1000 dollarit ülesande kohta.
See kulustruktuur näitab, et isegi kui saavutatakse tehnilisi läbimurdeid, jääb majanduslik teostatavus tehisintellekti tehnoloogiate laialdase kasutuselevõtu seisukohalt ülioluliseks teguriks.
Millised on ARC-AGI tulemuste filosoofilised tagajärjed?
Tulemused tõstatavad põhimõttelisi küsimusi intelligentsuse olemuse kohta. Võrdlusuuring näitab, et mustrite meeldejätmise ja tegeliku mõistmise vahel on põhimõtteline erinevus.
Asjaolu, et inimesed lahendavad neid ülesandeid pingutuseta, samal ajal kui tehisintellekti süsteemid ebaõnnestuvad, viitab sellele, et inimese intelligentsus toimib kvalitatiivselt erinevalt praegustest tehisintellekti lähenemisviisidest. See toetab Cholleti argumenti, et tehisintellekt nõuab enamat kui lihtsalt suuremaid mudeleid ja rohkem andmeid.
Kuidas mõjutab ARC-AGI tehisintellekti uuringuid?
See võrdlusalus on juba pannud tehisintellekti uurimist ümber mõtlema. Selle asemel, et keskenduda ainult skaleerimismudelitele, uurivad juhtivad laborid nüüd alternatiivseid lähenemisviise, nagu testimisaegne arvutamine ja adaptiivsed süsteemid.
See nihe kajastub ka investeeringutes: ettevõtted investeerivad üha enam tõhusama arutluskäigu ja probleemide lahendamise uuringutesse, selle asemel et korraldada üha suuremaid koolitusi.
Milline roll on avatud lähtekoodiga kogukonnal?
ARC auhinnafond rõhutab avatud lähtekoodiga arenduse olulisust tehisintellekti (AGI) edendamisel. Kõik võistluse võitjad peavad oma lahendused avalikult kättesaadavaks tegema.
See filosoofia põhineb veendumusel, et tehisintellekt on liiga oluline, et seda arendada üksnes suletud laborites. Sihtasutus näeb end koostööl põhineva ja läbipaistva teaduskogukonna katalüsaatorina.
Millised on ARC-AGI võrdlusaluse piirangud?
Vaatamata olulisusele on ARC-AGI-l ka piirangud. Chollet ise rõhutab, et testi sooritamine ei ole samaväärne AGI saavutamisega. See võrdlustest mõõdab ainult ühte intelligentsuse aspekti – võimet lahendada abstraktseid probleeme.
Teisi olulisi aspekte, nagu loovus, emotsionaalne intelligentsus või pikaajaline planeerimine, ei mõõdeta. Lisaks on oht, et arendatakse spetsiaalselt ARC-AGI jaoks optimeeritud süsteeme, mis läbivad testi, kuid pole üldiselt tõeliselt intelligentsed.
Kuidas arenevad tehisintellekti mudelite kulud ARC-AGI kontekstis?
Kulude trendid näitavad huvitavaid trende. Kuigi jõudlus paraneb aeglaselt, kasvavad marginaalsete täiustuste kulud plahvatuslikult.
See kuludünaamika viib olulise arusaamani: efektiivsusest on saamas peamine eristav tegur. ARC auhinnafond rõhutab, et lisaks täpsusele on oluline kriteerium ka lahendatud ülesande maksumus.
Mida tähendab ARC-AGI töö tuleviku jaoks?
Tulemustel on paljudele elukutsetele rahustav mõju. Tehisintellekti süsteemide suutmatus lahendada elementaarseid arutlusülesandeid näitab, et inimese kognitiivsed võimed pole kaugeltki asendatud.
Samal ajal viitab spetsialiseeritud ülesannete areng sellele, et tehisintellekt jääb pigem inimtöö toetamise vahendiks kui selle täielikuks asendamiseks.
Millised uued uurimismeetodid ARC-AGI kaudu esile kerkivad?
See võrdlusalus on inspireerinud mitmeid uuenduslikke uurimissuundi:
Programmi süntees
Süsteemid, mis genereerivad programme probleemide lahendamiseks.
Neurosümboolsed lähenemisviisid
Neuraalvõrkude kombineerimine sümboolse arutluskäiguga.
Mitmeagentilised süsteemid
Mitmed spetsialiseerunud agendid töötavad koos.
Evolutsioonilised algoritmid
Süsteemid, mis arendavad lahendusi evolutsiooniliselt.
Milline on ARC Prize'i fondi tulevikuvisioon?
Sihtasutusel on selge missioon: olla avatud tehisintellekti arendamise „põhjatäheks“. See ei seisne ainult tehniliste võrdlusaluste seadmises, vaid ökosüsteemi loomises, mis soodustab innovatsiooni, tagades samal ajal, et tehisintellekti edusammud tooksid kasu kogu inimkonnale.
Uute võrdlusversioonide pidev väljatöötamine on mõeldud tagama, et latti pidevalt tõstetakse ja uuringud ei stagneeru. ARC-AGI-3 ja tulevaste versioonidega soovib sihtasutus uurida tehisintellekti võimaluste piire ja seda, mis sellel veel puudu jääb.
Oleme teie jaoks olemas – nõuanne – planeerimine – rakendamine – projektijuhtimine
☑️ VKE tugi strateegia, nõuannete, planeerimise ja rakendamise alal
☑️ AI strateegia loomine või ümberpaigutamine
☑️ teerajaja ettevõtluse arendamine
Aitan teid hea meelega isikliku konsultandina.
Võite minuga ühendust võtta, täites alloleva kontaktvormi või helistage mulle lihtsalt telefonil +49 89 674 804 (München) .
Ootan meie ühist projekti.
Xpert.digital – Konrad Wolfenstein
Xpert.digital on tööstuse keskus, mille fookus, digiteerimine, masinaehitus, logistika/intralogistics ja fotogalvaanilised ained.
Oma 360 ° ettevõtluse arendamise lahendusega toetame hästi tuntud ettevõtteid uuest äritegevusest pärast müüki.
Turuluure, hammastamine, turunduse automatiseerimine, sisu arendamine, PR, postkampaaniad, isikupärastatud sotsiaalmeedia ja plii turgutamine on osa meie digitaalsetest tööriistadest.
Lisateavet leiate aadressilt: www.xpert.digital – www.xpert.solar – www.xpert.plus