Marea dezamăgire: De ce modelele de inteligență artificială din ce în ce mai mari pică testul crucial de inteligență
Ce este standardul ARC-AGI și de ce a fost dezvoltat?
Benchmark-ul ARC-AGI este o serie de teste pentru măsurarea inteligenței generale a sistemelor de inteligență artificială, dezvoltată în 2019 de François Chollet. ARC este prescurtarea de la „Corpus de abstractizare și raționament pentru inteligența artificială generală”. Benchmark-ul a fost creat pentru a evalua capacitatea sistemelor de inteligență artificială de a înțelege și rezolva sarcini noi pentru care nu au fost antrenate în mod explicit.
Dezvoltarea criteriului de evaluare se bazează pe definiția inteligenței dată de Chollet din lucrarea sa fundamentală „Despre măsura inteligenței”. El susține că adevărata inteligență nu constă în stăpânirea unor sarcini specifice, ci în eficiența dobândirii de noi abilități. Testul constă în puzzle-uri vizuale cu grile colorate, în care sistemele de inteligență artificială trebuie să identifice regulile de transformare subiacente și să le aplice unor exemple noi.
Cum diferă ARC-AGI de alte teste de performanță în domeniul inteligenței artificiale?
Spre deosebire de testele convenționale de inteligență artificială, care se bazează adesea pe cunoștințe anterioare sau pe modele memorate, ARC-AGI se concentrează pe așa-numitele „cunoștințe de bază prioritare” - abilități cognitive fundamentale, cum ar fi permanența obiectelor, numărarea și raționamentul spațial. Aceste abilități sunt de obicei dobândite de oameni în jurul vârstei de patru ani.
Diferența crucială constă în faptul că ARC-AGI este special conceput pentru a fi imposibil de rezolvat prin simpla memorare sau interpolare a datelor. Fiecare sarcină din benchmark este unică și a fost dezvoltată special pentru test, așa că nu ar trebui să existe exemple online ale acesteia. Acest lucru face ca testul să fie rezistent la strategiile tipice ale sistemelor de inteligență artificială care se bazează pe seturi mari de date de antrenament.
Care sunt diferitele versiuni ale benchmark-ului ARC-AGI?
În prezent, există trei versiuni principale ale benchmark-ului:
ARC-AGI-1
Versiunea originală din 2019 constă în puzzle-uri vizuale statice. Oamenii obțin un scor mediu de 95% în acest joc, în timp ce majoritatea sistemelor de inteligență artificială au obținut de mult timp scoruri sub 5%.
ARC-AGI-2
Această versiune îmbunătățită a fost lansată în 2025 și este special concepută pentru a reprezenta o provocare chiar și pentru sistemele de raționament moderne. În timp ce oamenii continuă să obțină un succes de aproape 100%, chiar și modelele avansate de inteligență artificială gestionează doar 10-20% din sarcini.
ARC-AGI-3
Cea mai recentă versiune, încă în curs de dezvoltare, introduce elemente interactive. În loc de puzzle-uri statice, agenții AI trebuie să învețe prin explorare și încercări și erori într-o lume de tip grilă, la fel cum oamenii explorează medii noi.
Cum performează diferite modele de inteligență artificială în testele ARC-AGI?
Diferențele de performanță dintre diferitele modele de IA sunt semnificative:
Pentru ARC-AGI-1, Grok 4 atinge aproximativ 68%, în timp ce GPT-5 atinge 65,7%. Costul per sarcină este de aproximativ 1 USD pentru Grok 4 și 0,51 USD pentru GPT-5.
În ARC-AGI-2, testul mai dificil, performanța scade drastic: GPT-5 atinge doar 9,9% la un cost de 0,73 USD per sarcină, în timp ce Grok 4 (Thinking) are performanțe mai bune, cu aproximativ 16%, dar la un cost semnificativ mai mare de 2-4 USD.
Așa cum era de așteptat, variantele de model mai ieftine prezintă performanțe mai slabe: GPT-5 Mini atinge 54,3% pe AGI-1 și 4,4% pe AGI-2, în timp ce GPT-5 Nano atinge doar 16,5%, respectiv 2,5%.
Care este secretul din spatele modelului O3 Preview?
Modelul de previzualizare o3 al OpenAI reprezintă un caz special. În decembrie 2024, a obținut scoruri de performanță impresionante de 75,7% până la 87,5% pe ARC-AGI-1, în funcție de puterea de calcul utilizată. Aceasta a fost prima dată când un sistem de inteligență artificială a depășit limita de performanță umană de 85%.
Există însă o limitare importantă: versiunea publică a o3 are performanțe semnificativ mai slabe decât versiunea preview originală. Conform ARC Prize, versiunea o3 lansată atinge doar 41% (calcul redus) și 53% (calcul mediu) pe ARC-AGI-1, comparativ cu 76-88% în cazul versiunii preview.
OpenAI a confirmat că modelul publicat are o arhitectură diferită, mai mică, și este optimizat pentru aplicații de chat și de produs. Această discrepanță ridică semne de întrebare cu privire la capacitățile sale reale și subliniază importanța evaluării critice a rezultatelor testelor de referință din modele nepublicate.
Cum funcționează concursul Premiului ARC?
Premiul ARC este o competiție anuală cu o sumă totală de peste un milion de dolari americani, care își propune să promoveze progresul open-source către AGI (Actively Generic Architecture - Arhitectură Activă Generică). Competiția actuală din 2025 se desfășoară în perioada 26 martie - 3 noiembrie pe platforma Kaggle.
Structura de prețuri include:
- Marele Premiu (700.000 USD): Deblocat când o echipă atinge o precizie de 85% în setul de date de evaluare privată
- Premiul pentru cel mai mare scor (75.000 USD): Pentru echipele cu cele mai mari scoruri
- Premiul pentru lucrare (50.000 USD): Pentru cele mai semnificative progrese conceptuale
- Alte premii (175.000 USD): Categorii suplimentare vor fi anunțate ulterior
Este important ca toți câștigătorii să își publice soluțiile ca sursă deschisă. Acest lucru se aliniază cu misiunea Fundației Premiului ARC de a face progresele AGI accesibile întregii comunități de cercetare.
Care sunt provocările tehnice ale benchmark-ului ARC-AGI?
Sarcinile din ARC-AGI necesită mai multe abilități cognitive care sunt evidente pentru oameni, dar extrem de dificile pentru sistemele de inteligență artificială:
Interpretarea simbolurilor
IA trebuie să înțeleagă simbolurile abstracte și să le derive semnificația din context.
Gândire compozițională în mai multe etape
Problemele trebuie împărțite în subetape și rezolvate secvențial.
Aplicarea regulilor dependente de context
Aceeași regulă poate necesita aplicarea diferită, în funcție de context.
Generalizare din câteva exemple
De obicei, sunt disponibile doar 2-3 perechi demonstrative din care trebuie derivată regula de transformare.
Ce rol joacă antrenamentul în timp de testare în rezolvarea ARC-AGI?
Antrenamentul în timp de testare (TTT) s-a dovedit a fi o abordare promițătoare pentru îmbunătățirea performanței pe ARC-AGI. Această metodă ajustează dinamic parametrii modelului la datele de intrare curente în timpul inferenței, în loc să se bazeze exclusiv pe cunoștințe pre-antrenate.
Cercetătorii MIT au demonstrat că TTT îmbunătățește semnificativ performanța modelelor lingvistice pe ARC-AGI. Metoda permite modelelor să se adapteze în timpul rezolvării sarcinilor și să învețe din exemple specifice. Acest lucru imită comportamentul uman de rezolvare a problemelor, unde petrecem mai mult timp cu probleme dificile.
Securitatea datelor în UE/DE | Integrarea unei platforme de inteligență artificială independente și multi-sursă pentru toate nevoile afacerii
Platforme independente de inteligență artificială ca alternativă strategică pentru companiile europene - Imagine: Xpert.Digital
AI Game Changer: Cea mai flexibilă platformă AI - Soluții personalizate care reduc costurile, îmbunătățesc deciziile și cresc eficiența
Platformă independentă de inteligență artificială: Integrează toate sursele de date relevante ale companiei
- Integrare rapidă cu inteligență artificială: Soluții de inteligență artificială personalizate pentru companii în câteva ore sau zile, în loc de luni
- Infrastructură flexibilă: Bazată pe cloud sau găzduire în propriul centru de date (Germania, Europa, alegere liberă a locației)
- Securitate maximă a datelor: utilizarea sa în firmele de avocatură este o dovadă incontestabilă
- Implementare într-o gamă largă de surse de date ale întreprinderii
- Alegerea propriilor modele de IA sau a unor modele diferite (DE, UE, SUA, CN)
Mai multe informații aici:
Inteligența artificială dincolo de scalare: perspective din testul ARC-AGI
Ce înseamnă rezultatele pentru dezvoltarea AGI?
Rezultatele relevă o discrepanță semnificativă între inteligența umană și cea artificială. În timp ce oamenii rezolvă intuitiv sarcinile ARC-AGI, chiar și cele mai avansate sisteme de inteligență artificială eșuează la sarcinile cognitive de bază.
François Chollet susține că paradigma actuală de dezvoltare a inteligenței artificiale – antrenarea unor modele din ce în ce mai mari cu mai multe date – și-a atins limitele. Rezultatele slabe ale ARC-AGI, în ciuda creșterii exponențiale a dimensiunii modelului, dovedesc, în opinia sa, că „inteligența fluidă nu rezultă din scalarea pre-antrenamentului”.
Viitorul ar putea rezida în noi abordări, cum ar fi Adaptarea în Timp de Testare, unde modelele își pot schimba propriile stări în timpul execuției pentru a se adapta la situații noi.
Cum arată viitorul benchmark-ului ARC-AGI?
Fundația Premiului ARC planifică dezvoltarea continuă a standardului. Lansarea completă a ARC-AGI-3, cu elementele sale interactive, este programată pentru 2026 și va include aproximativ 100 de medii unice.
Fundația își propune să dezvolte repere care vor servi drept „Steaua Polară” pentru dezvoltarea AGI. Aceasta implică nu doar măsurarea progresului, ci și ghidarea cercetării în direcții care ar putea duce la o adevărată inteligență generală.
Care sunt implicațiile economice ale performanței benchmark-urilor?
Costul rezolvării problemelor ARC-AGI variază foarte mult între modele și are un impact direct asupra aplicabilității practice.
În timp ce sarcinile simple pot fi rezolvate cu costuri API de ordinul cenților, costurile pentru sarcinile complexe de raționament cresc rapid. Modelul o3, de exemplu, poate costa până la 1.000 de dolari per sarcină, având o putere de calcul mare.
Această structură a costurilor arată că, chiar dacă se realizează progrese tehnice, fezabilitatea economică rămâne un factor crucial pentru aplicarea pe scară largă a tehnologiilor AGI.
Care sunt implicațiile filosofice ale rezultatelor ARC-AGI?
Rezultatele ridică întrebări fundamentale despre natura inteligenței. Criteriul de performanță arată că există o diferență fundamentală între memorarea tiparelor și înțelegerea reală.
Faptul că oamenii rezolvă aceste sarcini fără efort, în timp ce sistemele de inteligență artificială eșuează, sugerează că inteligența umană funcționează calitativ diferit față de abordările actuale ale inteligenței artificiale. Acest lucru susține argumentul lui Chollet conform căruia inteligența artificială generalizată necesită mai mult decât modele mai mari și mai multe date.
Cum influențează ARC-AGI direcția cercetării în domeniul inteligenței artificiale?
Acest criteriu de referință a dus deja la o regândire a cercetării în domeniul inteligenței artificiale. În loc să se concentreze exclusiv pe modelele de scalare, laboratoarele de top explorează acum abordări alternative, cum ar fi calculul în timp de testare și sistemele adaptive.
Această schimbare se reflectă și în investiții: companiile investesc din ce în ce mai mult în cercetarea privind raționamentul și rezolvarea problemelor mai eficiente, în loc să efectueze sesiuni de instruire din ce în ce mai ample.
Ce rol joacă comunitatea open-source?
Fundația Premiului ARC subliniază importanța dezvoltării open-source pentru progresul AGI. Toți câștigătorii concursului trebuie să își pună soluțiile la dispoziția publicului.
Această filozofie se bazează pe convingerea că IGA este prea importantă pentru a fi dezvoltată exclusiv în laboratoare închise. Fundația se consideră un catalizator pentru o comunitate de cercetare colaborativă și transparentă.
Care sunt limitele benchmark-ului ARC-AGI?
În ciuda importanței sale, ARC-AGI are și limitări. Chollet însuși subliniază faptul că promovarea testului nu este sinonimă cu atingerea AGI. Criteriul de referință măsoară doar un aspect al inteligenței - capacitatea de a rezolva probleme abstracte.
Alte aspecte importante, cum ar fi creativitatea, inteligența emoțională sau planificarea pe termen lung, nu sunt evaluate. În plus, există riscul ca sistemele optimizate special pentru ARC-AGI să fie dezvoltate și să treacă testul fără a fi, în general, inteligente.
Cum se dezvoltă costurile pentru modelele de inteligență artificială în contextul ARC-AGI?
Evoluția costurilor dezvăluie tendințe interesante. În timp ce performanța crește doar lent, costurile pentru îmbunătățiri marginale explodează.
Această dinamică a costurilor conduce la o concluzie importantă: eficiența devine factorul decisiv de diferențiere. Fundația Premiului ARC subliniază faptul că nu doar acuratețea, ci și costul per problemă rezolvată reprezintă un criteriu crucial.
Ce înseamnă ARC-AGI pentru viitorul muncii?
Rezultatele au implicații liniștitoare pentru multe profesii. Incapacitatea sistemelor de inteligență artificială de a rezolva sarcini de gândire de bază arată că abilitățile cognitive umane sunt departe de a fi înlocuite.
În același timp, progresele înregistrate în sarcinile specializate sugerează că IA va continua să servească drept instrument de sprijinire a muncii umane, în loc să o înlocuiască complet.
Ce noi abordări de cercetare apar din ARC-AGI?
Acest criteriu de referință a inspirat mai multe direcții de cercetare inovatoare:
Sinteza programului
Sisteme care generează programe pentru rezolvarea problemelor.
Abordări neurosimbolice
Combinarea rețelelor neuronale cu raționamentul simbolic.
Sisteme multi-agent
Mai mulți agenți specializați lucrează împreună.
Algoritmi evolutivi
Sisteme care dezvoltă soluții prin evoluție.
Care este viziunea Fundației Premiului ARC pentru viitor?
Fundația are o misiune clară: să servească drept „Steaua Polară” pentru dezvoltarea AGI deschisă. Aceasta implică nu doar repere tehnice, ci și crearea unui ecosistem care încurajează inovația, asigurând în același timp că progresele AGI aduc beneficii întregii umanități.
Dezvoltarea continuă a unor noi versiuni de referință are scopul de a asigura ridicarea constantă a ștachetei și evitarea stagnării cercetării. Cu ARC-AGI-3 și versiunile viitoare, Fundația își propune să exploreze în continuare limitele pe care le poate face inteligența artificială și ce îi lipsește încă.
Suntem aici pentru tine - Consultanță - Planificare - Implementare - Management de proiect
☑️ Suport pentru IMM-uri în strategie, consultanță, planificare și implementare
☑️ Crearea sau realinierea strategiei de inteligență artificială
☑️ Dezvoltare de afaceri pionieră
Aș fi bucuros să vă servesc drept consilier personal.
Mă puteți contacta completând formularul de contact de mai jos sau pur și simplu sunându-mă la +49 89 89 674 804 (München) .
Aștept cu nerăbdare proiectul nostru comun.
Xpert.Digital - Konrad Wolfenstein
Xpert.Digital este un hub pentru industrie, axat pe digitalizare, inginerie mecanică, logistică/intralogistică și fotovoltaică.
Cu soluția noastră de Dezvoltare Afaceri 360°, sprijinim companii renumite, de la achiziții noi până la post-vânzare.
Inteligența de piață, smarketing-ul, automatizarea marketingului, dezvoltarea de conținut, PR-ul, campaniile de e-mail, social media personalizate și cultivarea lead-urilor fac parte din instrumentele noastre digitale.
Puteți găsi mai multe informații la: www.xpert.digital - www.xpert.solar - www.xpert.plus


