Icona del sito web Xpert.Digital

Confronto tra AI nel benchmark ARC dei modelli AI: GPT-5 contro Grok contro o3

Confronto tra AI nel benchmark ARC dei modelli AI: GPT-5 contro Grok contro o3

Confronto tra AI nel benchmark ARC dei modelli AI: GPT-5 contro Grok contro o3 – Immagine: Xpert.Digital

La grande disillusione: perché modelli di intelligenza artificiale sempre più grandi falliscono il cruciale test di intelligenza

Che cos'è il benchmark ARC-AGI e perché è stato sviluppato?

Il benchmark ARC-AGI è una serie di test per misurare l'intelligenza generale dei sistemi di intelligenza artificiale, sviluppata nel 2019 da François Chollet. ARC sta per "Abstraction and Reasoning Corpus for Artificial General Intelligence" (Corpus di astrazione e ragionamento per l'intelligenza artificiale generale). Il benchmark è stato creato per valutare la capacità dei sistemi di intelligenza artificiale di comprendere e risolvere nuovi compiti per i quali non sono stati addestrati esplicitamente.

Lo sviluppo del benchmark si basa sulla definizione di intelligenza di Chollet, contenuta nel suo fondamentale articolo "Sulla misura dell'intelligenza". Egli sostiene che la vera intelligenza non risiede nella padronanza di compiti specifici, ma nell'efficienza nell'acquisizione di nuove competenze. Il test consiste in enigmi visivi con griglie colorate, in cui i sistemi di intelligenza artificiale devono identificare le regole di trasformazione sottostanti e applicarle a nuovi esempi.

In che modo ARC-AGI si differenzia dagli altri benchmark di intelligenza artificiale?

A differenza dei test di intelligenza artificiale convenzionali, che spesso si basano su conoscenze pregresse o modelli memorizzati, l'ARC-AGI si concentra sulle cosiddette "conoscenze pregresse fondamentali", ovvero abilità cognitive fondamentali come la permanenza degli oggetti, il conteggio e il ragionamento spaziale. Queste abilità vengono tipicamente acquisite dagli esseri umani intorno ai quattro anni.

La differenza cruciale sta nel fatto che ARC-AGI è specificamente progettato per essere irrisolvibile tramite la mera memorizzazione o interpolazione dei dati. Ogni compito nel benchmark è unico ed è stato sviluppato specificamente per il test, quindi non dovrebbero esistere esempi online. Questo rende il test resistente alle strategie tipiche dei sistemi di intelligenza artificiale che si basano su grandi set di dati di addestramento.

Quali sono le diverse versioni del benchmark ARC-AGI?

Esistono ora tre versioni principali del benchmark:

ARC-AGI-1

La versione originale del 2019 consiste in enigmi visivi statici. Gli esseri umani raggiungono un punteggio medio del 95% in questo gioco, mentre la maggior parte dei sistemi di intelligenza artificiale ha da tempo ottenuto punteggi inferiori al 5%.

ARC-AGI-2

Questa versione migliorata è stata rilasciata nel 2025 ed è specificamente progettata per rappresentare una sfida anche per i moderni sistemi di ragionamento. Mentre gli esseri umani continuano a raggiungere quasi il 100% di successo, persino i modelli di intelligenza artificiale più avanzati riescono a gestire solo il 10-20% dei compiti.

ARC-AGI-3

L'ultima versione, ancora in fase di sviluppo, introduce elementi interattivi. Invece di puzzle statici, gli agenti di intelligenza artificiale devono imparare attraverso l'esplorazione e il tentativo di errore in un mondo a griglia, proprio come gli esseri umani esplorano nuovi ambienti.

Come si comportano i diversi modelli di intelligenza artificiale nei test ARC-AGI?

Le differenze di prestazioni tra i diversi modelli di intelligenza artificiale sono significative:

Per ARC-AGI-1, Grok 4 raggiunge circa il 68%, mentre GPT-5 raggiunge il 65,7%. Il costo per attività è di circa 1 dollaro USA per Grok 4 e 0,51 dollari USA per GPT-5.

In ARC-AGI-2, il test più difficile, le prestazioni calano drasticamente: GPT-5 raggiunge solo il 9,9% a un costo di 0,73 $ per attività, mentre Grok 4 (Thinking) ottiene risultati migliori, circa il 16%, ma a un costo significativamente più elevato di 2-4 $.

Come previsto, le varianti di modello più economiche mostrano prestazioni più deboli: GPT-5 Mini raggiunge il 54,3% su AGI-1 e il 4,4% su AGI-2, mentre GPT-5 Nano raggiunge rispettivamente solo il 16,5% e il 2,5%.

Qual è il segreto del modello di anteprima o3?

Il modello di anteprima o3 di OpenAI rappresenta un caso speciale. Nel dicembre 2024, ha raggiunto punteggi di prestazioni impressionanti, dal 75,7% all'87,5% su ARC-AGI-1, a seconda della potenza di calcolo utilizzata. È stata la prima volta che un sistema di intelligenza artificiale ha superato il limite di prestazioni umane dell'85%.

Tuttavia, c'è un limite importante: la versione di o3 disponibile al pubblico ha prestazioni significativamente inferiori rispetto alla versione di anteprima originale. Secondo l'ARC Prize, la versione di o3 rilasciata raggiunge solo il 41% (bassa potenza di calcolo) e il 53% (media potenza di calcolo) su ARC-AGI-1, rispetto al 76-88% della versione di anteprima.

OpenAI ha confermato che il modello pubblicato ha un'architettura diversa e più piccola ed è ottimizzato per applicazioni di chat e prodotti. Questa discrepanza solleva dubbi sulle sue effettive capacità e sottolinea l'importanza di valutare criticamente i risultati di benchmark di modelli non pubblicati.

Come funziona il concorso ARC Prize?

L'ARC Prize è un concorso annuale con un montepremi complessivo di oltre un milione di dollari USA, che mira a promuovere il progresso dell'open source verso l'AGI (Actively Generic Architecture). L'edizione 2025 del concorso si svolgerà dal 26 marzo al 3 novembre sulla piattaforma Kaggle.

La struttura dei prezzi include:

  • Gran Premio (700.000 USD): sbloccato quando un team raggiunge l'85% di precisione sul set di dati di valutazione privata
  • Premio per il punteggio più alto (75.000 USD): per le squadre con i punteggi più alti
  • Premio Paper (50.000 USD): per i progressi concettuali più significativi
  • Altri premi (175.000 USD): Ulteriori categorie saranno annunciate

È importante che tutti i vincitori pubblichino le loro soluzioni come open source. Ciò è in linea con la missione della Fondazione ARC Prize: rendere i progressi dell'AGI accessibili all'intera comunità di ricerca.

Quali sono le sfide tecniche del benchmark ARC-AGI?

I compiti in ARC-AGI richiedono diverse capacità cognitive che sono evidenti per gli esseri umani ma estremamente difficili per i sistemi di intelligenza artificiale:

Interpretazione dei simboli

L'intelligenza artificiale deve comprendere i simboli astratti e ricavarne il significato dal contesto.

Pensiero compositivo multistadio

I problemi devono essere suddivisi in sottofasi e risolti in sequenza.

Applicazione di regole dipendenti dal contesto

A seconda del contesto, la stessa regola potrebbe dover essere applicata in modo diverso.

Generalizzazione da alcuni esempi

In genere sono disponibili solo 2-3 coppie dimostrative da cui derivare la regola di trasformazione.

Quale ruolo gioca l'addestramento in fase di test nella risoluzione dell'ARC-AGI?

Il Test-Time Training (TTT) si è dimostrato un approccio promettente per migliorare le prestazioni di ARC-AGI. Questo metodo adatta dinamicamente i parametri del modello ai dati di input correnti durante l'inferenza, anziché basarsi esclusivamente su conoscenze pre-addestrate.

I ricercatori del MIT hanno dimostrato che il TTT migliora significativamente le prestazioni dei modelli linguistici su ARC-AGI. Il metodo consente ai modelli di adattarsi durante la risoluzione dei compiti e di apprendere da esempi specifici. Questo imita il comportamento umano nella risoluzione dei problemi, in cui dedichiamo più tempo a problemi complessi.

 

Sicurezza dei dati UE/DE | Integrazione di una piattaforma di intelligenza artificiale indipendente e multi-data source per tutte le esigenze aziendali

Piattaforme di intelligenza artificiale indipendenti come alternativa strategica per le aziende europee - Immagine: Xpert.Digital

AI Game Changer: la piattaforma di intelligenza artificiale più flessibile - Soluzioni su misura che riducono i costi, migliorano le decisioni e aumentano l'efficienza

Piattaforma di intelligenza artificiale indipendente: integra tutte le fonti di dati aziendali rilevanti

  • Integrazione rapida dell'IA: soluzioni di IA su misura per le aziende in poche ore o giorni, anziché mesi
  • Infrastruttura flessibile: basata su cloud o hosting nel proprio data center (Germania, Europa, libera scelta della posizione)
  • Massima sicurezza dei dati: il suo utilizzo negli studi legali ne è una prova inconfutabile
  • Distribuzione su un'ampia varietà di fonti di dati aziendali
  • Scelta di modelli di intelligenza artificiale propri o diversi (DE, UE, USA, CN)

Maggiori informazioni qui:

 

Intelligenza artificiale oltre la scalabilità: approfondimenti dal test ARC-AGI

Cosa significano i risultati per lo sviluppo dell'AGI?

I risultati rivelano un divario significativo tra l'intelligenza umana e quella artificiale. Mentre gli esseri umani risolvono intuitivamente i compiti ARC-AGI, anche i sistemi di intelligenza artificiale più avanzati falliscono nei compiti cognitivi di base.

François Chollet sostiene che l'attuale paradigma di sviluppo dell'IA – l'addestramento di modelli sempre più grandi con più dati – abbia raggiunto i suoi limiti. Gli scarsi risultati ottenuti con ARC-AGI, nonostante l'aumento esponenziale delle dimensioni dei modelli, dimostrano, a suo avviso, che "l'intelligenza fluida non nasce dalla scalabilità del pre-addestramento".

Il futuro potrebbe risiedere in nuovi approcci come il Test-Time Adaptation, in cui i modelli possono modificare il proprio stato in fase di esecuzione per adattarsi a nuove situazioni.

Come si prospetta il futuro del benchmark ARC-AGI?

La ARC Prize Foundation prevede lo sviluppo continuo del benchmark. ARC-AGI-3, con i suoi elementi interattivi, dovrebbe essere rilasciato a pieno regime nel 2026 e includerà circa 100 ambienti unici.

La Fondazione mira a sviluppare parametri di riferimento che fungeranno da "Stella Polare" per lo sviluppo dell'intelligenza artificiale generale. Ciò significa non solo misurare i progressi, ma anche orientare la ricerca verso direzioni che potrebbero portare a una vera intelligenza generale.

Quali sono le implicazioni economiche delle prestazioni del benchmark?

Il costo della risoluzione dei problemi ARC-AGI varia notevolmente tra i modelli e ha un impatto diretto sull'applicabilità pratica.

Mentre compiti semplici possono essere risolti con costi API nell'ordine dei centesimi, i costi per compiti di ragionamento complessi aumentano rapidamente. Il modello o3, ad esempio, può costare fino a 1.000 dollari per compito con un'elevata potenza di calcolo.

Questa struttura dei costi dimostra che, anche se si conseguono progressi tecnici, la fattibilità economica resta un fattore cruciale per l'applicazione diffusa delle tecnologie AGI.

Quali sono le implicazioni filosofiche dei risultati dell'ARC-AGI?

I risultati sollevano interrogativi fondamentali sulla natura dell'intelligenza. Il benchmark dimostra che esiste una differenza fondamentale tra la memorizzazione di modelli e la vera comprensione.

Il fatto che gli esseri umani risolvano questi compiti senza sforzo, mentre i sistemi di intelligenza artificiale falliscono, suggerisce che l'intelligenza umana funzioni in modo qualitativamente diverso dagli attuali approcci di intelligenza artificiale. Ciò supporta la tesi di Chollet secondo cui l'intelligenza artificiale richiede più di semplici modelli più ampi e una maggiore quantità di dati.

In che modo ARC-AGI influenza l'orientamento della ricerca sull'intelligenza artificiale?

Questo benchmark ha già portato a una riconsiderazione nella ricerca sull'intelligenza artificiale. Invece di concentrarsi esclusivamente sui modelli di scalabilità, i laboratori leader stanno ora esplorando approcci alternativi come il calcolo in fase di test e i sistemi adattivi.

Questo cambiamento si riflette anche negli investimenti: le aziende investono sempre di più nella ricerca su ragionamenti e risoluzioni dei problemi più efficienti, anziché in sessioni di formazione sempre più ampie.

Quale ruolo gioca la comunità open source?

La Fondazione ARC Prize sottolinea l'importanza dello sviluppo open source per il progresso dell'AGI. Tutti i vincitori del concorso sono tenuti a rendere pubbliche le proprie soluzioni.

Questa filosofia si basa sulla convinzione che l'AGI sia troppo importante per essere sviluppata esclusivamente in laboratori chiusi. La Fondazione si considera un catalizzatore per una comunità di ricerca collaborativa e trasparente.

Quali sono i limiti del benchmark ARC-AGI?

Nonostante la sua importanza, l'ARC-AGI presenta anche dei limiti. Lo stesso Chollet sottolinea che il superamento del test non è sinonimo di raggiungimento dell'AGI. Il benchmark misura solo un aspetto dell'intelligenza: la capacità di risolvere problemi astratti.

Altri aspetti importanti come la creatività, l'intelligenza emotiva o la pianificazione a lungo termine non vengono valutati. Inoltre, esiste il rischio che vengano sviluppati sistemi specificamente ottimizzati per ARC-AGI che superino il test senza essere effettivamente intelligenti a livello generale.

Quali sono i costi per lo sviluppo di modelli di intelligenza artificiale nel contesto di ARC-AGI?

L'andamento dei costi rivela tendenze interessanti. Mentre le prestazioni aumentano solo lentamente, i costi per miglioramenti marginali stanno aumentando vertiginosamente.

Questa dinamica dei costi porta a un'importante intuizione: l'efficienza sta diventando il fattore di differenziazione decisivo. La Fondazione ARC Prize sottolinea che non solo l'accuratezza, ma anche il costo per problema risolto è un criterio cruciale.

Cosa significa ARC-AGI per il futuro del lavoro?

I risultati hanno implicazioni rassicuranti per molte professioni. L'incapacità dei sistemi di intelligenza artificiale di risolvere compiti di pensiero basilari dimostra che le capacità cognitive umane sono ben lungi dall'essere sostituite.

Allo stesso tempo, i progressi nelle attività specializzate suggeriscono che l'intelligenza artificiale continuerà a fungere da strumento di supporto al lavoro umano, anziché sostituirlo completamente.

Quali nuovi approcci di ricerca emergono dall'ARC-AGI?

Il benchmark ha ispirato diverse direzioni di ricerca innovative:

Sintesi del programma

Sistemi che generano programmi per risolvere problemi.

Approcci neurosimbolici

Combinazione di reti neurali con ragionamento simbolico.

Sistemi multi-agente

Diversi agenti specializzati stanno lavorando insieme.

Algoritmi evolutivi

Sistemi che sviluppano soluzioni attraverso l'evoluzione.

Qual è la visione futura dell'ARC Prize Foundation?

La Fondazione persegue una missione chiara: fungere da "Stella Polare" per lo sviluppo di un'intelligenza artificiale globale aperta. Ciò implica non solo parametri di riferimento tecnici, ma anche la creazione di un ecosistema che promuova l'innovazione, garantendo al contempo che i progressi dell'intelligenza artificiale globale vadano a beneficio di tutta l'umanità.

Lo sviluppo continuo di nuove versioni di benchmark mira a garantire che l'asticella venga costantemente alzata e che la ricerca non ristagna. Con ARC-AGI-3 e le versioni future, la Fondazione mira a esplorare ulteriormente i limiti di ciò che l'IA può fare e ciò che ancora le manca.

 

Siamo qui per te - Consulenza - Pianificazione - Implementazione - Gestione Progetti

☑️ Supporto alle PMI in strategia, consulenza, pianificazione e implementazione

☑️ Creazione o riallineamento della strategia di IA

☑️ Sviluppo aziendale pionieristico

 

Konrad Wolfenstein

Sarei felice di fungere da tuo consulente personale.

Puoi contattarmi compilando il modulo di contatto qui sotto oppure chiamandomi al numero +49 7348 4088 965 .

Non vedo l'ora di iniziare il nostro progetto comune.

 

 

Scrivimi

 
Xpert.Digital - Konrad Wolfenstein

Xpert.Digital è un hub per l'industria focalizzato sulla digitalizzazione, l'ingegneria meccanica, la logistica/intralogistica e il fotovoltaico.

Con la nostra soluzione di sviluppo aziendale a 360° supportiamo aziende rinomate dalla fase di avvio del nuovo business fino al post-vendita.

Market intelligence, smarketing, marketing automation, sviluppo di contenuti, PR, campagne email, social media personalizzati e lead nurturing sono parte dei nostri strumenti digitali.

Per maggiori informazioni visita: www.xpert.digital - www.xpert.solar - www.xpert.plus

Rimaniamo in contatto

Lascia la versione mobile