
Confrontation d'IA sur le benchmark ARC des modèles d'IA : GPT-5 contre Grok contre o3 – Image : Xpert.Digital
La grande désillusion : pourquoi des modèles d'IA de plus en plus volumineux échouent au test crucial d'intelligence
Qu'est-ce que le benchmark ARC-AGI et pourquoi a-t-il été développé ?
Le benchmark ARC-AGI est une série de tests permettant de mesurer l'intelligence générale des systèmes d'IA, développée par François Chollet en 2019. ARC signifie « Abstraction and Reasoning Corpus for Artificial General Intelligence ». Ce benchmark a été créé pour évaluer la capacité des systèmes d'IA à comprendre et à résoudre de nouvelles tâches pour lesquelles ils n'ont pas été explicitement entraînés.
Le développement de ce test repose sur la définition de l'intelligence donnée par Chollet dans son article fondateur « Sur la mesure de l'intelligence ». Il soutient que la véritable intelligence ne réside pas dans la maîtrise de tâches spécifiques, mais dans l'efficacité de l'acquisition de nouvelles compétences. Le test consiste en des énigmes visuelles avec des grilles colorées, où les systèmes d'IA doivent reconnaître les règles de transformation sous-jacentes et les appliquer à de nouveaux exemples.
En quoi ARC-AGI diffère-t-il des autres benchmarks d’IA ?
Contrairement aux tests d'IA conventionnels, qui s'appuient souvent sur des connaissances préalables ou des schémas mémorisés, l'ARC-AGI se concentre sur les « connaissances fondamentales » – -à-dire des compétences cognitives de base telles que la permanence des objets, le comptage et la compréhension spatiale. Ces compétences sont généralement acquises avant l'âge de quatre ans.
La principale différence réside dans le fait qu'ARC-AGI est spécifiquement conçu pour être résolu par simple mémorisation ou interpolation de données. Chaque tâche du benchmark est unique et a été développée spécifiquement pour le test ; aucun exemple ne devrait donc exister en ligne. Cela rend le test résistant aux stratégies habituelles des systèmes d'IA basées sur de grandes quantités de données d'entraînement.
Quelles sont les différentes versions du benchmark ARC-AGI ?
Il existe désormais trois versions principales du benchmark :
ARC-AGI-1
Dans la version originale de 2019, composée d'énigmes visuelles statiques, les humains atteignent en moyenne 95 %, alors que la plupart des systèmes d'IA sont depuis longtemps en dessous de 5 %.
ARC-AGI-2
Cette version améliorée, lancée en 2025, est spécialement conçue pour défier même les systèmes de raisonnement modernes. Si les humains continuent d'atteindre des performances proches de 100 %, même les modèles d'IA avancés ne parviennent à gérer que 10 à 20 % des tâches.
ARC-AGI-3
La dernière version, toujours en développement, introduit des éléments interactifs. Au lieu d'énigmes statiques, les agents d'IA doivent apprendre par l'exploration et les essais-erreurs dans un monde en grille, à la manière dont les humains explorent de nouveaux environnements.
Comment les différents modèles d’IA se comportent-ils dans les tests ARC-AGI ?
Les différences de performances entre les différents modèles d’IA sont importantes :
Sur ARC-AGI-1, Grok 4 atteint environ 68 %, tandis que GPT-5 atteint 65,7 %. Le coût par tâche est d'environ 1 $ pour Grok 4 et 0,51 $ pour GPT-5.
Sur ARC-AGI-2, le test le plus difficile, les performances chutent considérablement : GPT-5 n'atteint que 9,9 % pour un coût de 0,73 $ par tâche, tandis que Grok 4 (Thinking) obtient de meilleurs résultats avec environ 16 %, bien qu'à un coût nettement plus élevé de 2 à 4 $.
Comme prévu, les variantes de modèles moins chères affichent des performances plus faibles : le GPT-5 Mini atteint 54,3 % sur AGI-1 et 4,4 % sur AGI-2, tandis que le GPT-5 Nano n'atteint respectivement que 16,5 % et 2,5 %.
Quel est le secret du modèle d'aperçu o3 ?
Le modèle o3-preview d'OpenAI représente un cas particulier. En décembre 2024, il a atteint un impressionnant score de 75,7 % à 87,5 % sur ARC-AGI-1, selon la puissance de calcul utilisée. C'était la première fois qu'un système d'IA dépassait le seuil de performance humaine de 85 %.
Il existe toutefois une limitation importante : la version publique d'o3 est nettement moins performante que la version préliminaire originale. Selon le prix ARC, la version publiée d'o3 n'atteint que 41 % (calcul faible) et 53 % (calcul moyen) sur ARC-AGI-1, contre 76 à 88 % pour la version préliminaire.
OpenAI a confirmé que le modèle publié possède une architecture différente, plus compacte, et qu'il est optimisé pour les applications de chat et de produits. Cette divergence soulève des questions sur ses capacités réelles et souligne l'importance d'examiner de manière critique les résultats des benchmarks issus de modèles non publiés.
Comment fonctionne le concours du Prix ARC ?
Le Prix ARC est un concours annuel doté de plus d'un million de dollars américains et visant à promouvoir les avancées open source vers l'IA générale. L'édition 2025 du concours se déroule du 26 mars au 3 novembre sur la plateforme Kaggle.
La structure tarifaire comprend :
- Grand prix (700 000 USD) : Débloqué lorsqu'une équipe atteint une précision de 85 % sur l'ensemble de données d'évaluation privées
- Prix du meilleur score (75 000 USD) : pour les équipes ayant obtenu les scores les plus élevés
- Prix du papier (50 000 USD) : pour les avancées conceptuelles les plus significatives
- Prix supplémentaires (175 000 USD) : Catégories supplémentaires à annoncer
Il est important que tous les lauréats publient leurs solutions en open source. Cette démarche s'inscrit dans la mission de la Fondation du Prix ARC, qui vise à rendre les avancées de l'IAG accessibles à l'ensemble de la communauté scientifique.
Quels sont les défis techniques du benchmark ARC-AGI ?
Les tâches dans ARC-AGI nécessitent plusieurs compétences cognitives qui sont naturelles pour les humains mais extrêmement difficiles pour les systèmes d'IA :
Interprétation des symboles
L’IA doit comprendre les symboles abstraits et déduire leur signification du contexte.
Pensée compositionnelle à plusieurs niveaux
Les problèmes doivent être décomposés en sous-étapes et résolus de manière séquentielle.
Application de règles dépendante du contexte
La même règle peut devoir être appliquée différemment selon le contexte.
Généralisation à partir de quelques exemples
En règle générale, seules 2 ou 3 paires de démonstration sont disponibles à partir desquelles la règle de transformation doit être dérivée.
Quel rôle joue la formation au moment du test dans la résolution de l’ARC-AGI ?
L'apprentissage au moment des tests (TTT) s'est avéré une approche prometteuse pour améliorer les performances d'ARC-AGI. Cette méthode adapte dynamiquement les paramètres du modèle aux données d'entrée actuelles lors de l'inférence, plutôt que de s'appuyer uniquement sur des connaissances pré-entraînées.
Des chercheurs du MIT ont démontré que le TTT améliore significativement les performances des modèles linguistiques sur ARC-AGI. Cette méthode permet aux modèles de s'adapter pendant la résolution de tâches et d'apprendre à partir d'exemples spécifiques. Cela imite le comportement humain de résolution de problèmes, qui nous pousse à consacrer plus de temps à résoudre des problèmes complexes.
Sécurité des données UE/DE | Intégration d'une plateforme d'IA indépendante et multi-sources de données pour tous les besoins des entreprises
Les plateformes d'IA indépendantes, une alternative stratégique pour les entreprises européennes – Image : Xpert.Digital
Ki-Gamechanger: la plate-forme d'IA la plus flexible – Solutions sur mesure qui réduisent les coûts, améliorent leurs décisions et augmentent l'efficacité
Plateforme d'IA indépendante: intègre toutes les sources de données de l'entreprise pertinentes
- Intégration rapide de l'IA: solutions d'IA sur mesure pour les entreprises en heures ou jours au lieu de mois
- Infrastructure flexible: cloud ou hébergement dans votre propre centre de données (Allemagne, Europe, libre choix de l'emplacement)
- La sécurité des données la plus élevée: l'utilisation dans les cabinets d'avocats est la preuve sûre
- Utiliser sur une grande variété de sources de données de l'entreprise
- Choix de vos propres modèles d'IA (DE, DE, UE, USA, CN)
En savoir plus ici :
L'intelligence artificielle au-delà de l'échelle : enseignements du test ARC-AGI
Que signifient les résultats pour le développement de l’AGI ?
Les résultats révèlent un écart évident entre l'intelligence humaine et l'intelligence artificielle. Si les humains résolvent les tâches ARC-AGI de manière intuitive, même les systèmes d'IA de pointe échouent dans les tâches de raisonnement de base.
François Chollet soutient que le paradigme actuel du développement de l'IA – entraîner des modèles toujours plus grands avec davantage de données – a atteint ses limites. Les faibles résultats obtenus avec ARC-AGI, malgré une croissance exponentielle de la taille des modèles, prouvent, selon lui, que « l'intelligence fluide ne résulte pas d'une mise à l'échelle préalable à l'entraînement ».
L’avenir pourrait résider dans de nouvelles approches telles que l’adaptation au moment des tests, où les modèles peuvent modifier leurs propres états au moment de l’exécution pour s’adapter à de nouvelles situations.
À quoi ressemble l’avenir du benchmark ARC-AGI ?
La Fondation du Prix ARC prévoit de développer continuellement ce benchmark. ARC-AGI-3, avec ses éléments interactifs, devrait être lancé en 2026 et comprendra environ 100 environnements uniques.
L'objectif de la Fondation est d'élaborer des critères de référence servant de point de départ au développement de l'IAG. Cela vise non seulement à mesurer les progrès, mais aussi à orienter la recherche vers des directions susceptibles de mener à une véritable intelligence générale.
Quelles sont les implications économiques de la performance des indices de référence ?
Le coût de résolution des tâches ARC-AGI varie considérablement selon les modèles et a un impact direct sur l’applicabilité pratique.
Si des tâches simples peuvent être résolues avec des coûts d'API de l'ordre du centime, les coûts des tâches de raisonnement complexes augmentent rapidement. Le modèle o3, par exemple, peut coûter jusqu'à 1 000 dollars par tâche avec une puissance de calcul élevée.
Cette structure de coûts démontre que même si des avancées techniques sont réalisées, la faisabilité économique reste un facteur crucial pour l’adoption généralisée des technologies AGI.
Quelles sont les implications philosophiques des résultats de l’ARC-AGI ?
Les résultats soulèvent des questions fondamentales sur la nature de l'intelligence. L'étude de référence montre qu'il existe une différence fondamentale entre la mémorisation de schémas et la véritable compréhension.
Le fait que les humains accomplissent ces tâches sans effort, alors que les systèmes d'IA échouent, suggère que l'intelligence humaine fonctionne qualitativement différemment des approches d'IA actuelles. Cela corrobore l'argument de Chollet selon lequel l'IA générale requiert plus que de simples modèles plus grands et davantage de données.
Comment ARC-AGI influence-t-il la recherche en IA ?
Ce benchmark a déjà conduit à une refonte de la recherche en IA. Au lieu de se concentrer exclusivement sur les modèles de mise à l'échelle, les laboratoires de pointe explorent désormais des approches alternatives telles que le calcul en temps réel et les systèmes adaptatifs.
Ce changement se reflète également dans les investissements : les entreprises investissent de plus en plus dans la recherche visant à améliorer l’efficacité du raisonnement et de la résolution des problèmes, plutôt que dans des cycles de formation toujours plus importants.
Quel rôle joue la communauté open source ?
La Fondation du Prix ARC souligne l'importance du développement open source pour les avancées en IA. Tous les lauréats du concours sont tenus de rendre leurs solutions accessibles au public.
Cette philosophie repose sur la conviction que l'IAG est trop importante pour être développée uniquement dans des laboratoires fermés. La Fondation se considère comme un catalyseur pour une communauté de recherche collaborative et transparente.
Quelles sont les limites du benchmark ARC-AGI ?
Malgré son importance, l'ARC-AGI présente également des limites. Chollet lui-même souligne que la réussite du test ne garantit pas l'obtention de l'AGI. Ce test ne mesure qu'un seul aspect de l'intelligence – la capacité à résoudre des problèmes abstraits.
D'autres aspects importants, tels que la créativité, l'intelligence émotionnelle ou la planification à long terme, ne sont pas mesurés. De plus, il existe un risque que des systèmes spécifiquement optimisés pour l'ARC-AGI soient développés et réussissent le test sans être véritablement intelligents en général.
Comment évoluent les coûts des modèles d’IA dans le contexte de l’ARC-AGI ?
L'évolution des coûts est intéressante. Si les performances n'augmentent que lentement, les coûts des améliorations marginales explosent.
Cette dynamique des coûts nous amène à une conclusion importante : l'efficacité devient le facteur de différenciation clé. La Fondation du Prix ARC souligne que non seulement la précision, mais aussi le coût par tâche résolue constituent un critère important.
Que signifie ARC-AGI pour l’avenir du travail ?
Ces résultats ont des implications rassurantes pour de nombreuses professions. L'incapacité des systèmes d'IA à résoudre des tâches de raisonnement élémentaires démontre que les capacités cognitives humaines sont loin d'être remplacées.
Dans le même temps, les progrès réalisés dans les tâches spécialisées suggèrent que l’IA continuera à servir d’outil de soutien au travail humain plutôt que de le remplacer entièrement.
Quelles nouvelles approches de recherche émergent grâce à ARC-AGI ?
Le benchmark a inspiré plusieurs directions de recherche innovantes :
Synthèse du programme
Systèmes qui génèrent des programmes pour résoudre des problèmes.
Approches neurosymboliques
Combinaison de réseaux neuronaux avec raisonnement symbolique.
Systèmes multi-agents
Plusieurs agents spécialisés travaillent ensemble.
algorithmes évolutionnaires
Systèmes qui développent des solutions de manière évolutive.
Quelle est la vision de la Fondation du Prix ARC pour l’avenir ?
La Fondation a une mission claire : servir d'« étoile polaire » au développement de l'IAG ouverte. Il ne s'agit pas seulement d'établir des références techniques, mais de créer un écosystème qui favorise l'innovation tout en garantissant que les avancées de l'IAG bénéficient à toute l'humanité.
Le développement continu de nouvelles versions de référence vise à garantir que la barre soit constamment relevée et que la recherche ne stagne pas. Avec ARC-AGI-3 et les versions futures, la Fondation entend explorer plus avant les limites de l'IA et ses lacunes.
Nous sommes là pour vous – Conseils – Planification – Mise en œuvre – Gestion de projet
☑️ Accompagnement des PME en stratégie, conseil, planification et mise en œuvre
Création ou réalignement de la stratégie de l'IA
☑️ Développement commercial pionnier
Je serais heureux de vous servir de conseiller personnel.
Vous pouvez me contacter en remplissant le formulaire de contact ci-dessous ou simplement m'appeler au +49 89 89 674 804 (Munich) .
J'attends avec impatience notre projet commun.
Xpert.Digital – Konrad Wolfenstein
Xpert.Digital est une plateforme industrielle axée sur la numérisation, la construction mécanique, la logistique/intralogistique et le photovoltaïque.
Avec notre solution de développement commercial à 360°, nous accompagnons des entreprises de renom depuis les nouvelles affaires jusqu'à l'après-vente.
L'intelligence de marché, le smarketing, l'automatisation du marketing, le développement de contenu, les relations publiques, les campagnes de courrier électronique, les médias sociaux personnalisés et le lead nurturing font partie de nos outils numériques.
Vous pouvez en trouver plus sur: www.xpert.digital – www.xpert.solar – www.xpert.plus