Die große Ernüchterung: Warum immer größere KI-Modelle am entscheidenden Intelligenztest scheitern
Was ist der ARC-AGI-Benchmark und warum wurde er entwickelt?
Der ARC-AGI-Benchmark ist eine Testreihe zur Messung der allgemeinen Intelligenz von KI-Systemen, die 2019 von François Chollet entwickelt wurde. ARC steht für “Abstraction and Reasoning Corpus for Artificial General Intelligence”. Der Benchmark wurde geschaffen, um die Fähigkeit von KI-Systemen zu bewerten, neue Aufgaben zu verstehen und zu lösen, für die sie nicht explizit trainiert wurden.
Die Entwicklung des Benchmarks basiert auf Chollets Definition von Intelligenz aus seinem wegweisenden Paper “On the Measure of Intelligence”. Er argumentiert, dass wahre Intelligenz nicht in der Beherrschung spezifischer Aufgaben liegt, sondern in der Effizienz des Erwerbs neuer Fähigkeiten. Der Test besteht aus visuellen Rätseln mit farbigen Gittern, bei denen KI-Systeme die zugrunde liegenden Transformationsregeln erkennen und auf neue Beispiele anwenden müssen.
Wie unterscheidet sich ARC-AGI von anderen KI-Benchmarks?
Im Gegensatz zu herkömmlichen KI-Tests, die oft auf Vorwissen oder memorierten Mustern basieren, konzentriert sich ARC-AGI auf sogenannte “Core Knowledge Priors” – grundlegende kognitive Fähigkeiten wie Objektpermanenz, Zählung und räumliches Verständnis. Diese Fähigkeiten erwerben Menschen typischerweise im Alter von vier Jahren.
Der entscheidende Unterschied liegt darin, dass ARC-AGI speziell darauf ausgelegt ist, nicht durch reines Auswendiglernen oder Dateninterpolation lösbar zu sein. Jede Aufgabe im Benchmark ist einzigartig und wurde speziell für den Test entwickelt, sodass keine Beispiele davon im Internet existieren sollten. Dies macht den Test resistent gegen die üblichen Strategien von KI-Systemen, die auf großen Trainingsdatenmengen basieren.
Was sind die verschiedenen Versionen des ARC-AGI-Benchmarks?
Es gibt mittlerweile drei Hauptversionen des Benchmarks:
ARC-AGI-1
Die ursprüngliche Version von 2019, die aus statischen visuellen Rätseln besteht. Menschen erreichen hier durchschnittlich 95%, während die meisten KI-Systeme lange Zeit bei unter 5% lagen.
ARC-AGI-2
Diese erweiterte Version wurde 2025 veröffentlicht und ist speziell darauf ausgelegt, auch für moderne “Reasoning”-Systeme eine Herausforderung darzustellen. Während Menschen weiterhin nahezu 100% erreichen, schaffen selbst fortschrittliche KI-Modelle nur 10-20% der Aufgaben.
ARC-AGI-3
Die neueste, noch in Entwicklung befindliche Version führt interaktive Elemente ein. Statt statischer Rätsel müssen KI-Agenten in einer Grid-Welt durch Exploration und Trial-and-Error lernen, ähnlich wie Menschen neue Umgebungen erkunden.
Wie schneiden verschiedene KI-Modelle in den ARC-AGI-Tests ab?
Die Leistungsunterschiede zwischen verschiedenen KI-Modellen sind erheblich:
Bei ARC-AGI-1 erreicht Grok 4 etwa 68%, während GPT-5 bei 65,7% liegt. Die Kosten pro Aufgabe betragen dabei etwa 1 US-Dollar für Grok 4 und 0,51 US-Dollar für GPT-5.
Bei ARC-AGI-2, dem schwierigeren Test, fällt die Leistung drastisch ab: GPT-5 erreicht nur 9,9% bei Kosten von 0,73 US-Dollar pro Aufgabe, während Grok 4 (Thinking) mit etwa 16% besser abschneidet, allerdings bei deutlich höheren Kosten von 2-4 US-Dollar.
Günstigere Modellvarianten zeigen erwartungsgemäß schwächere Leistungen: GPT-5 Mini erreicht 54,3% auf AGI-1 und 4,4% auf AGI-2, während GPT-5 Nano nur auf 16,5% bzw. 2,5% kommt.
Was ist das Geheimnis um das o3-preview-Modell?
Das o3-preview-Modell von OpenAI stellt einen besonderen Fall dar. Im Dezember 2024 erreichte es auf ARC-AGI-1 beeindruckende 75,7% bis 87,5%, abhängig von der eingesetzten Rechenleistung. Dies war das erste Mal, dass ein KI-System die menschliche Leistungsgrenze von 85% übertraf.
Allerdings gibt es eine wichtige Einschränkung: Die öffentlich verfügbare Version von o3 zeigt deutlich schwächere Leistungen als die ursprüngliche Preview-Version. Laut ARC Prize erreicht das veröffentlichte o3 nur 41% (low compute) bzw. 53% (medium compute) auf ARC-AGI-1, verglichen mit den 76-88% der Preview-Version.
OpenAI bestätigte, dass das veröffentlichte Modell eine andere, kleinere Architektur hat und für Chat- und Produktanwendungen optimiert wurde. Diese Diskrepanz wirft Fragen über die tatsächlichen Fähigkeiten auf und zeigt, wie wichtig es ist, Benchmark-Ergebnisse unveröffentlichter Modelle kritisch zu betrachten.
Wie funktioniert der ARC Prize Wettbewerb?
Der ARC Prize ist ein jährlicher Wettbewerb mit einem Gesamtpreisgeld von über einer Million US-Dollar, der darauf abzielt, Open-Source-Fortschritte in Richtung AGI zu fördern. Der aktuelle Wettbewerb 2025 läuft vom 26. März bis 3. November auf der Plattform Kaggle.
Die Preisstruktur umfasst:
- Grand Prize (700.000 USD): Wird freigeschaltet, wenn ein Team 85% Genauigkeit auf dem privaten Evaluierungsdatensatz erreicht
- Top Score Prize (75.000 USD): Für die Teams mit den höchsten Punktzahlen
- Paper Prize (50.000 USD): Für die bedeutendsten konzeptionellen Fortschritte
- Weitere Preise (175.000 USD): Noch zu verkündende zusätzliche Kategorien
Wichtig ist, dass alle Gewinner ihre Lösungen als Open Source veröffentlichen müssen. Dies entspricht der Mission der ARC Prize Foundation, AGI-Fortschritte für die gesamte Forschungsgemeinschaft zugänglich zu machen.
Was sind die technischen Herausforderungen des ARC-AGI-Benchmarks?
Die Aufgaben in ARC-AGI erfordern mehrere kognitive Fähigkeiten, die für Menschen selbstverständlich, für KI-Systeme aber extrem schwierig sind:
Symbolinterpretation
KI muss abstrakte Symbole verstehen und ihre Bedeutung aus dem Kontext ableiten.
Mehrstufiges Kompositionsdenken
Probleme müssen in Teilschritte zerlegt und sequenziell gelöst werden.
Kontextabhängige Regelanwendung
Die gleiche Regel kann je nach Kontext unterschiedlich angewendet werden müssen.
Generalisierung aus wenigen Beispielen
Typischerweise stehen nur 2-3 Demonstrationspaare zur Verfügung, aus denen die Transformationsregel abgeleitet werden muss.
Welche Rolle spielt Test-Time Training bei der Lösung von ARC-AGI?
Test-Time Training (TTT) hat sich als vielversprechender Ansatz zur Verbesserung der Leistung auf ARC-AGI erwiesen. Bei dieser Methode werden die Modellparameter während der Inferenz dynamisch an die aktuellen Eingabedaten angepasst, anstatt sich nur auf vorab trainiertes Wissen zu verlassen.
MIT-Forscher konnten zeigen, dass TTT die Leistung von Sprachmodellen auf ARC-AGI deutlich verbessert. Die Methode ermöglicht es den Modellen, sich während der Aufgabenlösung anzupassen und aus den spezifischen Beispielen zu lernen. Dies ahmt menschliches Problemlösungsverhalten nach, bei dem wir mehr Zeit mit schwierigen Problemen verbringen.
EU/DE Datensicherheit | Integration einer unabhängigen und Datenquellen-übergreifenden KI-Plattform für alle Unternehmensbelange
Unabhängige KI-Plattformen als strategische Alternative für europäische Unternehmen - Bild: Xpert.Digital
KI-Gamechanger: Die flexibelste KI-Plattform - Maßgeschneiderte Lösungen, die Kosten senken, Ihre Entscheidungen verbessern und die Effizienz steigern
Unabhängige KI-Plattform: Integriert alle relevanten Unternehmensdatenquellen
- Schnelle KI-Integration: Maßgeschneiderte KI-Lösungen für Unternehmen in Stunden oder Tagen, anstatt Monaten
- Flexible Infrastruktur: Cloud-basiert oder Hosting im eigenen Rechenzentrum (Deutschland, Europa, freie Standortwahl)
- Höchste Datensicherheit: Einsatz in Anwaltskanzleien ist der sichere Beweis
- Einsatz über die unterschiedlichsten Unternehmensdatenquellen hinweg
- Wahl der eigenen bzw. verschiedenen KI-Modelle (DE,EU,USA,CN)
Mehr dazu hier:
Künstliche Intelligenz jenseits der Skalierung: Insights aus dem ARC-AGI-Test
Was bedeuten die Ergebnisse für die Entwicklung von AGI?
Die Ergebnisse zeigen eine deutliche Lücke zwischen menschlicher und künstlicher Intelligenz. Während Menschen ARC-AGI-Aufgaben intuitiv lösen, scheitern selbst modernste KI-Systeme an den grundlegenden Denkaufgaben.
François Chollet argumentiert, dass das bisherige Paradigma der KI-Entwicklung – immer größere Modelle mit mehr Daten zu trainieren – an seine Grenzen gestoßen ist. Die schlechten Ergebnisse auf ARC-AGI trotz exponentieller Steigerung der Modellgröße beweisen seiner Ansicht nach, dass “fluide Intelligenz nicht aus der Skalierung des Pre-Trainings entsteht”.
Die Zukunft könnte in neuen Ansätzen wie Test-Time Adaptation liegen, bei denen Modelle ihre eigenen Zustände zur Laufzeit ändern können, um sich an neue Situationen anzupassen.
Wie sieht die Zukunft des ARC-AGI-Benchmarks aus?
Die ARC Prize Foundation plant kontinuierliche Weiterentwicklungen des Benchmarks. ARC-AGI-3 mit seinen interaktiven Elementen soll 2026 vollständig veröffentlicht werden und etwa 100 einzigartige Umgebungen umfassen.
Die Foundation verfolgt das Ziel, Benchmarks zu entwickeln, die als “Nordstern” für die AGI-Entwicklung dienen. Dabei geht es nicht nur um die Messung von Fortschritten, sondern auch darum, die Forschung in Richtungen zu lenken, die zu echter allgemeiner Intelligenz führen könnten.
Welche wirtschaftlichen Auswirkungen hat die Benchmark-Performance?
Die Kosten für das Lösen von ARC-AGI-Aufgaben variieren stark zwischen den Modellen und haben direkte Auswirkungen auf die praktische Anwendbarkeit.
Während einfache Aufgaben mit API-Kosten im Cent-Bereich gelöst werden können, steigen die Kosten für komplexe Reasoning-Aufgaben schnell an. Das o3-Modell beispielsweise kann bei hoher Rechenleistung bis zu 1.000 US-Dollar pro Aufgabe kosten.
Diese Kostenstruktur zeigt, dass selbst wenn technische Durchbrüche erzielt werden, die wirtschaftliche Machbarkeit ein entscheidender Faktor für die breite Anwendung von AGI-Technologien bleibt.
Was sind die philosophischen Implikationen der ARC-AGI-Ergebnisse?
Die Ergebnisse werfen grundlegende Fragen über die Natur von Intelligenz auf. Der Benchmark zeigt, dass es einen fundamentalen Unterschied zwischen dem Memorieren von Mustern und echtem Verstehen gibt.
Die Tatsache, dass Menschen diese Aufgaben mühelos lösen, während KI-Systeme scheitern, deutet darauf hin, dass menschliche Intelligenz qualitativ anders funktioniert als aktuelle KI-Ansätze. Dies unterstützt Chollets Argument, dass AGI mehr erfordert als nur größere Modelle und mehr Daten.
Wie beeinflusst ARC-AGI die KI-Forschungsrichtung?
Der Benchmark hat bereits zu einem Umdenken in der KI-Forschung geführt. Statt sich ausschließlich auf die Skalierung von Modellen zu konzentrieren, erforschen führende Labore nun alternative Ansätze wie Test-Time Compute und adaptive Systeme.
Diese Verschiebung spiegelt sich auch in den Investitionen wider: Unternehmen investieren zunehmend in Forschung zu effizienterem Reasoning und Problemlösung statt in immer größere Trainingsläufe.
Welche Rolle spielt die Open-Source-Community?
Die ARC Prize Foundation betont die Wichtigkeit von Open-Source-Entwicklung für AGI-Fortschritte. Alle Wettbewerbsgewinner müssen ihre Lösungen öffentlich zugänglich machen.
Diese Philosophie basiert auf der Überzeugung, dass AGI zu wichtig ist, um nur in geschlossenen Laboren entwickelt zu werden. Die Foundation sieht sich als Katalysator für eine collaborative, transparente Forschungsgemeinschaft.
Was sind die Grenzen des ARC-AGI-Benchmarks?
Trotz seiner Bedeutung hat auch ARC-AGI Grenzen. Chollet selbst betont, dass das Bestehen des Tests nicht gleichbedeutend mit dem Erreichen von AGI ist. Der Benchmark misst nur einen Aspekt von Intelligenz – die Fähigkeit zur abstrakten Problemlösung.
Andere wichtige Aspekte wie Kreativität, emotionale Intelligenz oder langfristige Planung werden nicht erfasst. Zudem besteht die Gefahr, dass speziell auf ARC-AGI optimierte Systeme entwickelt werden, die den Test bestehen, ohne wirklich allgemein intelligent zu sein.
Wie entwickeln sich die Kosten für KI-Modelle im Kontext von ARC-AGI?
Die Kostenentwicklung zeigt interessante Trends. Während die Leistung nur langsam steigt, explodieren die Kosten für marginale Verbesserungen.
Diese Kostendynamik führt zu einer wichtigen Erkenntnis: Effizienz wird zum entscheidenden Unterscheidungsmerkmal. Die ARC Prize Foundation betont, dass nicht nur die Genauigkeit, sondern auch die Kosten pro gelöster Aufgabe ein wichtiges Kriterium sind.
Was bedeutet ARC-AGI für die Zukunft der Arbeit?
Die Ergebnisse haben beruhigende Implikationen für viele Berufe. Die Unfähigkeit von KI-Systemen, grundlegende Denkaufgaben zu lösen, zeigt, dass menschliche kognitive Fähigkeiten noch lange nicht ersetzt werden können.
Gleichzeitig deutet der Fortschritt bei spezialisierten Aufgaben darauf hin, dass KI weiterhin als Werkzeug zur Unterstützung menschlicher Arbeit dienen wird, anstatt sie vollständig zu ersetzen.
Welche neuen Forschungsansätze entstehen durch ARC-AGI?
Der Benchmark hat mehrere innovative Forschungsrichtungen inspiriert:
Program Synthesis
Systeme, die Programme generieren, um Probleme zu lösen.
Neurosymbolische Ansätze
Kombination von neuronalen Netzen mit symbolischem Reasoning.
Multi-Agent-Systeme
Mehrere spezialisierte Agenten arbeiten zusammen.
Evolutionäre Algorithmen
Systeme, die Lösungsansätze evolutionär entwickeln.
Was ist die Vision der ARC Prize Foundation für die Zukunft?
Die Foundation verfolgt eine klare Mission: Sie will als “Nordstern” für die Entwicklung offener AGI dienen. Dabei geht es nicht nur um technische Benchmarks, sondern um die Schaffung eines Ökosystems, das Innovation fördert und gleichzeitig sicherstellt, dass AGI-Fortschritte der gesamten Menschheit zugutekommen.
Die kontinuierliche Entwicklung neuer Benchmark-Versionen soll sicherstellen, dass die Messlatte immer wieder höher gelegt wird und die Forschung nicht stagniert. Mit ARC-AGI-3 und zukünftigen Versionen will die Foundation die Grenzen dessen, was KI kann und was ihr noch fehlt, weiter ausloten.
Wir sind für Sie da - Beratung - Planung - Umsetzung - Projektmanagement
☑️ KMU Support in der Strategie, Beratung, Planung und Umsetzung
☑️ Erstellung oder Neuausrichtung der KI-Strategie
☑️ Pioneer Business Development
Gerne stehe ich Ihnen als persönlicher Berater zur Verfügung.
Sie können mit mir Kontakt aufnehmen, indem Sie unten das Kontaktformular ausfüllen oder rufen Sie mich einfach unter +49 89 89 674 804 (München) an.
Ich freue mich auf unser gemeinsames Projekt.
Xpert.Digital - Konrad Wolfenstein
Xpert.Digital ist ein Hub für die Industrie mit den Schwerpunkten, Digitalisierung, Maschinenbau, Logistik/Intralogistik und Photovoltaik.
Mit unserer 360° Business Development Lösung unterstützen wir namhafte Unternehmen vom New Business bis After Sales.
Market Intelligence, Smarketing, Marketing Automation, Content Development, PR, Mail Campaigns, Personalized Social Media und Lead Nurturing sind ein Teil unserer digitalen Werkzeuge.
Mehr finden Sie unter: www.xpert.digital - www.xpert.solar - www.xpert.plus