
Konfrontacja sztucznej inteligencji w teście porównawczym modeli AI ARC: GPT-5 kontra Grok kontra o3 – Zdjęcie: Xpert.Digital
Wielkie rozczarowanie: dlaczego coraz większe modele sztucznej inteligencji nie zdają kluczowego testu inteligencji
Na czym polega test porównawczy ARC-AGI i dlaczego został opracowany?
Benchmark ARC-AGI to seria testów mierzących ogólną inteligencję systemów AI, opracowana w 2019 roku przez François Cholleta. ARC to skrót od „Abstraction and Reasoning Corpus for Artificial General Intelligence” (Korpus Abstrakcji i Rozumowania dla Sztucznej Inteligencji Ogólnej). Benchmark został stworzony w celu oceny zdolności systemów AI do rozumienia i rozwiązywania nowych zadań, do których nie zostały one bezpośrednio przeszkolone.
Opracowanie testu bazuje na definicji inteligencji Cholleta, którą zamieścił w swoim przełomowym artykule „O mierze inteligencji”. Autor twierdzi, że prawdziwa inteligencja nie polega na opanowaniu konkretnych zadań, lecz na efektywności zdobywania nowych umiejętności. Test składa się z wizualnych łamigłówek z kolorowymi siatkami, w których systemy sztucznej inteligencji muszą zidentyfikować podstawowe reguły transformacji i zastosować je do nowych przykładów.
Czym ARC-AGI różni się od innych testów porównawczych sztucznej inteligencji?
W przeciwieństwie do konwencjonalnych testów AI, które często opierają się na wiedzy a priori lub zapamiętanych wzorcach, ARC-AGI koncentruje się na tzw. „kluczowych priorytetach wiedzy” – fundamentalnych umiejętnościach poznawczych, takich jak trwałość obiektów, liczenie i rozumowanie przestrzenne. Umiejętności te są zazwyczaj nabywane przez ludzi w wieku około czterech lat.
Kluczowa różnica polega na tym, że ARC-AGI został zaprojektowany tak, aby nie dało się go rozwiązać poprzez samo zapamiętywanie lub interpolację danych. Każde zadanie w teście porównawczym jest unikalne i zostało opracowane specjalnie na potrzeby testu, dlatego nie powinno być dostępnych online jego przykładów. To sprawia, że test jest odporny na typowe strategie systemów AI, które opierają się na dużych zbiorach danych treningowych.
Jakie są różne wersje testu porównawczego ARC-AGI?
Obecnie istnieją trzy główne wersje testu porównawczego:
ŁUK-AGI-1
Oryginalna wersja z 2019 roku składa się ze statycznych łamigłówek wizualnych. Ludzie osiągają w tej grze średni wynik 95%, podczas gdy większość systemów sztucznej inteligencji od dawna osiąga wynik poniżej 5%.
ŁUK-AGI-2
Ta ulepszona wersja została wydana w 2025 roku i została zaprojektowana specjalnie, aby stanowić wyzwanie nawet dla współczesnych systemów rozumowania. Podczas gdy ludzie nadal osiągają niemal 100% sukcesu, nawet zaawansowane modele sztucznej inteligencji radzą sobie jedynie z 10-20% zadań.
ŁUK-AGI-3
Najnowsza wersja, wciąż w fazie rozwoju, wprowadza elementy interaktywne. Zamiast statycznych łamigłówek, agenci AI muszą uczyć się poprzez eksplorację oraz metodę prób i błędów w świecie siatki, podobnie jak ludzie eksplorują nowe środowiska.
Jak różne modele sztucznej inteligencji wypadają w testach ARC-AGI?
Różnice w wydajności pomiędzy różnymi modelami sztucznej inteligencji są znaczące:
W przypadku ARC-AGI-1, Grok 4 osiąga około 68%, a GPT-5 65,7%. Koszt zadania wynosi około 1 USD dla Grok 4 i 0,51 USD dla GPT-5.
W trudniejszym teście ARC-AGI-2 wydajność spada drastycznie: GPT-5 osiąga zaledwie 9,9% przy koszcie 0,73 USD za zadanie, podczas gdy Grok 4 (Myślenie) osiąga lepszą wydajność na poziomie ok. 16%, ale przy znacznie wyższym koszcie wynoszącym 2–4 USD.
Zgodnie z oczekiwaniami tańsze modele wykazują słabszą wydajność: GPT-5 Mini osiąga 54,3% w AGI-1 i 4,4% w AGI-2, podczas gdy GPT-5 Nano osiąga odpowiednio tylko 16,5% i 2,5%.
Jaki jest sekret modelu zapoznawczego o3?
Model przedpremierowy o3 firmy OpenAI stanowi przypadek szczególny. W grudniu 2024 roku osiągnął on imponujące wyniki wydajności od 75,7% do 87,5% w teście ARC-AGI-1, w zależności od użytej mocy obliczeniowej. Po raz pierwszy system sztucznej inteligencji przekroczył ludzki limit wydajności wynoszący 85%.
Istnieje jednak jedno istotne ograniczenie: publicznie dostępna wersja O3 działa znacznie gorzej niż oryginalna wersja zapoznawcza. Według ARC Prize, wydana wersja O3 osiąga jedynie 41% (niska moc obliczeniowa) i 53% (średnia moc obliczeniowa) w teście ARC-AGI-1, w porównaniu z 76-88% w wersji zapoznawczej.
OpenAI potwierdziło, że opublikowany model ma inną, mniejszą architekturę i jest zoptymalizowany pod kątem aplikacji czatowych i produktowych. Ta rozbieżność rodzi pytania o jego rzeczywiste możliwości i podkreśla wagę krytycznej oceny wyników testów porównawczych nieopublikowanych modeli.
Jak działa konkurs ARC Prize?
Nagroda ARC to coroczny konkurs z łączną pulą nagród przekraczającą milion dolarów amerykańskich, którego celem jest promowanie rozwoju oprogramowania open source w kierunku AGI (Aktywnej Architektury Generycznej). Obecny konkurs w 2025 roku odbywa się od 26 marca do 3 listopada na platformie Kaggle.
Struktura cenowa obejmuje:
- Nagroda główna (700 000 USD): zostaje odblokowana, gdy zespół osiągnie 85% dokładności w prywatnym zestawie danych ewaluacyjnych
- Nagroda za najlepszy wynik (75 000 USD): dla drużyn z najwyższą liczbą punktów
- Nagroda za artykuł (50 000 USD): za najbardziej znaczące postępy koncepcyjne
- Inne nagrody (175 000 USD): Dodatkowe kategorie zostaną ogłoszone wkrótce
Ważne jest, aby wszyscy laureaci publikowali swoje rozwiązania jako open source. Jest to zgodne z misją Fundacji Nagrody ARC, której celem jest zapewnienie dostępu do osiągnięć sztucznej inteligencji (AGI) całej społeczności naukowej.
Jakie są wyzwania techniczne związane z testem porównawczym ARC-AGI?
Zadania w ARC-AGI wymagają kilku zdolności poznawczych, które są oczywiste dla ludzi, ale niezwykle trudne dla systemów AI:
Interpretacja symboli
Sztuczna inteligencja musi rozumieć abstrakcyjne symbole i wyciągać ich znaczenie z kontekstu.
Wieloetapowe myślenie kompozycyjne
Problemy muszą zostać podzielone na podkroki i rozwiązane sekwencyjnie.
Stosowanie reguł zależnych od kontekstu
Tę samą zasadę należy stosować w różny sposób w zależności od kontekstu.
Uogólnienie na podstawie kilku przykładów
Zazwyczaj dostępne są tylko 2–3 pary demonstracyjne, z których należy wyprowadzić regułę transformacji.
Jaką rolę odgrywa trening w czasie testu w rozwiązywaniu problemu ARC-AGI?
Trening w czasie testu (TTT) okazał się obiecującym podejściem do poprawy wydajności ARC-AGI. Metoda ta dynamicznie dostosowuje parametry modelu do bieżących danych wejściowych podczas wnioskowania, zamiast polegać wyłącznie na wiedzy wstępnie wytrenowanej.
Naukowcy z MIT wykazali, że TTT znacząco poprawia wydajność modeli językowych w ARC-AGI. Metoda ta pozwala modelom adaptować się podczas rozwiązywania zadań i uczyć się na konkretnych przykładach. Naśladuje to ludzkie zachowanie w rozwiązywaniu problemów, gdzie poświęcamy więcej czasu na rozwiązywanie trudnych problemów.
Bezpieczeństwo danych UE/DE | Integracja niezależnej platformy AI obsługującej wiele źródeł danych, zaspokajającej wszystkie potrzeby biznesowe
Niezależne platformy AI jako strategiczna alternatywa dla europejskich firm – Zdjęcie: Xpert.Digital
Przełomowa technologia AI: najbardziej elastyczna platforma AI — rozwiązania szyte na miarę, które obniżają koszty, usprawniają podejmowanie decyzji i zwiększają wydajność
Niezależna platforma AI: integruje wszystkie istotne źródła danych firmy
- Szybka integracja sztucznej inteligencji: rozwiązania AI szyte na miarę dla firm w ciągu kilku godzin lub dni, a nie miesięcy
- Elastyczna infrastruktura: oparta na chmurze lub hosting we własnym centrum danych (Niemcy, Europa, swobodny wybór lokalizacji)
- Maksymalne bezpieczeństwo danych: jego stosowanie w kancelariach prawnych jest tego niezbitym dowodem
- Wdrażanie w szerokiej gamie źródeł danych przedsiębiorstwa
- Wybór własnych lub różnych modeli AI (DE, EU, USA, CN)
Więcej informacji tutaj:
Sztuczna inteligencja wykraczająca poza skalowanie: wnioski z testu ARC-AGI
Jakie znaczenie mają wyniki dla rozwoju AGI?
Wyniki ujawniają istotną lukę między inteligencją ludzką a sztuczną. Podczas gdy ludzie rozwiązują zadania ARC-AGI intuicyjnie, nawet najbardziej zaawansowane systemy sztucznej inteligencji nie radzą sobie z podstawowymi zadaniami poznawczymi.
François Chollet argumentuje, że obecny paradygmat rozwoju sztucznej inteligencji – trenowanie coraz większych modeli z wykorzystaniem coraz większej ilości danych – osiągnął swoje granice. Słabe wyniki ARC-AGI, pomimo wykładniczego wzrostu rozmiaru modelu, dowodzą, jego zdaniem, że „płynna inteligencja nie powstaje w wyniku skalowania przed treningiem”.
Przyszłość może leżeć w nowych podejściach, takich jak adaptacja w czasie testu, w której modele mogą zmieniać swoje stany w czasie wykonywania, aby dostosować się do nowych sytuacji.
Jak wygląda przyszłość testu porównawczego ARC-AGI?
Fundacja Nagrody ARC planuje ciągły rozwój tego benchmarku. Pełne wydanie ARC-AGI-3, z jego interaktywnymi elementami, planowane jest na 2026 rok i będzie obejmować około 100 unikalnych środowisk.
Celem Fundacji jest opracowanie wzorców, które będą służyć jako „gwiazda polarna” dla rozwoju sztucznej inteligencji ogólnej. Obejmuje to nie tylko mierzenie postępów, ale także ukierunkowywanie badań w kierunkach, które mogą prowadzić do prawdziwej inteligencji ogólnej.
Jakie są ekonomiczne implikacje wyników testów porównawczych?
Koszty rozwiązywania problemów ARC-AGI różnią się znacznie w zależności od modelu i mają bezpośredni wpływ na praktyczną przydatność.
O ile proste zadania można rozwiązać, generując koszty API rzędu centów, o tyle koszty złożonych zadań wymagających rozumowania gwałtownie rosną. Na przykład model o3 może kosztować nawet 1000 dolarów za zadanie przy dużej mocy obliczeniowej.
Taka struktura kosztów pokazuje, że nawet jeśli uda się osiągnąć przełom techniczny, to opłacalność ekonomiczna nadal będzie kluczowym czynnikiem wpływającym na powszechne zastosowanie technologii AGI.
Jakie są filozoficzne implikacje wyników ARC-AGI?
Wyniki stawiają fundamentalne pytania dotyczące natury inteligencji. Test pokazuje, że istnieje fundamentalna różnica między zapamiętywaniem wzorców a prawdziwym zrozumieniem.
Fakt, że ludzie rozwiązują te zadania bez wysiłku, podczas gdy systemy sztucznej inteligencji zawodzą, sugeruje, że ludzka inteligencja funkcjonuje jakościowo inaczej niż obecne podejścia do sztucznej inteligencji. Potwierdza to argument Cholleta, że sztuczna inteligencja ogólna wymaga czegoś więcej niż tylko większych modeli i większej ilości danych.
W jaki sposób ARC-AGI wpływa na kierunek badań nad sztuczną inteligencją?
Ten benchmark już doprowadził do ponownego przemyślenia badań nad sztuczną inteligencją. Zamiast skupiać się wyłącznie na modelach skalowania, wiodące laboratoria badają obecnie alternatywne podejścia, takie jak obliczenia w czasie testów i systemy adaptacyjne.
Zmiana ta znajduje również odzwierciedlenie w inwestycjach: firmy coraz częściej inwestują w badania nad skuteczniejszym rozumowaniem i rozwiązywaniem problemów zamiast w coraz większe cykle szkoleniowe.
Jaką rolę odgrywa społeczność open-source?
Fundacja Nagrody ARC podkreśla znaczenie rozwoju oprogramowania typu open source dla rozwoju sztucznej inteligencji (AGI). Wszyscy zwycięzcy konkursu muszą udostępnić swoje rozwiązania publicznie.
Filozofia ta opiera się na przekonaniu, że sztuczna inteligencja ogólna (AGI) jest zbyt ważna, aby rozwijać ją wyłącznie w zamkniętych laboratoriach. Fundacja postrzega siebie jako katalizator współpracy i transparentności społeczności badawczej.
Jakie są ograniczenia testu porównawczego ARC-AGI?
Pomimo swojego znaczenia, ARC-AGI ma również ograniczenia. Sam Chollet podkreśla, że zdanie testu nie jest równoznaczne z osiągnięciem AGI. Test mierzy tylko jeden aspekt inteligencji – zdolność do rozwiązywania abstrakcyjnych problemów.
Inne ważne aspekty, takie jak kreatywność, inteligencja emocjonalna czy planowanie długoterminowe, nie są oceniane. Co więcej, istnieje ryzyko, że zostaną opracowane systemy specjalnie zoptymalizowane pod kątem ARC-AGI, które przejdą test, nie będąc w rzeczywistości inteligentnymi.
Jak kształtują się koszty modeli AI w kontekście ARC-AGI?
Rozwój kosztów ujawnia interesujące trendy. Podczas gdy wydajność rośnie powoli, koszty drobnych usprawnień gwałtownie rosną.
Ta dynamika kosztów prowadzi do ważnego wniosku: wydajność staje się decydującym czynnikiem różnicującym. Fundacja Nagrody ARC podkreśla, że nie tylko dokładność, ale także koszt rozwiązania problemu jest kluczowym kryterium.
Jakie znaczenie dla przyszłości pracy ma ARC-AGI?
Wyniki te mają uspokajające implikacje dla wielu zawodów. Niezdolność systemów sztucznej inteligencji do rozwiązywania podstawowych zadań wymagających myślenia pokazuje, że ludzkie zdolności poznawcze są dalekie od zastąpienia.
Jednocześnie postęp w zakresie zadań specjalistycznych wskazuje na to, że sztuczna inteligencja będzie nadal narzędziem wspomagającym ludzką pracę, a nie całkowicie ją zastąpi.
Jakie nowe podejścia badawcze wynikają z ARC-AGI?
Punkt odniesienia zainspirował kilka innowacyjnych kierunków badań:
Synteza programu
Systemy generujące programy rozwiązujące problemy.
Podejścia neurosymboliczne
Połączenie sieci neuronowych z rozumowaniem symbolicznym.
Systemy wieloagentowe
Współpracuje ze sobą kilku wyspecjalizowanych agentów.
Algorytmy ewolucyjne
Systemy, które rozwijają rozwiązania poprzez ewolucję.
Jaka jest wizja Fundacji Nagrody ARC na przyszłość?
Fundacja realizuje jasną misję: być „Gwiazdą Północną” w rozwoju otwartej sztucznej inteligencji (AGI). Obejmuje to nie tylko wzorce techniczne, ale także tworzenie ekosystemu, który wspiera innowacje, zapewniając jednocześnie, że postęp w AGI przyniesie korzyści całej ludzkości.
Ciągły rozwój nowych wersji testów porównawczych ma na celu zapewnienie stałego podnoszenia poprzeczki i utrzymania badań w stanie stagnacji. Dzięki ARC-AGI-3 i przyszłym wersjom Fundacja zamierza dalej badać granice możliwości sztucznej inteligencji i to, czego jej wciąż brakuje.
Jesteśmy tu dla Ciebie - Doradztwo - Planowanie - Wdrażanie - Zarządzanie Projektami
☑️ Wsparcie dla MŚP w zakresie strategii, doradztwa, planowania i wdrażania
☑️ Tworzenie lub reorganizacja strategii AI
☑️ Rozwój pionierskiego biznesu
Chętnie będę pełnić rolę Twojego osobistego doradcy.
Możesz się ze mną skontaktować wypełniając formularz kontaktowy poniżej lub po prostu dzwoniąc pod numer +49 7348 4088 965 .
Nie mogę się doczekać naszego wspólnego projektu.
Xpert.Digital - Konrad Wolfenstein
Xpert.Digital to centrum przemysłowe skupiające się na cyfryzacji, inżynierii mechanicznej, logistyce/intralogistyce i fotowoltaice.
Dzięki naszemu rozwiązaniu 360° Business Development wspieramy renomowane firmy od pozyskiwania nowych klientów po obsługę posprzedażową.
Nasze narzędzia cyfrowe obejmują analizę rynku, smarketing, automatyzację marketingu, tworzenie treści, PR, kampanie mailingowe, spersonalizowane media społecznościowe i pielęgnowanie potencjalnych klientów.
Więcej informacji znajdziesz na stronach: www.xpert.digital - www.xpert.solar - www.xpert.plus

