
Konfrontacja sztucznej inteligencji w teście porównawczym modeli AI ARC: GPT-5 kontra Grok kontra o3 – Zdjęcie: Xpert.Digital
Wielkie rozczarowanie: dlaczego coraz większe modele sztucznej inteligencji nie zdają kluczowego testu inteligencji
Na czym polega test porównawczy ARC-AGI i dlaczego został opracowany?
Benchmark ARC-AGI to seria testów mierzących ogólną inteligencję systemów AI, opracowana przez François Cholleta w 2019 roku. ARC to skrót od „Abstraction and Reasoning Corpus for Artificial General Intelligence” (Korpus Abstrakcji i Rozumowania dla Sztucznej Inteligencji Ogólnej). Benchmark został stworzony w celu oceny zdolności systemów AI do rozumienia i rozwiązywania nowych zadań, do których nie zostały one specjalnie przeszkolone.
Opracowanie testu opiera się na definicji inteligencji Cholleta, zawartej w jego przełomowym artykule „O mierze inteligencji”. Autor twierdzi, że prawdziwa inteligencja nie polega na opanowaniu konkretnych zadań, lecz na skuteczności w zdobywaniu nowych umiejętności. Test składa się z wizualnych łamigłówek z kolorowymi siatkami, w których systemy sztucznej inteligencji muszą rozpoznać podstawowe reguły transformacji i zastosować je do nowych przykładów.
Czym ARC-AGI różni się od innych testów porównawczych sztucznej inteligencji?
W przeciwieństwie do konwencjonalnych testów AI, które często opierają się na wiedzy a priori lub zapamiętanych wzorcach, ARC-AGI koncentruje się na tzw. „wiedzy a priori” – umiejętnościach poznawczych, takich jak trwałość obiektów, liczenie i rozumienie przestrzenne. Umiejętności te są zazwyczaj nabywane do czwartego roku życia.
Kluczową różnicą jest to, że ARC-AGI został zaprojektowany specjalnie z myślą o rozwiązaniu poprzez zapamiętywanie lub interpolację danych. Każde zadanie w teście porównawczym jest unikalne i zostało opracowane specjalnie na potrzeby testu, dlatego nie powinno być dostępnych online jego przykładów. To sprawia, że test jest odporny na typowe strategie systemów AI opartych na dużych ilościach danych treningowych.
Jakie są różne wersje testu porównawczego ARC-AGI?
Obecnie istnieją trzy główne wersje testu porównawczego:
ŁUK-AGI-1
W oryginalnej wersji z 2019 r., składającej się ze statycznych łamigłówek wizualnych, ludzie osiągnęli średnio 95%, podczas gdy większość systemów AI od dawna plasowała się poniżej 5%.
ŁUK-AGI-2
Ta ulepszona wersja, wydana w 2025 roku, została zaprojektowana specjalnie, aby rzucić wyzwanie nawet współczesnym systemom rozumowania. Podczas gdy ludzie nadal osiągają niemal 100% wydajności, nawet zaawansowane modele sztucznej inteligencji radzą sobie jedynie z 10-20% zadań.
ŁUK-AGI-3
Najnowsza wersja, wciąż w fazie rozwoju, wprowadza elementy interaktywne. Zamiast statycznych łamigłówek, agenci AI muszą uczyć się poprzez eksplorację oraz metodę prób i błędów w świecie opartym na siatce, podobnie jak ludzie eksplorują nowe środowiska.
Jak różne modele sztucznej inteligencji wypadają w testach ARC-AGI?
Różnice w wydajności pomiędzy różnymi modelami sztucznej inteligencji są znaczące:
W przypadku ARC-AGI-1, Grok 4 osiąga około 68%, podczas gdy GPT-5 osiąga 65,7%. Koszt zadania wynosi około 1 USD dla Grok 4 i 0,51 USD dla GPT-5.
W trudniejszym teście ARC-AGI-2 wydajność spada drastycznie: GPT-5 osiąga zaledwie 9,9% przy koszcie 0,73 USD za zadanie, podczas gdy Grok 4 (Myślenie) wypada lepiej, osiągając wynik ok. 16%, aczkolwiek przy znacznie wyższym koszcie wynoszącym 2–4 USD.
Zgodnie z oczekiwaniami tańsze modele wykazują słabszą wydajność: GPT-5 Mini osiąga 54,3% w AGI-1 i 4,4% w AGI-2, podczas gdy GPT-5 Nano osiąga odpowiednio tylko 16,5% i 2,5%.
Jaki jest sekret modelu zapoznawczego o3?
Model o3-preview firmy OpenAI stanowi przypadek szczególny. W grudniu 2024 roku osiągnął on imponujący wynik od 75,7% do 87,5% w teście ARC-AGI-1, w zależności od użytej mocy obliczeniowej. Po raz pierwszy system sztucznej inteligencji przekroczył ludzki próg wydajności wynoszący 85%.
Istnieje jednak jedno istotne ograniczenie: publicznie dostępna wersja O3 działa znacznie gorzej niż oryginalna wersja zapoznawcza. Według nagrody ARC Prize, wydana wersja O3 osiąga jedynie 41% (niska moc obliczeniowa) i 53% (średnia moc obliczeniowa) w teście ARC-AGI-1, w porównaniu z 76–88% w wersji zapoznawczej.
OpenAI potwierdziło, że opublikowany model ma inną, mniejszą architekturę i jest zoptymalizowany pod kątem aplikacji czatowych i produktowych. Ta rozbieżność rodzi pytania o jego rzeczywiste możliwości i podkreśla wagę krytycznej analizy wyników testów porównawczych nieopublikowanych modeli.
Jak działa konkurs ARC Prize?
Nagroda ARC to coroczny konkurs z łączną pulą nagród przekraczającą milion dolarów amerykańskich, którego celem jest wspieranie rozwoju oprogramowania open source w kierunku sztucznej inteligencji ogólnej (AGI). Obecny konkurs w 2025 roku odbywa się od 26 marca do 3 listopada na platformie Kaggle.
Struktura cenowa obejmuje:
- Nagroda główna (700 000 USD): Odblokowywana, gdy zespół osiągnie 85% dokładności w prywatnym zestawie danych ewaluacyjnych
- Nagroda za najlepszy wynik (75 000 USD): dla drużyn z największą liczbą punktów
- Nagroda za artykuł (50 000 USD): za najbardziej znaczące postępy koncepcyjne
- Nagrody dodatkowe (175 000 USD): Dodatkowe kategorie zostaną ogłoszone wkrótce
Co ważne, wszyscy laureaci muszą opublikować swoje rozwiązania jako oprogramowanie open source. Jest to zgodne z misją Fundacji Nagrody ARC, której celem jest udostępnienie postępów w dziedzinie sztucznej inteligencji (AGI) całej społeczności naukowej.
Jakie są wyzwania techniczne związane z testem porównawczym ARC-AGI?
Zadania w ARC-AGI wymagają szeregu umiejętności poznawczych, które są naturalne dla ludzi, ale niezwykle trudne dla systemów AI:
Interpretacja symboli
Sztuczna inteligencja musi rozumieć abstrakcyjne symbole i wyciągać ich znaczenie z kontekstu.
Wielopoziomowe myślenie kompozycyjne
Problemy muszą zostać podzielone na podkroki i rozwiązane sekwencyjnie.
Stosowanie reguł zależnych od kontekstu
Tę samą zasadę należy stosować w różny sposób w zależności od kontekstu.
Uogólnienie na podstawie kilku przykładów
Zazwyczaj dostępne są tylko 2–3 pary demonstracyjne, z których należy wyprowadzić regułę transformacji.
Jaką rolę odgrywa trening w czasie testu w rozwiązywaniu problemu ARC-AGI?
Uczenie w czasie testu (TTT) okazało się obiecującym podejściem do poprawy wydajności ARC-AGI. Metoda ta dynamicznie dostosowuje parametry modelu do bieżących danych wejściowych podczas wnioskowania, zamiast polegać wyłącznie na wiedzy wstępnie wytrenowanej.
Naukowcy z MIT wykazali, że TTT znacząco poprawia wydajność modeli językowych w ARC-AGI. Metoda ta pozwala modelom adaptować się podczas rozwiązywania zadań i uczyć się na konkretnych przykładach. Naśladuje to ludzkie zachowania związane z rozwiązywaniem problemów, w których poświęcamy więcej czasu na rozwiązywanie trudnych problemów.
Bezpieczeństwo danych UE/DE | Integracja niezależnej i wieloźródłowej platformy AI dla wszystkich potrzeb biznesowych
Niezależne platformy AI jako strategiczna alternatywa dla europejskich firm – Zdjęcie: Xpert.Digital
Ki-Gamechanger: Najbardziej elastyczna platforma AI – rozwiązania dostosowane do krawat, które obniżają koszty, poprawiają ich decyzje i zwiększają wydajność
Niezależna platforma AI: integruje wszystkie odpowiednie źródła danych firmy
- Szybka integracja AI: rozwiązania AI dostosowane do firm w ciągu kilku godzin lub dni zamiast miesięcy
- Elastyczna infrastruktura: oparta na chmurze lub hosting we własnym centrum danych (Niemcy, Europa, bezpłatny wybór lokalizacji)
- Najwyższe bezpieczeństwo danych: Wykorzystanie w kancelariach jest bezpiecznym dowodem
- Korzystaj z szerokiej gamy źródeł danych firmy
- Wybór własnych lub różnych modeli AI (DE, UE, USA, CN)
Więcej na ten temat tutaj:
Sztuczna inteligencja poza skalą: wnioski z testu ARC-AGI
Jakie znaczenie mają wyniki dla rozwoju AGI?
Wyniki ujawniają wyraźną lukę między inteligencją ludzką a sztuczną. Podczas gdy ludzie rozwiązują zadania ARC-AGI intuicyjnie, nawet najnowocześniejsze systemy sztucznej inteligencji nie radzą sobie z podstawowymi zadaniami rozumowania.
François Chollet argumentuje, że obecny paradygmat rozwoju sztucznej inteligencji – trenowanie coraz większych modeli z wykorzystaniem większej ilości danych – osiągnął swoje granice. Słabe wyniki ARC-AGI, pomimo wykładniczego wzrostu rozmiaru modelu, dowodzą, jego zdaniem, że „płynna inteligencja nie powstaje w wyniku skalowania przed treningiem”.
Przyszłość może leżeć w nowych podejściach, takich jak adaptacja w czasie testowania, w której modele mogą zmieniać swoje stany w czasie wykonywania, aby dostosować się do nowych sytuacji.
Jak wygląda przyszłość testu porównawczego ARC-AGI?
Fundacja Nagrody ARC planuje ciągły rozwój tego benchmarku. Pełne wydanie ARC-AGI-3, z elementami interaktywnymi, planowane jest na 2026 rok i będzie obejmować około 100 unikalnych środowisk.
Celem Fundacji jest opracowanie wzorców, które będą stanowić „gwiazdę polarną” dla rozwoju sztucznej inteligencji ogólnej. Ma to na celu nie tylko pomiar postępów, ale także ukierunkowanie badań w kierunkach, które mogą prowadzić do prawdziwej inteligencji ogólnej.
Jakie są ekonomiczne implikacje wyników testów porównawczych?
Koszty rozwiązywania zadań ARC-AGI różnią się znacznie w zależności od modelu i mają bezpośredni wpływ na praktyczną przydatność.
O ile proste zadania można rozwiązać, generując koszty API rzędu centów, o tyle koszty złożonych zadań rozumowania gwałtownie rosną. Na przykład model o3 może kosztować nawet 1000 dolarów za zadanie przy dużej mocy obliczeniowej.
Taka struktura kosztów pokazuje, że nawet jeśli uda się osiągnąć przełom techniczny, opłacalność ekonomiczna nadal będzie kluczowym czynnikiem mającym wpływ na powszechne przyjęcie technologii AGI.
Jakie są filozoficzne implikacje wyników ARC-AGI?
Wyniki stawiają fundamentalne pytania dotyczące natury inteligencji. Test pokazuje, że istnieje fundamentalna różnica między zapamiętywaniem wzorców a prawdziwym zrozumieniem.
Fakt, że ludzie rozwiązują te zadania bez wysiłku, podczas gdy systemy sztucznej inteligencji zawodzą, sugeruje, że ludzka inteligencja funkcjonuje jakościowo inaczej niż obecne podejścia do sztucznej inteligencji. Potwierdza to argument Cholleta, że sztuczna inteligencja ogólna wymaga czegoś więcej niż tylko większych modeli i większej ilości danych.
Jak ARC-AGI wpływa na badania nad sztuczną inteligencją?
Ten benchmark już doprowadził do ponownego przemyślenia badań nad sztuczną inteligencją. Zamiast skupiać się wyłącznie na modelach skalowania, wiodące laboratoria badają obecnie alternatywne podejścia, takie jak obliczenia w czasie testów i systemy adaptacyjne.
Zmiana ta znajduje również odzwierciedlenie w inwestycjach: firmy coraz częściej inwestują w badania nad skuteczniejszym rozumowaniem i rozwiązywaniem problemów zamiast w coraz większe cykle szkoleniowe.
Jaką rolę odgrywa społeczność open source?
Fundacja Nagrody ARC podkreśla znaczenie rozwoju oprogramowania typu open source dla rozwoju sztucznej inteligencji (AGI). Wszyscy zwycięzcy konkursu są zobowiązani do publicznego udostępnienia swoich rozwiązań.
Filozofia ta opiera się na przekonaniu, że sztuczna inteligencja ogólna (AGI) jest zbyt ważna, aby rozwijać ją wyłącznie w zamkniętych laboratoriach. Fundacja postrzega siebie jako katalizator współpracy i transparentności społeczności badawczej.
Jakie są ograniczenia testu porównawczego ARC-AGI?
Pomimo swojego znaczenia, ARC-AGI ma również ograniczenia. Sam Chollet podkreśla, że zdanie testu nie jest równoznaczne z osiągnięciem AGI. Test mierzy tylko jeden aspekt inteligencji – zdolność do rozwiązywania abstrakcyjnych problemów.
Inne ważne aspekty, takie jak kreatywność, inteligencja emocjonalna czy planowanie długoterminowe, nie są mierzone. Co więcej, istnieje ryzyko, że zostaną opracowane systemy specjalnie zoptymalizowane pod kątem ARC-AGI, które przejdą test, nie będąc w pełni inteligentne.
Jak kształtują się koszty modeli AI w kontekście ARC-AGI?
Trendy kosztów wykazują interesujące tendencje. Podczas gdy wydajność rośnie powoli, koszty drobnych usprawnień gwałtownie rosną.
Ta dynamika kosztów prowadzi do ważnego wniosku: wydajność staje się kluczowym czynnikiem różnicującym. Fundacja Nagrody ARC podkreśla, że nie tylko dokładność, ale także koszt rozwiązania zadania jest ważnym kryterium.
Jakie znaczenie dla przyszłości pracy ma ARC-AGI?
Wyniki te mają uspokajające implikacje dla wielu zawodów. Niezdolność systemów sztucznej inteligencji do rozwiązywania podstawowych zadań rozumowania pokazuje, że ludzkie zdolności poznawcze są dalekie od zastąpienia.
Jednocześnie postęp w zakresie zadań specjalistycznych wskazuje na to, że sztuczna inteligencja będzie nadal narzędziem wspomagającym ludzką pracę, a nie zastąpi jej całkowicie.
Jakie nowe podejścia badawcze pojawiają się w ramach ARC-AGI?
Punkt odniesienia zainspirował kilka innowacyjnych kierunków badań:
Synteza programu
Systemy generujące programy rozwiązujące problemy.
Podejścia neurosymboliczne
Połączenie sieci neuronowych z rozumowaniem symbolicznym.
Systemy wieloagentowe
Współpracuje ze sobą kilku wyspecjalizowanych agentów.
Algorytmy ewolucyjne
Systemy rozwijające rozwiązania w sposób ewolucyjny.
Jaką wizję na przyszłość ma Fundacja Nagrody ARC?
Fundacja ma jasną misję: być „Gwiazdą Północną” w rozwoju otwartej sztucznej inteligencji ogólnej. Nie chodzi tu tylko o wyznaczanie standardów technicznych, ale o stworzenie ekosystemu, który będzie sprzyjał innowacjom, a jednocześnie zapewni, że postęp sztucznej inteligencji ogólnej przyniesie korzyści całej ludzkości.
Ciągły rozwój nowych wersji testów porównawczych ma na celu ciągłe podnoszenie poprzeczki i utrzymanie badań w ryzach. Dzięki ARC-AGI-3 i przyszłym wersjom Fundacja zamierza dalej badać granice możliwości sztucznej inteligencji i to, czego jej wciąż brakuje.
Jesteśmy tam dla Ciebie – Porady – Planowanie – wdrażanie – Zarządzanie projektami
☑️ Wsparcie MŚP w zakresie strategii, doradztwa, planowania i wdrażania
☑️ Tworzenie lub wyrównanie strategii AI
☑️ Pionierski rozwój biznesu
Chętnie będę Twoim osobistym doradcą.
Możesz się ze mną skontaktować wypełniając poniższy formularz kontaktowy lub po prostu dzwoniąc pod numer +49 89 89 674 804 (Monachium) .
Nie mogę się doczekać naszego wspólnego projektu.
Xpert.digital – Konrad Wolfenstein
Xpert.Digital to centrum przemysłu skupiające się na cyfryzacji, inżynierii mechanicznej, logistyce/intralogistyce i fotowoltaice.
Dzięki naszemu rozwiązaniu do rozwoju biznesu 360° wspieramy znane firmy od rozpoczęcia nowej działalności po sprzedaż posprzedażną.
Wywiad rynkowy, smarketing, automatyzacja marketingu, tworzenie treści, PR, kampanie pocztowe, spersonalizowane media społecznościowe i pielęgnacja leadów to część naszych narzędzi cyfrowych.
Można znaleźć więcej na: www.xpert.digital – www.xpert.solar – www.xpert.plus