Konfrontacja sztucznej inteligencji w teście porównawczym modeli AI ARC: GPT-5 kontra Grok kontra o3

Konrad Wolfenstein

12 miesięcy temu

Konfrontacja sztucznej inteligencji w teście porównawczym modeli AI ARC: GPT-5 kontra Grok kontra o3 – Zdjęcie: Xpert.Digital

Wielkie rozczarowanie: dlaczego coraz większe modele sztucznej inteligencji nie zdają kluczowego testu inteligencji

Na czym polega test porównawczy ARC-AGI i dlaczego został opracowany?

Benchmark ARC-AGI to seria testów mierzących ogólną inteligencję systemów AI, opracowana w 2019 roku przez François Cholleta. ARC to skrót od „Abstraction and Reasoning Corpus for Artificial General Intelligence” (Korpus Abstrakcji i Rozumowania dla Sztucznej Inteligencji Ogólnej). Benchmark został stworzony w celu oceny zdolności systemów AI do rozumienia i rozwiązywania nowych zadań, do których nie zostały one bezpośrednio przeszkolone.

Opracowanie benchmarku opiera się na definicji inteligencji Cholleta, zawartej w jego przełomowym artykule „O mierze inteligencji”. Autor twierdzi, że prawdziwa inteligencja nie polega na opanowaniu konkretnych zadań, lecz na efektywności zdobywania nowych umiejętności. Test składa się z wizualnych łamigłówek z kolorowymi siatkami, w których systemy sztucznej inteligencji muszą zidentyfikować podstawowe reguły transformacji i zastosować je do nowych przykładów.

Czym ARC-AGI różni się od innych testów porównawczych sztucznej inteligencji?

W przeciwieństwie do konwencjonalnych testów AI, które często opierają się na wiedzy a priori lub zapamiętanych wzorcach, ARC-AGI koncentruje się na tzw. „kluczowych priorytetach wiedzy” – fundamentalnych umiejętnościach poznawczych, takich jak trwałość obiektów, liczenie i rozumowanie przestrzenne. Umiejętności te są zazwyczaj nabywane przez ludzi w wieku około czterech lat.

Kluczowa różnica polega na tym, że ARC-AGI został zaprojektowany tak, aby nie dało się go rozwiązać poprzez samo zapamiętywanie lub interpolację danych. Każde zadanie w teście porównawczym jest unikalne i zostało opracowane specjalnie na potrzeby testu, dlatego nie powinno być dostępnych online jego przykładów. To sprawia, że test jest odporny na typowe strategie systemów AI, które opierają się na dużych zbiorach danych treningowych.

Jakie są różne wersje testu porównawczego ARC-AGI?

Obecnie istnieją trzy główne wersje testu porównawczego:

ŁUK-AGI-1

Oryginalna wersja z 2019 roku składa się ze statycznych łamigłówek wizualnych. Ludzie osiągają w tej grze średni wynik 95%, podczas gdy większość systemów sztucznej inteligencji od dawna osiąga wynik poniżej 5%.

ŁUK-AGI-2

Ta ulepszona wersja została wydana w 2025 roku i została zaprojektowana specjalnie, aby stanowić wyzwanie nawet dla współczesnych systemów rozumowania. Podczas gdy ludzie nadal osiągają niemal 100% sukcesu, nawet zaawansowane modele sztucznej inteligencji radzą sobie jedynie z 10-20% zadań.

ŁUK-AGI-3

Najnowsza wersja, wciąż w fazie rozwoju, wprowadza elementy interaktywne. Zamiast statycznych łamigłówek, agenci AI muszą uczyć się poprzez eksplorację oraz metodę prób i błędów w świecie siatki, podobnie jak ludzie eksplorują nowe środowiska.

Jak różne modele sztucznej inteligencji wypadają w testach ARC-AGI?

Różnice w wydajności pomiędzy różnymi modelami sztucznej inteligencji są znaczące:

W przypadku ARC-AGI-1, Grok 4 osiąga około 68%, a GPT-5 65,7%. Koszt zadania wynosi około 1 USD dla Grok 4 i 0,51 USD dla GPT-5.

W trudniejszym teście ARC-AGI-2 wydajność spada drastycznie: GPT-5 osiąga zaledwie 9,9% przy koszcie 0,73 USD za zadanie, podczas gdy Grok 4 (Myślenie) osiąga lepszą wydajność na poziomie ok. 16%, ale przy znacznie wyższym koszcie wynoszącym 2–4 USD.

Zgodnie z oczekiwaniami tańsze modele wykazują słabszą wydajność: GPT-5 Mini osiąga 54,3% w AGI-1 i 4,4% w AGI-2, podczas gdy GPT-5 Nano osiąga odpowiednio tylko 16,5% i 2,5%.

Jaki jest sekret modelu zapoznawczego o3?

Model przedpremierowy o3 firmy OpenAI stanowi przypadek szczególny. W grudniu 2024 roku osiągnął on imponujące wyniki wydajności od 75,7% do 87,5% w teście ARC-AGI-1, w zależności od użytej mocy obliczeniowej. Po raz pierwszy system sztucznej inteligencji przekroczył ludzki limit wydajności wynoszący 85%.

Istnieje jednak jedno istotne ograniczenie: publicznie dostępna wersja O3 działa znacznie gorzej niż oryginalna wersja zapoznawcza. Według ARC Prize, wydana wersja O3 osiąga jedynie 41% (niska moc obliczeniowa) i 53% (średnia moc obliczeniowa) w teście ARC-AGI-1, w porównaniu z 76-88% w wersji zapoznawczej.

OpenAI potwierdziło, że opublikowany model ma inną, mniejszą architekturę i jest zoptymalizowany pod kątem aplikacji czatowych i produktowych. Ta rozbieżność rodzi pytania o jego rzeczywiste możliwości i podkreśla wagę krytycznej oceny wyników testów porównawczych nieopublikowanych modeli.

Jak działa konkurs ARC Prize?

Nagroda ARC to coroczny konkurs z łączną pulą nagród przekraczającą milion dolarów amerykańskich, którego celem jest promowanie rozwoju oprogramowania open source w kierunku AGI (Aktywnej Architektury Generycznej). Obecny konkurs w 2025 roku odbywa się od 26 marca do 3 listopada na platformie Kaggle.

Struktura cenowa obejmuje:

Nagroda główna (700 000 USD): zostaje odblokowana, gdy zespół osiągnie 85% dokładności w prywatnym zestawie danych ewaluacyjnych
Nagroda za najlepszy wynik (75 000 USD): dla drużyn z najwyższą liczbą punktów
Nagroda za artykuł (50 000 USD): za najbardziej znaczące postępy koncepcyjne
Inne nagrody (175 000 USD): Dodatkowe kategorie zostaną ogłoszone wkrótce

Ważne jest, aby wszyscy laureaci publikowali swoje rozwiązania jako open source. Jest to zgodne z misją Fundacji Nagrody ARC, której celem jest zapewnienie dostępu do osiągnięć sztucznej inteligencji (AGI) całej społeczności naukowej.

Jakie są wyzwania techniczne związane z testem porównawczym ARC-AGI?

Zadania w ARC-AGI wymagają kilku zdolności poznawczych, które są oczywiste dla ludzi, ale niezwykle trudne dla systemów AI:

Interpretacja symboli

Sztuczna inteligencja musi rozumieć abstrakcyjne symbole i wyciągać ich znaczenie z kontekstu.

Wieloetapowe myślenie kompozycyjne

Problemy muszą zostać podzielone na podkroki i rozwiązane sekwencyjnie.

Stosowanie reguł zależnych od kontekstu

Tę samą zasadę należy stosować w różny sposób w zależności od kontekstu.

Uogólnienie na podstawie kilku przykładów

Zazwyczaj dostępne są tylko 2–3 pary demonstracyjne, z których należy wyprowadzić regułę transformacji.

Jaką rolę odgrywa trening w czasie testu w rozwiązywaniu problemu ARC-AGI?

Trening w czasie testu (TTT) okazał się obiecującym podejściem do poprawy wydajności ARC-AGI. Metoda ta dynamicznie dostosowuje parametry modelu do bieżących danych wejściowych podczas wnioskowania, zamiast polegać wyłącznie na wiedzy wstępnie wytrenowanej.

Naukowcy z MIT wykazali, że TTT znacząco poprawia wydajność modeli językowych w ARC-AGI. Metoda ta pozwala modelom adaptować się podczas rozwiązywania zadań i uczyć się na konkretnych przykładach. Naśladuje to ludzkie zachowanie w rozwiązywaniu problemów, gdzie poświęcamy więcej czasu na rozwiązywanie trudnych problemów.

Bezpieczeństwo danych UE/DE | Integracja niezależnej platformy AI obsługującej wiele źródeł danych, zaspokajającej wszystkie potrzeby biznesowe

Niezależne platformy AI jako strategiczna alternatywa dla europejskich firm – Zdjęcie: Xpert.Digital

Przełomowa technologia AI: najbardziej elastyczna platforma AI — rozwiązania szyte na miarę, które obniżają koszty, usprawniają podejmowanie decyzji i zwiększają wydajność

Niezależna platforma AI: integruje wszystkie istotne źródła danych firmy

Szybka integracja sztucznej inteligencji: rozwiązania AI szyte na miarę dla firm w ciągu kilku godzin lub dni, a nie miesięcy
Elastyczna infrastruktura: oparta na chmurze lub hosting we własnym centrum danych (Niemcy, Europa, swobodny wybór lokalizacji)

Maksymalne bezpieczeństwo danych: jego stosowanie w kancelariach prawnych jest tego niezbitym dowodem
Wdrażanie w szerokiej gamie źródeł danych przedsiębiorstwa
Wybór własnych lub różnych modeli AI (DE, EU, USA, CN)

Więcej informacji tutaj:

Niezależne platformy AI kontra hiperskalery: które rozwiązanie jest lepsze?

Sztuczna inteligencja wykraczająca poza skalowanie: wnioski z testu ARC-AGI

Jakie znaczenie mają wyniki dla rozwoju AGI?

Wyniki ujawniają istotną lukę między inteligencją ludzką a sztuczną. Podczas gdy ludzie rozwiązują zadania ARC-AGI intuicyjnie, nawet najbardziej zaawansowane systemy sztucznej inteligencji nie radzą sobie z podstawowymi zadaniami poznawczymi.

François Chollet argumentuje, że obecny paradygmat rozwoju sztucznej inteligencji – trenowanie coraz większych modeli z wykorzystaniem większej ilości danych – osiągnął swoje granice. Słabe wyniki ARC-AGI, pomimo wykładniczego wzrostu rozmiaru modelu, dowodzą, jego zdaniem, że „płynna inteligencja nie powstaje w wyniku skalowania przed treningiem”.

Przyszłość może leżeć w nowych podejściach, takich jak adaptacja w czasie testu, w której modele mogą zmieniać swoje stany w czasie wykonywania, aby dostosować się do nowych sytuacji.

Jak wygląda przyszłość testu porównawczego ARC-AGI?

Fundacja Nagrody ARC planuje ciągły rozwój tego benchmarku. Pełne wydanie ARC-AGI-3, z jego interaktywnymi elementami, planowane jest na 2026 rok i będzie obejmować około 100 unikalnych środowisk.

Celem Fundacji jest opracowanie punktów odniesienia, które będą służyć jako „gwiazda polarna” dla rozwoju sztucznej inteligencji ogólnej. Obejmuje to nie tylko mierzenie postępów, ale także ukierunkowywanie badań w kierunkach, które mogą prowadzić do prawdziwej inteligencji ogólnej.

Jakie są ekonomiczne implikacje wyników testów porównawczych?

Koszty rozwiązywania problemów ARC-AGI różnią się znacznie w zależności od modelu i mają bezpośredni wpływ na praktyczną przydatność.

O ile proste zadania można rozwiązać, generując koszty API rzędu centów, o tyle koszty złożonych zadań wymagających rozumowania gwałtownie rosną. Na przykład model o3 może kosztować nawet 1000 dolarów za zadanie przy dużej mocy obliczeniowej.

Taka struktura kosztów pokazuje, że nawet jeśli uda się osiągnąć przełom techniczny, to opłacalność ekonomiczna nadal będzie kluczowym czynnikiem wpływającym na powszechne zastosowanie technologii AGI.

Jakie są filozoficzne implikacje wyników ARC-AGI?

Wyniki stawiają fundamentalne pytania dotyczące natury inteligencji. Test pokazuje, że istnieje fundamentalna różnica między zapamiętywaniem wzorców a prawdziwym zrozumieniem.

Fakt, że ludzie rozwiązują te zadania bez wysiłku, podczas gdy systemy sztucznej inteligencji zawodzą, sugeruje, że ludzka inteligencja funkcjonuje jakościowo inaczej niż obecne podejścia do sztucznej inteligencji. Potwierdza to argument Cholleta, że sztuczna inteligencja ogólna wymaga czegoś więcej niż tylko większych modeli i większej ilości danych.

W jaki sposób ARC-AGI wpływa na kierunek badań nad sztuczną inteligencją?

Ten benchmark już doprowadził do ponownego przemyślenia badań nad sztuczną inteligencją. Zamiast skupiać się wyłącznie na modelach skalowania, wiodące laboratoria badają obecnie alternatywne podejścia, takie jak obliczenia w czasie testów i systemy adaptacyjne.

Zmiana ta znajduje również odzwierciedlenie w inwestycjach: firmy coraz częściej inwestują w badania nad skuteczniejszym rozumowaniem i rozwiązywaniem problemów zamiast w coraz większe cykle szkoleniowe.

Jaką rolę odgrywa społeczność open-source?

Fundacja Nagrody ARC podkreśla znaczenie rozwoju oprogramowania typu open source dla rozwoju sztucznej inteligencji (AGI). Wszyscy zwycięzcy konkursu muszą udostępnić swoje rozwiązania publicznie.

Filozofia ta opiera się na przekonaniu, że sztuczna inteligencja ogólna (AGI) jest zbyt ważna, aby rozwijać ją wyłącznie w zamkniętych laboratoriach. Fundacja postrzega siebie jako katalizator współpracy i transparentności społeczności badawczej.

Jakie są ograniczenia testu porównawczego ARC-AGI?

Pomimo swojego znaczenia, ARC-AGI ma również ograniczenia. Sam Chollet podkreśla, że zdanie testu nie jest równoznaczne z osiągnięciem AGI. Test mierzy tylko jeden aspekt inteligencji – zdolność do rozwiązywania abstrakcyjnych problemów.

Inne ważne aspekty, takie jak kreatywność, inteligencja emocjonalna czy planowanie długoterminowe, nie są oceniane. Co więcej, istnieje ryzyko, że zostaną opracowane systemy specjalnie zoptymalizowane pod kątem ARC-AGI, które przejdą test, nie będąc w rzeczywistości inteligentnymi.

Jak kształtują się koszty modeli AI w kontekście ARC-AGI?

Rozwój kosztów ujawnia interesujące trendy. Podczas gdy wydajność rośnie powoli, koszty drobnych usprawnień gwałtownie rosną.

Ta dynamika kosztów prowadzi do ważnego wniosku: wydajność staje się decydującym czynnikiem różnicującym. Fundacja Nagrody ARC podkreśla, że nie tylko dokładność, ale także koszt rozwiązania problemu jest kluczowym kryterium.

Jakie znaczenie dla przyszłości pracy ma ARC-AGI?

Wyniki te mają uspokajające implikacje dla wielu zawodów. Niezdolność systemów sztucznej inteligencji do rozwiązywania podstawowych zadań wymagających myślenia pokazuje, że ludzkie zdolności poznawcze są dalekie od zastąpienia.

Jednocześnie postęp w zakresie zadań specjalistycznych wskazuje na to, że sztuczna inteligencja będzie nadal narzędziem wspomagającym ludzką pracę, a nie całkowicie ją zastąpi.

Jakie nowe podejścia badawcze wynikają z ARC-AGI?

Punkt odniesienia zainspirował kilka innowacyjnych kierunków badań:

Synteza programu

Systemy generujące programy rozwiązujące problemy.

Podejścia neurosymboliczne

Połączenie sieci neuronowych z rozumowaniem symbolicznym.

Systemy wieloagentowe

Współpracuje ze sobą kilku wyspecjalizowanych agentów.

Algorytmy ewolucyjne

Systemy, które rozwijają rozwiązania poprzez ewolucję.

Jaka jest wizja Fundacji Nagrody ARC na przyszłość?

Fundacja realizuje jasną misję: być „Gwiazdą Północną” w rozwoju otwartej sztucznej inteligencji (AGI). Obejmuje to nie tylko wzorce techniczne, ale także tworzenie ekosystemu, który wspiera innowacje, zapewniając jednocześnie, że postęp w AGI przyniesie korzyści całej ludzkości.

Ciągły rozwój nowych wersji testów porównawczych ma na celu zapewnienie stałego podnoszenia poprzeczki i utrzymania badań w stanie stagnacji. Dzięki ARC-AGI-3 i przyszłym wersjom Fundacja zamierza dalej badać granice możliwości sztucznej inteligencji i to, czego jej wciąż brakuje.

Jesteśmy tu dla Ciebie - Doradztwo - Planowanie - Wdrażanie - Zarządzanie Projektami

☑️ Wsparcie dla MŚP w zakresie strategii, doradztwa, planowania i wdrażania

☑️ Tworzenie lub reorganizacja strategii AI

☑️ Rozwój pionierskiego biznesu

Konrad Wolfenstein

Chętnie będę pełnić rolę Twojego osobistego doradcy.

Możesz się ze mną skontaktować wypełniając formularz kontaktowy poniżej lub po prostu dzwoniąc pod numer +49 7348 4088 965 .

Nie mogę się doczekać naszego wspólnego projektu.

Napisz do mnie

➡️ Prośba o rozmowę wideo 👩👱

Xpert.Digital - Konrad Wolfenstein

Xpert.Digital to centrum przemysłowe skupiające się na cyfryzacji, inżynierii mechanicznej, logistyce/intralogistyce i fotowoltaice.

Dzięki naszemu rozwiązaniu 360° Business Development wspieramy renomowane firmy od pozyskiwania nowych klientów po obsługę posprzedażową.

Nasze narzędzia cyfrowe obejmują analizę rynku, smarketing, automatyzację marketingu, tworzenie treści, PR, kampanie mailingowe, spersonalizowane media społecznościowe i pielęgnowanie potencjalnych klientów.

Więcej informacji znajdziesz na stronach: www.xpert.digital - www.xpert.solar - www.xpert.plus

Kontaktować się

Wielkie rozczarowanie: dlaczego coraz większe modele sztucznej inteligencji nie zdają kluczowego testu inteligencji

Na czym polega test porównawczy ARC-AGI i dlaczego został opracowany?

Czym ARC-AGI różni się od innych testów porównawczych sztucznej inteligencji?

Jakie są różne wersje testu porównawczego ARC-AGI?

ŁUK-AGI-1

ŁUK-AGI-2

ŁUK-AGI-3

Jak różne modele sztucznej inteligencji wypadają w testach ARC-AGI?

Jaki jest sekret modelu zapoznawczego o3?

Jak działa konkurs ARC Prize?

Jakie są wyzwania techniczne związane z testem porównawczym ARC-AGI?

Interpretacja symboli

Wieloetapowe myślenie kompozycyjne

Stosowanie reguł zależnych od kontekstu

Uogólnienie na podstawie kilku przykładów

Jaką rolę odgrywa trening w czasie testu w rozwiązywaniu problemu ARC-AGI?

Bezpieczeństwo danych UE/DE | Integracja niezależnej platformy AI obsługującej wiele źródeł danych, zaspokajającej wszystkie potrzeby biznesowe

Przełomowa technologia AI: najbardziej elastyczna platforma AI — rozwiązania szyte na miarę, które obniżają koszty, usprawniają podejmowanie decyzji i zwiększają wydajność

Niezależna platforma AI: integruje wszystkie istotne źródła danych firmy

Sztuczna inteligencja wykraczająca poza skalowanie: wnioski z testu ARC-AGI

Jakie znaczenie mają wyniki dla rozwoju AGI?

Jak wygląda przyszłość testu porównawczego ARC-AGI?

Jakie są ekonomiczne implikacje wyników testów porównawczych?

Jakie są filozoficzne implikacje wyników ARC-AGI?

W jaki sposób ARC-AGI wpływa na kierunek badań nad sztuczną inteligencją?

Jaką rolę odgrywa społeczność open-source?

Jakie są ograniczenia testu porównawczego ARC-AGI?

Jak kształtują się koszty modeli AI w kontekście ARC-AGI?

Jakie znaczenie dla przyszłości pracy ma ARC-AGI?

Jakie nowe podejścia badawcze wynikają z ARC-AGI?

Synteza programu

Podejścia neurosymboliczne

Systemy wieloagentowe

Algorytmy ewolucyjne

Jaka jest wizja Fundacji Nagrody ARC na przyszłość?

☑️ Wsparcie dla MŚP w zakresie strategii, doradztwa, planowania i wdrażania

☑️ Tworzenie lub reorganizacja strategii AI

☑️ Rozwój pionierskiego biznesu

Inne tematy