Souboj AI v ARC benchmarku modelů AI: GPT-5 vs. Grok vs. o3

Konrad Wolfenstein

Před 12 měsíci

Souboj AI v ARC benchmarku modelů AI: GPT-5 vs. Grok vs. o3

Souboj umělé inteligence v benchmarku ARC modelů umělé inteligence: GPT-5 vs. Grok vs. o3 – Obrázek: Xpert.Digital

Velké zklamání: Proč stále větší modely umělé inteligence selhávají v klíčovém testu inteligence

Co je benchmark ARC-AGI a proč byl vyvinut?

Benchmark ARC-AGI je testovací série pro měření obecné inteligence systémů umělé inteligence, kterou v roce 2019 vyvinul François Chollet. ARC je zkratka pro „Abstraction and Reasoning Corpus for Artificial General Intelligence“ (Korpus abstrakce a uvažování pro obecnou umělou inteligenci). Benchmark byl vytvořen za účelem vyhodnocení schopnosti systémů umělé inteligence rozumět a řešit nové úkoly, pro které nebyly explicitně trénovány.

Vývoj benchmarku je založen na Cholletově definici inteligence z jeho zásadní práce „On the Measure of Intelligence“ (O míře inteligence). Tvrdí, že skutečná inteligence nespočívá ve zvládnutí specifických úkolů, ale v efektivitě osvojování nových dovedností. Test se skládá z vizuálních hádanek s barevnými mřížkami, kde systémy umělé inteligence musí identifikovat základní transformační pravidla a aplikovat je na nové příklady.

Jak se ARC-AGI liší od ostatních benchmarků umělé inteligence?

Na rozdíl od konvenčních testů umělé inteligence, které se často spoléhají na předchozí znalosti nebo zapamatované vzorce, se ARC-AGI zaměřuje na tzv. „základní znalosti“ – základní kognitivní dovednosti, jako je permanentnost objektů, počítání a prostorové uvažování. Tyto dovednosti si lidé obvykle osvojují kolem čtyř let věku.

Zásadní rozdíl spočívá v tom, že ARC-AGI je speciálně navržen tak, aby nebyl řešitelný pouhým memorováním nebo interpolací dat. Každý úkol v benchmarku je jedinečný a byl vyvinut speciálně pro tento test, takže by online neměly existovat žádné jeho příklady. Díky tomu je test odolný vůči typickým strategiím systémů umělé inteligence, které se spoléhají na velké trénovací datové sady.

Jaké jsou různé verze benchmarku ARC-AGI?

V současné době existují tři hlavní verze benchmarku:

ARC-AGI-1

Původní verze z roku 2019 se skládá ze statických vizuálních hádanek. Lidé v této hře dosahují průměrného skóre 95 %, zatímco většina systémů umělé inteligence má dlouhodobě skóre pod 5 %.

ARC-AGI-2

Tato vylepšená verze byla vydána v roce 2025 a je speciálně navržena tak, aby představovala výzvu i pro moderní systémy uvažování. Zatímco lidé i nadále dosahují téměř 100% úspěšnosti, i pokročilé modely umělé inteligence zvládají pouze 10–20 % úkolů.

ARC-AGI-3

Nejnovější verze, která je stále ve vývoji, zavádí interaktivní prvky. Místo statických hádanek se agenti s umělou inteligencí musí učit prostřednictvím průzkumu a metody pokus-omyl v mřížkovém světě, podobně jako lidé objevují nová prostředí.

Jak si různé modely umělé inteligence vedou v testech ARC-AGI?

Rozdíly ve výkonu mezi různými modely umělé inteligence jsou značné:

Pro ARC-AGI-1 dosahuje Grok 4 přibližně 68 %, zatímco GPT-5 dosahuje 65,7 %. Náklady na úkol jsou pro Grok 4 přibližně 1 USD a pro GPT-5 0,51 USD.

V ARC-AGI-2, obtížnějším testu, výkon drasticky klesá: GPT-5 dosahuje pouze 9,9 % s náklady 0,73 dolaru na úkol, zatímco Grok 4 (Myšlení) si vede lépe, s přibližně 16 %, ale s výrazně vyššími náklady 2–4 dolary.

Jak se dalo očekávat, levnější modelové varianty vykazují slabší výkon: GPT-5 Mini dosahuje 54,3 % na AGI-1 a 4,4 % na AGI-2, zatímco GPT-5 Nano dosahuje pouze 16,5 %, respektive 2,5 %.

Jaké je tajemství modelu O3 Preview?

Speciální případ představuje model o3 od OpenAI. V prosinci 2024 dosáhl v testu ARC-AGI-1 působivého skóre výkonu 75,7 % až 87,5 % v závislosti na použitém výpočetním výkonu. Bylo to poprvé, co systém umělé inteligence překonal limit lidského výkonu 85 %.

Existuje však jedno důležité omezení: Veřejně dostupná verze o3 si vede výrazně hůře než původní preview verze. Podle ARC Prize dosahuje vydaná o3 v testu ARC-AGI-1 pouze 41 % (nízká výpočetní náročnost) a 53 % (střední výpočetní náročnost), oproti 76–88 % preview verze.

OpenAI potvrdila, že publikovaný model má odlišnou, menší architekturu a je optimalizován pro chat a produktové aplikace. Tato nesrovnalost vyvolává otázky ohledně jeho skutečných možností a zdůrazňuje důležitost kritického vyhodnocení výsledků benchmarků z nepublikovaných modelů.

Jak soutěž o cenu ARC funguje?

Cena ARC je každoroční soutěž s celkovou dotací přesahující jeden milion amerických dolarů, jejímž cílem je propagovat pokrok open-source směrem k AGI (Actively Generic Architecture). Aktuální soutěž pro rok 2025 probíhá od 26. března do 3. listopadu na platformě Kaggle.

Cenová struktura zahrnuje:

Hlavní cena (700 000 USD): Odemkne se, když tým dosáhne 85% přesnosti v soukromé datové sadě pro hodnocení
Cena za nejvyšší skóre (75 000 USD): Pro týmy s nejvyšším skóre
Cena za článek (50 000 USD): Za nejvýznamnější koncepční pokroky
Další ceny (175 000 USD): Další kategorie budou oznámeny

Je důležité, aby všichni vítězové publikovali svá řešení jako open source. To je v souladu s posláním Nadace ARC Prize, jejímž cílem je zpřístupnit pokroky v oblasti AGI celé výzkumné komunitě.

Jaké jsou technické výzvy benchmarku ARC-AGI?

Úkoly v ARC-AGI vyžadují několik kognitivních schopností, které jsou pro lidi samozřejmé, ale pro systémy umělé inteligence extrémně obtížné:

Výklad symbolů

Umělá inteligence musí rozumět abstraktním symbolům a odvodit jejich význam z kontextu.

Vícestupňové kompoziční myšlení

Problémy je třeba rozdělit na dílčí kroky a řešit je postupně.

Kontextově závislá aplikace pravidel

Stejné pravidlo může být nutné aplikovat odlišně v závislosti na kontextu.

Zobecnění z několika příkladů

Obvykle jsou k dispozici pouze 2–3 demonstrační dvojice, ze kterých je nutné odvodit transformační pravidlo.

Jakou roli hraje trénink během testování při řešení ARC-AGI?

Trénování v testovací době (TTT) se ukázalo jako slibný přístup ke zlepšení výkonu v ARC-AGI. Tato metoda dynamicky upravuje parametry modelu podle aktuálních vstupních dat během inference, místo aby se spoléhala pouze na předem natrénované znalosti.

Výzkumníci z MIT prokázali, že TTT významně zlepšuje výkon jazykových modelů na ARC-AGI. Tato metoda umožňuje modelům adaptovat se během řešení úkolů a učit se z konkrétních příkladů. To napodobuje lidské chování při řešení problémů, kdy trávíme více času složitými problémy.

Zabezpečení dat v EU/DE | Integrace nezávislé platformy umělé inteligence s využitím různých zdrojů dat pro všechny obchodní potřeby

Nezávislé platformy umělé inteligence jako strategická alternativa pro evropské společnosti - Obrázek: Xpert.Digital

AI Game Changer: Nejflexibilnější platforma s umělou inteligencí – Řešení šitá na míru, která snižují náklady, zlepšují vaše rozhodování a zvyšují efektivitu

Nezávislá platforma umělé inteligence: Integruje všechny relevantní firemní zdroje dat

Rychlá integrace umělé inteligence: Řešení umělé inteligence šitá na míru pro firmy během hodin nebo dnů, místo měsíců
Flexibilní infrastruktura: Cloudová nebo hosting ve vlastním datovém centru (Německo, Evropa, volná volba lokality)

Maximální zabezpečení dat: jeho použití v advokátních kancelářích je nezpochybnitelným důkazem
Nasazení v široké škále podnikových datových zdrojů
Výběr vlastních nebo jiných modelů umělé inteligence (DE, EU, USA, CN)

Více informací zde:

Nezávislé platformy umělé inteligence vs. hyperškálovatelné systémy: Které řešení je to pravé?

Umělá inteligence nad rámec škálování: Poznatky z testu ARC-AGI

Co znamenají výsledky pro rozvoj AGI?

Výsledky odhalují významný rozdíl mezi lidskou a umělou inteligencí. Zatímco lidé řeší úkoly ARC-AGI intuitivně, i ty nejpokročilejší systémy umělé inteligence selhávají v základních kognitivních úkolech.

François Chollet tvrdí, že současné paradigma vývoje umělé inteligence – trénování stále větších modelů s větším množstvím dat – dosáhlo svých limitů. Špatné výsledky na ARC-AGI, navzdory exponenciálnímu nárůstu velikosti modelu, podle jeho názoru dokazují, že „fluidní inteligence nevzniká škálováním předtrénování“.

Budoucnost by mohla spočívat v nových přístupech, jako je adaptace za běhu testovacího času (Test-Time Adaptation), kde modely mohou měnit své vlastní stavy za běhu, aby se přizpůsobily novým situacím.

Jak vypadá budoucnost benchmarku ARC-AGI?

Nadace ARC Prize plánuje neustálý vývoj benchmarku. ARC-AGI-3 s interaktivními prvky by měl být kompletně vydán v roce 2026 a bude zahrnovat přibližně 100 unikátních prostředí.

Nadace si klade za cíl vyvinout kritéria, která budou sloužit jako „severní hvězda“ pro rozvoj obecné umělé inteligence (AGI). To zahrnuje nejen měření pokroku, ale také vedení výzkumu směrem, který by mohl vést ke skutečné obecné inteligenci.

Jaké jsou ekonomické důsledky benchmarkové výkonnosti?

Náklady na řešení problémů ARC-AGI se u jednotlivých modelů značně liší a mají přímý vliv na praktickou použitelnost.

Zatímco jednoduché úkoly lze řešit s náklady na API v řádu centů, náklady na složité úlohy uvažování rapidně rostou. Například model o3 může s vysokým výpočetním výkonem stát až 1 000 dolarů za úkol.

Tato struktura nákladů ukazuje, že i když je dosaženo technických průlomů, ekonomická proveditelnost zůstává klíčovým faktorem pro široké uplatnění technologií AGI.

Jaké jsou filozofické důsledky výsledků ARC-AGI?

Výsledky vyvolávají zásadní otázky ohledně podstaty inteligence. Srovnávací test ukazuje, že existuje zásadní rozdíl mezi zapamatováním si vzorců a skutečným porozuměním.

Skutečnost, že lidé tyto úkoly řeší bez námahy, zatímco systémy umělé inteligence selhávají, naznačuje, že lidská inteligence funguje kvalitativně odlišně od současných přístupů umělé inteligence. To podporuje Cholletův argument, že AGI vyžaduje více než jen větší modely a více dat.

Jak ARC-AGI ovlivňuje směr výzkumu umělé inteligence?

Tento benchmark již vedl k přehodnocení výzkumu umělé inteligence. Místo zaměření pouze na škálovatelné modely nyní přední laboratoře zkoumají alternativní přístupy, jako jsou výpočty za testovací doby a adaptivní systémy.

Tento posun se odráží i v investicích: firmy stále více investují do výzkumu efektivnějšího uvažování a řešení problémů namísto stále větších tréninkových cyklů.

Jakou roli hraje open-source komunita?

Nadace ARC Prize zdůrazňuje důležitost vývoje s otevřeným zdrojovým kódem pro pokrok v oblasti obecné umělé inteligence (AGI). Všichni vítězové soutěže musí svá řešení zveřejnit.

Tato filozofie je založena na přesvědčení, že obecná umělá inteligence (AGI) je příliš důležitá na to, aby byla vyvíjena pouze v uzavřených laboratořích. Nadace se vnímá jako katalyzátor pro spolupracující a transparentní výzkumnou komunitu.

Jaká jsou omezení benchmarku ARC-AGI?

Navzdory svému významu má ARC-AGI i omezení. Sám Chollet zdůrazňuje, že složení testu není synonymem pro dosažení AGI. Tento benchmark měří pouze jeden aspekt inteligence – schopnost řešit abstraktní problémy.

Další důležité aspekty, jako je kreativita, emoční inteligence nebo dlouhodobé plánování, nejsou posuzovány. Kromě toho existuje riziko, že budou vyvinuty systémy speciálně optimalizované pro ARC-AGI, které testem projdou, aniž by ve skutečnosti byly obecně inteligentní.

Jak se vyvíjejí náklady na modely umělé inteligence v kontextu ARC-AGI?

Vývoj nákladů odhaluje zajímavé trendy. Zatímco výkonnost se zvyšuje jen pomalu, náklady na marginální vylepšení explodují.

Tato dynamika nákladů vede k důležitému poznatku: efektivita se stává rozhodujícím rozlišovacím prvkem. Nadace ARC Prize zdůrazňuje, že klíčovým kritériem není pouze přesnost, ale také náklady na vyřešený problém.

Co znamená ARC-AGI pro budoucnost práce?

Výsledky mají uklidňující důsledky pro mnoho profesí. Neschopnost systémů umělé inteligence řešit základní myšlenkové úkoly ukazuje, že lidské kognitivní schopnosti zdaleka nebudou nahrazeny.

Zároveň pokrok ve specializovaných úkolech naznačuje, že umělá inteligence bude i nadále sloužit jako nástroj na podporu lidské práce, spíše než aby ji zcela nahradila.

Jaké nové výzkumné přístupy vyplývají z ARC-AGI?

Tento benchmark inspiroval několik inovativních směrů výzkumu:

Syntéza programu

Systémy, které generují programy pro řešení problémů.

Neurosymbolické přístupy

Kombinace neuronových sítí se symbolickým uvažováním.

Multiagentní systémy

Několik specializovaných agentů spolupracuje.

Evoluční algoritmy

Systémy, které vyvíjejí řešení prostřednictvím evoluce.

Jaká je vize Nadace ARC Prize do budoucna?

Nadace sleduje jasné poslání: sloužit jako „severní hvězda“ pro rozvoj otevřené obecné umělé inteligence (AGI). To zahrnuje nejen technické standardy, ale také vytvoření ekosystému, který podporuje inovace a zároveň zajišťuje, aby pokrok v AGI prospěl celému lidstvu.

Neustálý vývoj nových verzí benchmarků má zajistit, aby se laťka neustále zvyšovala a výzkum nestagnoval. S ARC-AGI-3 a budoucími verzemi si nadace klade za cíl dále prozkoumat limity toho, co umělá inteligence dokáže, a co jí stále chybí.

Jsme tu pro vás - Poradenství - Plánování - Implementace - Projektový management

☑️ Podpora malých a středních podniků v oblasti strategie, poradenství, plánování a implementace

☑️ Vytvoření nebo úprava strategie AI

☑️ Průkopnický rozvoj podnikání

Konrad Wolfenstein

Rád/a bych sloužil/a jako váš osobní poradce.

Můžete mě kontaktovat vyplněním níže uvedeného kontaktního formuláře nebo mi jednoduše zavolat na číslo +49 7348 4088 965 .

Těším se na náš společný projekt.

Napiš mi

➡️ Žádost o videohovor 👩👱

Xpert.Digital - Konrad Wolfenstein

Xpert.Digital je centrum pro průmysl se zaměřením na digitalizaci, strojírenství, logistiku/intralogistiku a fotovoltaiku.

S naším komplexním řešením pro rozvoj podnikání 360° podporujeme renomované společnosti od nových obchodů až po poprodejní služby.

Součástí našich digitálních nástrojů jsou analýzy trhu, s-marketing, marketingová automatizace, vývoj obsahu, PR, mailové kampaně, personalizované sociální sítě a péče o leady.

Více informací naleznete na: www.xpert.digital - www.xpert.solar - www.xpert.plus

Zůstaňte v kontaktu

Velké zklamání: Proč stále větší modely umělé inteligence selhávají v klíčovém testu inteligence

Co je benchmark ARC-AGI a proč byl vyvinut?

Jak se ARC-AGI liší od ostatních benchmarků umělé inteligence?

Jaké jsou různé verze benchmarku ARC-AGI?

ARC-AGI-1

ARC-AGI-2

ARC-AGI-3

Jak si různé modely umělé inteligence vedou v testech ARC-AGI?

Jaké je tajemství modelu O3 Preview?

Jak soutěž o cenu ARC funguje?

Jaké jsou technické výzvy benchmarku ARC-AGI?

Výklad symbolů

Vícestupňové kompoziční myšlení

Kontextově závislá aplikace pravidel

Zobecnění z několika příkladů

Jakou roli hraje trénink během testování při řešení ARC-AGI?

Zabezpečení dat v EU/DE | Integrace nezávislé platformy umělé inteligence s využitím různých zdrojů dat pro všechny obchodní potřeby

AI Game Changer: Nejflexibilnější platforma s umělou inteligencí – Řešení šitá na míru, která snižují náklady, zlepšují vaše rozhodování a zvyšují efektivitu

Nezávislá platforma umělé inteligence: Integruje všechny relevantní firemní zdroje dat

Umělá inteligence nad rámec škálování: Poznatky z testu ARC-AGI

Co znamenají výsledky pro rozvoj AGI?

Jak vypadá budoucnost benchmarku ARC-AGI?

Jaké jsou ekonomické důsledky benchmarkové výkonnosti?

Jaké jsou filozofické důsledky výsledků ARC-AGI?

Jak ARC-AGI ovlivňuje směr výzkumu umělé inteligence?

Jakou roli hraje open-source komunita?

Jaká jsou omezení benchmarku ARC-AGI?

Jak se vyvíjejí náklady na modely umělé inteligence v kontextu ARC-AGI?

Co znamená ARC-AGI pro budoucnost práce?

Jaké nové výzkumné přístupy vyplývají z ARC-AGI?

Syntéza programu

Neurosymbolické přístupy

Multiagentní systémy

Evoluční algoritmy

Jaká je vize Nadace ARC Prize do budoucna?

☑️ Podpora malých a středních podniků v oblasti strategie, poradenství, plánování a implementace

☑️ Vytvoření nebo úprava strategie AI

☑️ Průkopnický rozvoj podnikání

Další témata