
Souboj umělé inteligence v benchmarku ARC modelů umělé inteligence: GPT-5 vs. Grok vs. o3 – Obrázek: Xpert.Digital
Velké zklamání: Proč stále větší modely umělé inteligence selhávají v klíčovém testu inteligence
Co je to benchmark ARC-AGI a proč byl vyvinut?
Benchmark ARC-AGI je série testů pro měření obecné inteligence systémů umělé inteligence, kterou v roce 2019 vyvinul François Chollet. ARC je zkratka pro „Abstraction and Reasoning Corpus for Artificial General Intelligence“ (Korpus abstrakce a uvažování pro obecnou umělou inteligenci). Benchmark byl vytvořen za účelem vyhodnocení schopnosti systémů umělé inteligence rozumět a řešit nové úkoly, pro které nebyly explicitně trénovány.
Vývoj tohoto benchmarku je založen na Cholletově definici inteligence z jeho zásadní práce „On the Measure of Intelligence“ (O míře inteligence). Tvrdí, že skutečná inteligence nespočívá ve zvládnutí specifických úkolů, ale v efektivitě osvojování nových dovedností. Test se skládá z vizuálních hádanek s barevnými mřížkami, kde systémy umělé inteligence musí rozpoznat základní transformační pravidla a aplikovat je na nové příklady.
Jak se ARC-AGI liší od ostatních benchmarků umělé inteligence?
Na rozdíl od konvenčních testů umělé inteligence, které se často spoléhají na předchozí znalosti nebo zapamatované vzorce, se ARC-AGI zaměřuje na tzv. „základní předchozí znalosti“ – základní kognitivní dovednosti, jako je permanentnost objektů, počítání a prostorové chápání. Tyto dovednosti se obvykle získávají do čtyř let věku dítěte.
Klíčový rozdíl spočívá v tom, že ARC-AGI je speciálně navržen tak, aby byl řešitelný pouze memorováním nebo interpolací dat. Každý úkol v benchmarku je jedinečný a byl vyvinut speciálně pro daný test, takže by online neměly existovat žádné jeho příklady. Díky tomu je test odolný vůči obvyklým strategiím systémů umělé inteligence založených na velkém množství trénovacích dat.
Jaké jsou různé verze benchmarku ARC-AGI?
V současné době existují tři hlavní verze benchmarku:
ARC-AGI-1
Původní verze z roku 2019, která se skládá ze statických vizuálních hádanek, dosahuje u lidí průměrně 95 %, zatímco většina systémů umělé inteligence je již dlouho pod 5 %.
ARC-AGI-2
Tato vylepšená verze, vydaná v roce 2025, je speciálně navržena tak, aby zpochybnila i moderní systémy uvažování. Zatímco lidé i nadále dosahují téměř 100% výkonu, i pokročilé modely umělé inteligence dokáží zvládnout pouze 10–20 % úkolů.
ARC-AGI-3
Nejnovější verze, která je stále ve vývoji, zavádí interaktivní prvky. Místo statických hádanek se agenti s umělou inteligencí musí učit prostřednictvím průzkumu a metody pokus-omyl v mřížkovém světě, podobně jako lidé objevují nová prostředí.
Jak si různé modely umělé inteligence vedou v testech ARC-AGI?
Rozdíly ve výkonu mezi různými modely umělé inteligence jsou značné:
Na ARC-AGI-1 dosahuje Grok 4 přibližně 68 %, zatímco GPT-5 je na úrovni 65,7 %. Náklady na úkol jsou pro Grok 4 přibližně 1 USD a pro GPT-5 0,51 USD.
V obtížnějším testu ARC-AGI-2 výkon dramaticky klesá: GPT-5 dosahuje pouze 9,9 % s náklady 0,73 dolaru na úkol, zatímco Grok 4 (Myšlení) si vede lépe, s přibližně 16 %, i když s výrazně vyššími náklady 2–4 dolary.
Jak se dalo očekávat, levnější modelové varianty vykazují slabší výkon: GPT-5 Mini dosahuje 54,3 % na AGI-1 a 4,4 % na AGI-2, zatímco GPT-5 Nano dosahuje pouze 16,5 %, respektive 2,5 %.
Jaké je tajemství modelu O3 Preview?
Model o3-preview od OpenAI představuje speciální případ. V prosinci 2024 dosáhl v testu ARC-AGI-1 působivých 75,7 % až 87,5 % v závislosti na použitém výpočetním výkonu. Bylo to poprvé, co systém umělé inteligence překonal hranici lidského výkonu 85 %.
Existuje však jedno důležité omezení: Veřejně dostupná verze o3 má výrazně horší výkon než původní preview verze. Podle ceny ARC dosahuje vydaná verze o3 v testu ARC-AGI-1 pouze 41 % (nízká výpočetní náročnost) a 53 % (střední výpočetní náročnost), oproti 76–88 % preview verze.
OpenAI potvrdila, že publikovaný model má odlišnou, menší architekturu a je optimalizován pro chat a produktové aplikace. Tato nesrovnalost vyvolává otázky ohledně jeho skutečných možností a zdůrazňuje důležitost kritického zkoumání výsledků benchmarků z nepublikovaných modelů.
Jak soutěž o cenu ARC funguje?
Cena ARC je každoroční soutěž s celkovým fondem přesahujícím jeden milion amerických dolarů, jejímž cílem je podpořit pokrok open-source směrem k AGI. Aktuální soutěž pro rok 2025 probíhá od 26. března do 3. listopadu na platformě Kaggle.
Cenová struktura zahrnuje:
- Hlavní cena (700 000 USD): Odemkne se, když tým dosáhne 85% přesnosti v datové sadě soukromého hodnocení.
- Cena za nejvyšší skóre (75 000 USD): Pro týmy s nejvyšším skóre
- Cena za článek (50 000 USD): Za nejvýznamnější koncepční pokroky
- Další ceny (175 000 USD): Další kategorie budou oznámeny
Důležité je, že všichni vítězové musí svá řešení publikovat jako open source. To je v souladu s posláním Nadace ARC Prize, kterým je zpřístupnit pokroky v oblasti AGI celé výzkumné komunitě.
Jaké jsou technické výzvy benchmarku ARC-AGI?
Úkoly v ARC-AGI vyžadují několik kognitivních dovedností, které jsou pro člověka přirozené, ale pro systémy umělé inteligence extrémně obtížné:
Výklad symbolů
Umělá inteligence musí rozumět abstraktním symbolům a odvodit jejich význam z kontextu.
Víceúrovňové kompoziční myšlení
Problémy je třeba rozdělit na dílčí kroky a řešit je postupně.
Kontextově závislá aplikace pravidel
Stejné pravidlo může být nutné aplikovat odlišně v závislosti na kontextu.
Zobecnění z několika příkladů
Obvykle jsou k dispozici pouze 2–3 demonstrační dvojice, ze kterých je nutné odvodit transformační pravidlo.
Jakou roli hraje trénink během testování při řešení ARC-AGI?
Trénování v testovací době (TTT) se ukázalo jako slibný přístup ke zlepšení výkonu v ARC-AGI. Tato metoda dynamicky přizpůsobuje parametry modelu aktuálním vstupním datům během inference, spíše než aby se spoléhala pouze na předem natrénované znalosti.
Výzkumníci z MIT prokázali, že TTT významně zlepšuje výkon jazykových modelů na ARC-AGI. Metoda umožňuje modelům adaptovat se během řešení úkolů a učit se z konkrétních příkladů. To napodobuje lidské chování při řešení problémů, kdy trávíme více času složitými problémy.
Zabezpečení dat v EU/DE | Integrace nezávislé platformy umělé inteligence s využitím různých zdrojů dat pro všechny obchodní potřeby
Nezávislé platformy umělé inteligence jako strategická alternativa pro evropské společnosti – Obrázek: Xpert.Digital
Ki-Gamechanger: Nejflexibilnější platforma AI – řešení na míru, která snižují náklady, zlepšují jejich rozhodnutí a zvyšují účinnost
Nezávislá platforma AI: Integruje všechny relevantní zdroje dat společnosti
- Rychlá integrace AI: Řešení AI na míru na míru na míru nebo dny místo měsíců
- Flexibilní infrastruktura: cloudové nebo hostování ve vašem vlastním datovém centru (Německo, Evropa, svobodný výběr umístění)
- Nejvyšší zabezpečení dat: Používání v právnických firmách je bezpečný důkaz
- Používejte napříč širokou škálou zdrojů firemních dat
- Výběr vašich vlastních nebo různých modelů AI (DE, EU, USA, CN)
Více o tom zde:
Umělá inteligence nad rámec měřítka: Poznatky z testu ARC-AGI
Co znamenají výsledky pro rozvoj AGI?
Výsledky odhalují jasnou propast mezi lidskou a umělou inteligencí. Zatímco lidé řeší úkoly ARC-AGI intuitivně, i ty nejmodernější systémy umělé inteligence selhávají v základních úlohách uvažování.
François Chollet tvrdí, že současné paradigma vývoje umělé inteligence – trénování stále větších modelů s větším množstvím dat – dosáhlo svých limitů. Špatné výsledky na ARC-AGI, navzdory exponenciálně rostoucí velikosti modelu, podle jeho názoru dokazují, že „fluidní inteligence nevzniká škálováním předtrénování“.
Budoucnost by mohla spočívat v nových přístupech, jako je adaptace za běhu testovacího prostředí, kde modely mohou měnit své vlastní stavy za běhu, aby se přizpůsobily novým situacím.
Jak vypadá budoucnost benchmarku ARC-AGI?
Nadace ARC Prize plánuje benchmark neustále vyvíjet. Plné vydání ARC-AGI-3 s interaktivními prvky je naplánováno na rok 2026 a bude zahrnovat přibližně 100 unikátních prostředí.
Cílem nadace je vyvinout benchmarky, které budou sloužit jako „severní hvězda“ pro vývoj obecné umělé inteligence (AGI). Cílem je nejen měřit pokrok, ale také vést výzkum směry, které by mohly vést ke skutečné obecné inteligenci.
Jaké jsou ekonomické důsledky benchmarkové výkonnosti?
Náklady na řešení úloh ARC-AGI se u jednotlivých modelů značně liší a mají přímý vliv na praktickou použitelnost.
Zatímco jednoduché úkoly lze řešit s náklady na API v řádu centů, náklady na složité úlohy uvažování rapidně rostou. Například model o3 může při vysokém výpočetním výkonu stát až 1 000 dolarů za úkol.
Tato struktura nákladů ukazuje, že i když je dosaženo technických průlomů, ekonomická proveditelnost zůstává klíčovým faktorem pro široké přijetí technologií AGI.
Jaké jsou filozofické důsledky výsledků ARC-AGI?
Výsledky vyvolávají zásadní otázky ohledně podstaty inteligence. Srovnávací test ukazuje, že existuje zásadní rozdíl mezi zapamatováním si vzorců a skutečným porozuměním.
Skutečnost, že lidé tyto úkoly řeší bez námahy, zatímco systémy umělé inteligence selhávají, naznačuje, že lidská inteligence funguje kvalitativně odlišně od současných přístupů umělé inteligence. To podporuje Cholletův argument, že obecná umělá inteligence vyžaduje více než jen větší modely a více dat.
Jak ARC-AGI ovlivňuje výzkum umělé inteligence?
Tento benchmark již vedl k přehodnocení výzkumu umělé inteligence. Místo zaměření výhradně na škálovatelné modely nyní přední laboratoře zkoumají alternativní přístupy, jako jsou výpočty za testovací doby a adaptivní systémy.
Tento posun se odráží i v investicích: firmy stále více investují do výzkumu efektivnějšího uvažování a řešení problémů namísto stále větších tréninkových cyklů.
Jakou roli hraje komunita open source?
Nadace ARC Prize zdůrazňuje důležitost vývoje s otevřeným zdrojovým kódem pro pokrok v oblasti obecné umělé inteligence (AGI). Všichni vítězové soutěže jsou povinni zveřejnit svá řešení.
Tato filozofie je založena na přesvědčení, že obecná umělá inteligence (AGI) je příliš důležitá na to, aby byla vyvíjena pouze v uzavřených laboratořích. Nadace se vnímá jako katalyzátor pro spolupracující a transparentní výzkumnou komunitu.
Jaká jsou omezení benchmarku ARC-AGI?
Navzdory svému významu má ARC-AGI i omezení. Sám Chollet zdůrazňuje, že úspěšné složení testu se nerovná dosažení AGI. Tento benchmark měří pouze jeden aspekt inteligence – schopnost řešit abstraktní problémy.
Další důležité aspekty, jako je kreativita, emoční inteligence nebo dlouhodobé plánování, se neměří. Navíc existuje riziko, že budou vyvinuty systémy speciálně optimalizované pro ARC-AGI, které testem projdou, aniž by byly obecně skutečně inteligentní.
Jak se vyvíjejí náklady na modely umělé inteligence v kontextu ARC-AGI?
Trendy v nákladech vykazují zajímavé trendy. Zatímco výkonnost se zvyšuje jen pomalu, náklady na marginální vylepšení explodují.
Tato dynamika nákladů vede k důležitému poznatku: efektivita se stává klíčovým rozlišovacím prvkem. Nadace ARC Prize zdůrazňuje, že důležitým kritériem není pouze přesnost, ale také náklady na vyřešený úkol.
Co znamená ARC-AGI pro budoucnost práce?
Výsledky mají uklidňující důsledky pro mnoho profesí. Neschopnost systémů umělé inteligence řešit základní úlohy uvažování ukazuje, že lidské kognitivní schopnosti zdaleka nebudou nahrazeny.
Zároveň pokrok ve specializovaných úkolech naznačuje, že umělá inteligence bude i nadále sloužit jako nástroj na podporu lidské práce, spíše než aby ji zcela nahradila.
Jaké nové výzkumné přístupy se objevují prostřednictvím ARC-AGI?
Tento benchmark inspiroval několik inovativních směrů výzkumu:
Syntéza programu
Systémy, které generují programy pro řešení problémů.
Neurosymbolické přístupy
Kombinace neuronových sítí se symbolickým uvažováním.
Multiagentní systémy
Několik specializovaných agentů spolupracuje.
Evoluční algoritmy
Systémy, které vyvíjejí řešení evolučním způsobem.
Jaká je vize Nadace ARC Prize do budoucna?
Nadace má jasné poslání: sloužit jako „severní hvězda“ pro rozvoj otevřené obecné umělé inteligence (AGI). Nejde jen o stanovení technických standardů, ale o vytvoření ekosystému, který podporuje inovace a zároveň zajišťuje, aby pokroky v AGI prospívaly celému lidstvu.
Neustálý vývoj nových verzí benchmarků má zajistit, aby se laťka neustále zvyšovala a výzkum nestagnoval. S ARC-AGI-3 a budoucími verzemi si nadace klade za cíl dále prozkoumat limity toho, co umělá inteligence dokáže, a co jí stále chybí.
Jsme tu pro vás – rada – plánování – implementace – řízení projektů
☑️ Podpora MSP ve strategii, poradenství, plánování a implementaci
☑ Vytváření nebo přepracování strategie AI
☑️ Pioneer Business Development
Rád posloužím jako váš osobní poradce.
Můžete mě kontaktovat vyplněním kontaktního formuláře níže nebo mi jednoduše zavolejte na číslo +49 89 89 674 804 (Mnichov) .
Těším se na náš společný projekt.
Xpert.digital – Konrad Wolfenstein
Xpert.Digital je centrum pro průmysl se zaměřením na digitalizaci, strojírenství, logistiku/intralogistiku a fotovoltaiku.
S naším 360° řešením pro rozvoj podnikání podporujeme známé společnosti od nových obchodů až po poprodejní služby.
Market intelligence, smarketing, automatizace marketingu, vývoj obsahu, PR, e-mailové kampaně, personalizovaná sociální média a péče o potenciální zákazníky jsou součástí našich digitálních nástrojů.
Více najdete na: www.xpert.digital – www.xpert.solar – www.xpert.plus