Обрачун вештачке интелигенције на ARC бенчмарку вештачких модела: GPT-5 наспрам Grok наспрам o3

Konrad Wolfenstein

Пре 12 месеци

Обрачун вештачке интелигенције на ARC бенчмарку вештачких модела: GPT-5 наспрам Grok наспрам o3 – Слика: Xpert.Digital

Велико разочарање: Зашто све већи модели вештачке интелигенције не пролазе кључни тест интелигенције

Шта је ARC-AGI бенчмарк и зашто је развијен?

ARC-AGI бенчмарк је серија тестова за мерење опште интелигенције вештачке интелигенције, коју је 2019. године развио Франсоа Шоле. ARC је скраћеница од „Apstraction and Resoning Corpus for Artificial General Intelligence“ (Корпус апстракције и резоновања за општу вештачку интелигенцију). Бенчмарк је креиран да би се проценила способност вештачке интелигенције да разумеју и решавају нове задатке за које нису експлицитно обучени.

Развој бенчмарка заснован је на Шолеовој дефиницији интелигенције из његовог капиталног рада „О мери интелигенције“. Он тврди да права интелигенција не лежи у савладавању одређених задатака, већ у ефикасности стицања нових вештина. Тест се састоји од визуелних слагалица са обојеним мрежама, где системи вештачке интелигенције морају да идентификују основна правила трансформације и да их примене на нове примере.

По чему се ARC-AGI разликује од других AI бенчмаркова?

За разлику од конвенционалних тестова вештачке интелигенције, који се често ослањају на претходно знање или запамћене обрасце, ARC-AGI се фокусира на такозване „основне претходнике знања“ – фундаменталне когнитивне вештине као што су трајност објеката, бројање и просторно резоновање. Ове вештине људи обично стичу око четврте године.

Кључна разлика лежи у чињеници да је ARC-AGI посебно дизајниран да буде нерешив пуким меморисањем или интерполацијом података. Сваки задатак у бенчмарку је јединствен и развијен је посебно за тест, тако да не би требало да постоје примери истог на мрежи. Ово чини тест отпорним на типичне стратегије вештачке интелигенције система који се ослањају на велике скупове података за обуку.

Које су различите верзије ARC-AGI бенчмарка?

Сада постоје три главне верзије бенчмарка:

ARC-AGI-1

Оригинална верзија из 2019. године састоји се од статичних визуелних слагалица. Људи постижу просечан резултат од 95% у овој игри, док већина система вештачке интелигенције одавно постиже резултат испод 5%.

ARC-AGI-2

Ова побољшана верзија је објављена 2025. године и посебно је дизајнирана да представља изазов чак и за модерне системе резоновања. Док људи и даље постижу скоро 100% успеха, чак и напредни модели вештачке интелигенције управљају само 10-20% задатака.

ARC-AGI-3

Најновија верзија, која је још увек у развоју, уводи интерактивне елементе. Уместо статичних слагалица, агенти вештачке интелигенције морају да уче кроз истраживање и покушаје и грешке у свету мреже, слично као што људи истражују нова окружења.

Како се различити модели вештачке интелигенције показују у ARC-AGI тестовима?

Разлике у перформансама између различитих модела вештачке интелигенције су значајне:

За ARC-AGI-1, Grok 4 постиже приближно 68%, док GPT-5 достиже 65,7%. Цена по задатку је приближно 1 амерички долар за Grok 4 и 0,51 амерички долар за GPT-5.

У ARC-AGI-2, тежем тесту, перформансе драстично падају: GPT-5 постиже само 9,9% уз трошак од 0,73 долара по задатку, док Grok 4 (Размишљање) постиже боље резултате са око 16%, али уз знатно већи трошак од 2-4 долара.

Као што се и очекивало, јефтиније варијанте модела показују слабије перформансе: GPT-5 Mini постиже 54,3% на AGI-1 и 4,4% на AGI-2, док GPT-5 Nano достиже само 16,5% и 2,5% респективно.

Која је тајна модела o3 preview?

Прегледни модел o3 компаније OpenAI представља посебан случај. У децембру 2024. године постигао је импресивне резултате перформанси од 75,7% до 87,5% на ARC-AGI-1 тесту, у зависности од коришћене рачунарске снаге. Ово је био први пут да је систем вештачке интелигенције превазишао границу људских перформанси од 85%.

Међутим, постоји једно важно ограничење: Јавно доступна верзија o3 ради знатно лошије од оригиналне прелиминарне верзије. Према ARC Prize-у, објављена o3 постиже само 41% (ниска рачунарска снага) и 53% (средња рачунарска снага) на ARC-AGI-1, у поређењу са 76-88% прелиминарне верзије.

OpenAI је потврдио да објављени модел има другачију, мању архитектуру и да је оптимизован за апликације за ћаскање и производе. Ова неслагања покрећу питања о његовим стварним могућностима и истичу важност критичке евалуације резултата тестирања из необјављених модела.

Како функционише такмичење за награду ARC?

Награда ARC је годишње такмичење са укупним наградним фондом од преко милион америчких долара, чији је циљ промоција напретка отвореног кода ка AGI (Активно генеричкој архитектури). Актуелно такмичење за 2025. годину траје од 26. марта до 3. новембра на платформи Kaggle.

Структура цена укључује:

Главна награда (700.000 УСД): Откључава се када тим постигне 85% тачности на приватном скупу података за евалуацију
Награда за најбољи резултат (75.000 америчких долара): За тимове са највишим резултатима
Награда за рад (50.000 америчких долара): За најзначајнији концептуални напредак
Остале награде (175.000 УСД): Додатне категорије ће бити накнадно објављене

Важно је да сви победници објаве своја решења као отворени код. Ово је у складу са мисијом Фондације за награду ARC да напредак у општој интелигенцији учини доступним целој истраживачкој заједници.

Који су технички изазови ARC-AGI бенчмарка?

Задаци у ARC-AGI захтевају неколико когнитивних способности које су очигледне људима, али изузетно тешке за AI системе:

Тумачење симбола

Вештачка интелигенција мора да разуме апстрактне симболе и да извуче њихово значење из контекста.

Вишестепено композиционо размишљање

Проблеми морају бити подељени на подкораке и решавани секвенцијално.

Примена правила зависна од контекста

Исто правило може бити потребно применити другачије у зависности од контекста.

Генерализација из неколико примера

Типично, доступна су само 2-3 демонстрациона пара из којих се мора извести правило трансформације.

Какву улогу игра обука током тестирања у решавању ARC-AGI?

Обука током тестирања (TTT) се показала као обећавајући приступ за побољшање перформанси на ARC-AGI. Ова метода динамички прилагођава параметре модела тренутним улазним подацима током закључивања, уместо да се ослања искључиво на претходно обучено знање.

Истраживачи МИТ-а су показали да ТТТ значајно побољшава перформансе језичких модела на ARC-AGI. Метода омогућава моделима да се прилагођавају током решавања задатака и уче из конкретних примера. Ово опонаша људско понашање у решавању проблема, где проводимо више времена на тешким проблемима.

Безбедност података ЕУ/НЕ | Интеграција независне и међуизворне платформе за вештачку интелигенцију за све пословне потребе

Независне платформе за вештачку интелигенцију као стратешка алтернатива за европске компаније - Слика: Xpert.Digital

AI мењач правила игре: Најфлексибилнија AI платформа - Решења по мери која смањују трошкове, побољшавају ваше одлуке и повећавају ефикасност

Независна AI платформа: Интегрише све релевантне изворе података компаније

Брза интеграција вештачке интелигенције: Прилагођена решења за вештачку интелигенцију за предузећа за сате или дане, уместо месеци
Флексибилна инфраструктура: базирана на облаку или хостинг у вашем сопственом дата центру (Немачка, Европа, слободан избор локације)

Максимална безбедност података: његова употреба у адвокатским канцеларијама је непобитан доказ
Примена у широком спектру извора података предузећа
Избор сопствених или различитих AI модела (Немачка, ЕУ, САД, Кина)

Више информација овде:

Независне AI платформе наспрам хиперскалера: Које решење је право решење?

Вештачка интелигенција изван скалирања: Увиди из ARC-AGI теста

Шта резултати значе за развој АГИ?

Резултати откривају значајан јаз између људске и вештачке интелигенције. Док људи интуитивно решавају ARC-AGI задатке, чак ни најнапреднији AI системи не успевају у основним когнитивним задацима.

Франсоа Шоле тврди да је тренутна парадигма развоја вештачке интелигенције – обучавање све већих модела са више података – достигла своје границе. Лоши резултати на ARC-AGI, упркос експоненцијалном повећању величине модела, доказују, по његовом мишљењу, да „флуидна интелигенција не настаје скалирањем претходне обуке“.

Будућност би могла бити у новим приступима као што је адаптација током тестирања, где модели могу да мењају своја стања током извршавања како би се прилагодили новим ситуацијама.

Шта будућност носи за ARC-AGI бенчмарк?

Фондација ARC Prize планира континуирани развој бенчмарка. ARC-AGI-3, са својим интерактивним елементима, требало би да буде потпуно објављен 2026. године и укључиваће приближно 100 јединствених окружења.

Фондација има за циљ да развије референтне вредности које ће служити као „звезда северњача“ за развој опште интелигенције. Ово подразумева не само мерење напретка већ и вођење истраживања у правцима који би могли довести до праве опште интелигенције.

Које су економске импликације перформанси бенчмарка?

Трошкови решавања ARC-AGI проблема значајно варирају између модела и имају директан утицај на практичну применљивост.

Док се једноставни задаци могу решити уз трошкове API-ја у распону од неколико центи, трошкови за сложене задатке резоновања брзо расту. Модел o3, на пример, може коштати и до 1.000 долара по задатку са великом рачунарском снагом.

Ова структура трошкова показује да чак и ако се постигну технички продори, економска исплативост остаје кључни фактор за широку примену AGI технологија.

Које су филозофске импликације резултата ARC-AGI?

Резултати покрећу фундаментална питања о природи интелигенције. Референтна вредност показује да постоји фундаментална разлика између памћења образаца и истинског разумевања.

Чињеница да људи без напора решавају ове задатке, док системи вештачке интелигенције не успевају, сугерише да људска интелигенција функционише квалитативно другачије од тренутних приступа вештачкој интелигенцији. Ово подржава Шолеов аргумент да општа вештачка интелигенција захтева више од већих модела и више података.

Како ARC-AGI утиче на правац истраживања вештачке интелигенције?

Референтни тест је већ довео до преиспитивања истраживања вештачке интелигенције. Уместо да се фокусирају искључиво на моделе скалирања, водеће лабораторије сада истражују алтернативне приступе као што су израчунавање током тестирања и адаптивни системи.

Ова промена се огледа и у инвестицијама: компаније све више улажу у истраживање ефикаснијег резоновања и решавања проблема уместо у све веће тренинге.

Какву улогу игра заједница отвореног кода?

Фондација ARC Prize наглашава важност развоја отвореног кода за напредак опште уметничке и информационе технологије (ОПИ). Сви победници такмичења морају своја решења учинити јавно доступним.

Ова филозофија се заснива на уверењу да је општа уметничка интелектуална технологија (ОУИ) превише важна да би се развијала искључиво у затвореним лабораторијама. Фондација себе види као катализатор за сарадничку, транспарентну истраживачку заједницу.

Која су ограничења ARC-AGI бенчмарка?

Упркос свом значају, ARC-AGI такође има ограничења. Сам Шолет наглашава да полагање теста није синоним за постизање AGI. Референтна вредност мери само један аспект интелигенције – способност решавања апстрактних проблема.

Други важни аспекти као што су креативност, емоционална интелигенција или дугорочно планирање се не процењују. Штавише, постоји ризик да ће се развити системи посебно оптимизовани за ARC-AGI који ће проћи тест, а да заправо не буду генерално интелигентни.

Како се развијају трошкови вештачке интелигенције (AI) у контексту ARC-AGI?

Развој трошкова открива занимљиве трендове. Док се перформансе повећавају само споро, трошкови за маргинална побољшања нагло расту.

Ова динамика трошкова води до важног увида: ефикасност постаје одлучујући фактор разликовања. Фондација ARC Prize наглашава да није само тачност, већ и цена по решеном проблему кључни критеријум.

Шта ARC-AGI значи за будућност рада?

Резултати имају охрабрујуће импликације за многе професије. Немогућност система вештачке интелигенције да реше основне задатке размишљања показује да људске когнитивне способности нису ни близу замене.

Истовремено, напредак у специјализованим задацима сугерише да ће вештачка интелигенција наставити да служи као алат за подршку људском раду, уместо да га потпуно замени.

Који нови истраживачки приступи произилазе из ARC-AGI?

Референтна вредност је инспирисала неколико иновативних истраживачких праваца:

Синтеза програма

Системи који генеришу програме за решавање проблема.

Неуросимболички приступи

Комбинација неуронских мрежа са симболичким резоновањем.

Вишеагентни системи

Неколико специјализованих агената ради заједно.

Еволуциони алгоритми

Системи који развијају решења кроз еволуцију.

Каква је визија Фондације ARC Prize за будућност?

Фондација тежи јасној мисији: да служи као „Северна звезда“ за развој отворене опште индустријске инфраструктуре (ОПИ). То подразумева не само техничке критеријуме, већ и стварање екосистема који подстиче иновације, истовремено осигуравајући да напредак ОПИ користи целом човечанству.

Континуирани развој нових верзија бенчмаркова има за циљ да осигура да се летвица стално подиже и да истраживање не стагнира. Са ARC-AGI-3 и будућим верзијама, Фондација има за циљ да даље истражи границе онога што вештачка интелигенција може да уради и шта јој још увек недостаје.

Ту смо за вас - Консалтинг - Планирање - Имплементација - Управљање пројектима

☑️ Подршка малим и средњим предузећима у стратегији, консултацијама, планирању и имплементацији

☑️ Креирање или преусмеравање стратегије вештачке интелигенције

☑️ Пионирски развој пословања

Konrad Wolfenstein

Било би ми драго да вам будем лични саветник.

Можете ме контактирати попуњавањем контакт форме испод или ме једноставно позовите на +49 7348 4088 965 .

Радујем се нашем заједничком пројекту.

Пиши ми

➡️ Захтев за видео позив 👩👱

Xpert.Digital - Konrad Wolfenstein

Xpert.Digital је центар за индустрију фокусиран на дигитализацију, машинство, логистику/интралогистику и фотонапонске системе.

Са нашим решењем за развој пословања од 360°, пружамо подршку реномираним компанијама, од нових пословања до постпродајних услуга.

Тржишна интелигенција, маркетиншки маркетинг, маркетиншка аутоматизација, развој садржаја, односи с јавношћу, мејлинг кампање, персонализоване друштвене мреже и неговање потенцијалних клијената су део наших дигиталних алата.

Више информација можете пронаћи на: www.xpert.digital - www.xpert.solar - www.xpert.plus

Останите у контакту

Велико разочарање: Зашто све већи модели вештачке интелигенције не пролазе кључни тест интелигенције

Шта је ARC-AGI бенчмарк и зашто је развијен?

По чему се ARC-AGI разликује од других AI бенчмаркова?

Које су различите верзије ARC-AGI бенчмарка?

ARC-AGI-1

ARC-AGI-2

ARC-AGI-3

Како се различити модели вештачке интелигенције показују у ARC-AGI тестовима?

Која је тајна модела o3 preview?

Како функционише такмичење за награду ARC?

Који су технички изазови ARC-AGI бенчмарка?

Тумачење симбола

Вишестепено композиционо размишљање

Примена правила зависна од контекста

Генерализација из неколико примера

Какву улогу игра обука током тестирања у решавању ARC-AGI?

Безбедност података ЕУ/НЕ | Интеграција независне и међуизворне платформе за вештачку интелигенцију за све пословне потребе

AI мењач правила игре: Најфлексибилнија AI платформа - Решења по мери која смањују трошкове, побољшавају ваше одлуке и повећавају ефикасност

Независна AI платформа: Интегрише све релевантне изворе података компаније

Вештачка интелигенција изван скалирања: Увиди из ARC-AGI теста

Шта резултати значе за развој АГИ?

Шта будућност носи за ARC-AGI бенчмарк?

Које су економске импликације перформанси бенчмарка?

Које су филозофске импликације резултата ARC-AGI?

Како ARC-AGI утиче на правац истраживања вештачке интелигенције?

Какву улогу игра заједница отвореног кода?

Која су ограничења ARC-AGI бенчмарка?

Како се развијају трошкови вештачке интелигенције (AI) у контексту ARC-AGI?

Шта ARC-AGI значи за будућност рада?

Који нови истраживачки приступи произилазе из ARC-AGI?

Синтеза програма

Неуросимболички приступи

Вишеагентни системи

Еволуциони алгоритми

Каква је визија Фондације ARC Prize за будућност?

☑️ Подршка малим и средњим предузећима у стратегији, консултацијама, планирању и имплементацији

☑️ Креирање или преусмеравање стратегије вештачке интелигенције

☑️ Пионирски развој пословања

Остале теме