AI бенчмарк на ARC моделите: GPT-5 срещу Grok срещу o3

Предварително издание на Xpert

Онлайн контакт (Konrad Wolfenstein)

Available in 27 languages 📢

Предпочитайте Xpert.Digital в Googleⓘ

Публикувано на: 8 август 2025 г. / Актуализирано на: 8 август 2025 г. – Автор: Konrad Wolfenstein

AI бенчмарк на ARC моделите: GPT-5 срещу Grok срещу o3 – Изображение: Xpert.Digital

Голямото разочарование: Защо все по-големите модели на изкуствен интелект се провалят на решаващия тест за интелигентност

Какво представлява бенчмаркът ARC-AGI и защо е разработен?

Бенчмаркът ARC-AGI е тестова серия за измерване на общия интелект на системите с изкуствен интелект, разработена през 2019 г. от Франсоа Шоле. ARC е съкращение от „Корпус за абстракция и разсъждение за общ изкуствен интелект“. Бенчмаркът е създаден, за да оцени способността на системите с изкуствен интелект да разбират и решават нови задачи, за които не са били изрично обучени.

Разработката на бенчмарка се основава на определението на Шоле за интелигентност от неговия основополагащ труд „Върху мярката за интелигентност“. Той твърди, че истинската интелигентност не се крие в овладяването на специфични задачи, а в ефективността на придобиване на нови умения. Тестът се състои от визуални пъзели с цветни решетки, където системите с изкуствен интелект трябва да идентифицират основните правила за трансформация и да ги приложат към нови примери.

По какво се различава ARC-AGI от другите бенчмаркове за изкуствен интелект?

За разлика от конвенционалните тестове за изкуствен интелект, които често разчитат на предварителни знания или запомнени модели, ARC-AGI се фокусира върху така наречените „основни предварителни знания“ – фундаментални когнитивни умения, като например постоянство на обектите, броене и пространствено мислене. Тези умения обикновено се придобиват от хората около четиригодишна възраст.

Ключовата разлика се състои във факта, че ARC-AGI е специално проектиран да бъде нерешим чрез просто запаметяване или интерполация на данни. Всяка задача в бенчмарка е уникална и е разработена специално за теста, така че не би трябвало да съществуват онлайн примери за нея. Това прави теста устойчив на типичните стратегии на системите с изкуствен интелект, които разчитат на големи набори от данни за обучение.

Какви са различните версии на бенчмарка ARC-AGI?

В момента има три основни версии на бенчмарка:

ARC-AGI-1

Оригиналната версия от 2019 г. се състои от статични визуални пъзели. Хората постигат среден резултат от 95% в тази игра, докато повечето системи с изкуствен интелект отдавна имат резултат под 5%.

ARC-AGI-2

Тази подобрена версия беше пусната през 2025 г. и е специално проектирана да представлява предизвикателство дори за съвременните системи за разсъждение. Докато хората продължават да постигат почти 100% успех, дори усъвършенстваните модели на изкуствен интелект се справят само с 10-20% от задачите.

ARC-AGI-3

Най-новата версия, която все още е в процес на разработка, въвежда интерактивни елементи. Вместо статични пъзели, агентите с изкуствен интелект трябва да се учат чрез изследване, опити и грешки в мрежов свят, подобно на това как хората изследват нови среди.

Как се представят различните модели на изкуствен интелект в тестовете ARC-AGI?

Разликите в производителността между различните модели на изкуствен интелект са значителни:

За ARC-AGI-1, Grok 4 постига приблизително 68%, докато GPT-5 достига 65,7%. Цената на задача е приблизително 1 щатски долар за Grok 4 и 0,51 щатски долара за GPT-5.

В ARC-AGI-2, по-трудният тест, производителността спада драстично: GPT-5 постига само 9,9% при цена от $0,73 на задача, докато Grok 4 (Thinking) се представя по-добре с около 16%, но при значително по-висока цена от $2-4.

Както се очакваше, по-евтините варианти на моделите показват по-слаба производителност: GPT-5 Mini постига 54,3% на AGI-1 и 4,4% на AGI-2, докато GPT-5 Nano достига съответно само 16,5% и 2,5%.

Каква е тайната зад модела o3 preview?

Предварителната версия на OpenAI o3 представлява специален случай. През декември 2024 г. той постигна впечатляващи резултати от 75,7% до 87,5% в ARC-AGI-1, в зависимост от използваната изчислителна мощност. Това беше първият път, когато система с изкуствен интелект надмина границата на човешка производителност от 85%.

Има обаче едно важно ограничение: Публично достъпната версия на o3 се представя значително по-зле от оригиналната предварителна версия. Според ARC Prize, пуснатата o3 постига само 41% (ниска изчислителна мощност) и 53% (средна изчислителна мощност) на ARC-AGI-1, в сравнение със 76-88% на предварителната версия.

OpenAI потвърди, че публикуваният модел има различна, по-малка архитектура и е оптимизиран за чат и продуктови приложения. Това несъответствие повдига въпроси относно действителните му възможности и подчертава важността на критичната оценка на резултатите от бенчмарк тестовете от непубликувани модели.

Как работи конкурсът за наградата ARC?

Наградата ARC е ежегодно състезание с общ награден фонд от над един милион щатски долара, чиято цел е да насърчи напредъка на отворения код към AGI (Активно генерична архитектура). Настоящото състезание за 2025 г. се провежда от 26 март до 3 ноември на платформата Kaggle.

Ценовата структура включва:

Голяма награда (700 000 щатски долара): Отключва се, когато екипът постигне 85% точност на частния набор от данни за оценка
Награда за най-висок резултат (75 000 щатски долара): За отборите с най-високи резултати
Награда за статия (50 000 щатски долара): За най-значими концептуални постижения
Други награди (175 000 щатски долара): Допълнителни категории ще бъдат обявени допълнително

Важно е всички победители да публикуват своите решения като отворен код. Това е в съответствие с мисията на фондация ARC Prize да направи постиженията в областта на ОПИ достъпни за цялата изследователска общност.

Какви са техническите предизвикателства на бенчмарка ARC-AGI?

Задачите в ARC-AGI изискват няколко когнитивни способности, които са очевидни за хората, но изключително трудни за системите с изкуствен интелект:

Тълкуване на символи

Изкуственият интелект трябва да разбира абстрактни символи и да извлича значението им от контекста.

Многоетапно композиционно мислене

Проблемите трябва да бъдат разделени на подстъпки и решени последователно.

Контекстно-зависимо приложение на правила

Едно и също правило може да се наложи да се прилага по различен начин в зависимост от контекста.

Обобщение от няколко примера

Обикновено са налични само 2-3 демонстрационни двойки, от които трябва да се изведе правилото за трансформация.

Каква роля играе обучението по време на тестване при решаването на ARC-AGI?

Обучението по време на тест (TTT) се е доказало като обещаващ подход за подобряване на производителността при ARC-AGI. Този метод динамично настройва параметрите на модела към текущите входни данни по време на извода, вместо да разчита единствено на предварително обучено знание.

Изследователи от MIT са показали, че TTT значително подобрява производителността на езиковите модели в ARC-AGI. Методът позволява на моделите да се адаптират по време на решаване на задачи и да се учат от конкретни примери. Това имитира човешкото поведение при решаване на проблеми, при което прекарваме повече време в трудни задачи.

Сигурност на данните от ЕС/Германия | Интегриране на независима и междуизточникова платформа с изкуствен интелект за всички бизнес нужди

Независимите платформи с изкуствен интелект като стратегическа алтернатива за европейските компании - Изображение: Xpert.Digital

AI Game Changer: Най-гъвкавата AI платформа - Специализирани решения, които намаляват разходите, подобряват вашите решения и повишават ефективността

Независима платформа с изкуствен интелект: Интегрира всички съответни източници на фирмени данни

Бърза интеграция на ИИ: Специализирани ИИ решения за бизнеса за часове или дни, вместо за месеци
Гъвкава инфраструктура: облачна или хостинг във вашия собствен център за данни (Германия, Европа, свободен избор на местоположение)

Максимална сигурност на данните: използването му в адвокатските кантори е неопровержимо доказателство
Разгръщане в широк спектър от корпоративни източници на данни
Избор на собствени или различни модели на изкуствен интелект (Германия, ЕС, САЩ, Китай)

Повече информация тук:

Независими AI платформи срещу хиперскалери: Кое решение е най-подходящото?

Изкуствен интелект отвъд мащабирането: Прозрения от теста ARC-AGI

Какво означават резултатите за развитието на ОИИ?

Резултатите разкриват значителна разлика между човешкия и изкуствения интелект. Докато хората решават ARC-AGI задачи интуитивно, дори най-модерните системи с изкуствен интелект се провалят в основни когнитивни задачи.

Франсоа Шоле твърди, че настоящата парадигма за разработване на изкуствен интелект – обучение на все по-големи модели с повече данни – е достигнала своите граници. Слабите резултати в ARC-AGI, въпреки експоненциалното увеличаване на размера на модела, доказват, според него, че „флуидният интелект не възниква от мащабиране на предварителното обучение“.

Бъдещето може да се крие в нови подходи като адаптация по време на тестване, при която моделите могат да променят собствените си състояния по време на изпълнение, за да се адаптират към нови ситуации.

Какво крие бъдещето за бенчмарка ARC-AGI?

Фондация „ARC Prize“ планира непрекъснато развитие на бенчмарка. ARC-AGI-3, с неговите интерактивни елементи, е планиран за пълно пускане през 2026 г. и ще включва приблизително 100 уникални среди.

Фондацията си е поставила за цел да разработи критерии, които ще служат като „показател“ за развитието на ОБИ. Това включва не само измерване на напредъка, но и насочване на изследванията в посоки, които биха могли да доведат до истински общ интелект.

Какви са икономическите последици от представянето на бенчмарка?

Цената за решаване на ARC-AGI проблеми варира значително между моделите и има пряко влияние върху практическата приложимост.

Докато прости задачи могат да бъдат решени с разходи за API в диапазона на центове, разходите за сложни задачи, свързани с разсъждения, нарастват бързо. Моделът o3, например, може да струва до 1000 долара на задача с висока изчислителна мощност.

Тази структура на разходите показва, че дори и да се постигнат технически пробиви, икономическата осъществимост остава решаващ фактор за широкото приложение на AGI технологиите.

Какви са философските последици от резултатите от ARC-AGI?

Резултатите повдигат фундаментални въпроси относно природата на интелигентността. Сравнителният анализ показва, че има фундаментална разлика между запаметяването на модели и истинското разбиране.

Фактът, че хората решават тези задачи без усилие, докато системите с изкуствен интелект се провалят, предполага, че човешкият интелект функционира качествено различно от настоящите подходи с изкуствен интелект. Това подкрепя аргумента на Шолет, че общият изкуствен интелект (ОИИ) изисква повече от просто по-големи модели и повече данни.

Как ARC-AGI влияе на посоката на изследванията в областта на изкуствения интелект?

Бенчмаркът вече доведе до преосмисляне на изследванията в областта на изкуствения интелект. Вместо да се фокусират единствено върху моделите за мащабиране, водещите лаборатории сега проучват алтернативни подходи, като например изчисления по време на тестване и адаптивни системи.

Тази промяна се отразява и в инвестициите: компаниите все повече инвестират в изследвания за по-ефективно разсъждение и решаване на проблеми, вместо във все по-големи обучителни цикли.

Каква роля играе общността с отворен код?

Фондация „ARC Prize“ подчертава значението на разработването на проекти с отворен код за напредъка на ОБИ. Всички победители в конкурса трябва да направят своите решения публично достъпни.

Тази философия се основава на убеждението, че ОБИ е твърде важна, за да бъде разработвана единствено в затворени лаборатории. Фондацията се вижда като катализатор за съвместна и прозрачна изследователска общност.

Какви са ограниченията на бенчмарка ARC-AGI?

Въпреки важността си, ARC-AGI има и ограничения. Самият Шолет подчертава, че преминаването на теста не е синоним на постигане на AGI. Сравнителният показател измерва само един аспект на интелигентността – способността за решаване на абстрактни проблеми.

Други важни аспекти като креативност, емоционална интелигентност или дългосрочно планиране не се оценяват. Освен това съществува риск да бъдат разработени системи, специално оптимизирани за ARC-AGI, които преминават теста, без всъщност да са интелигентни като цяло.

Как се развиват разходите за модели с изкуствен интелект в контекста на ARC-AGI?

Развитието на разходите разкрива интересни тенденции. Докато производителността се увеличава бавно, разходите за незначителни подобрения растат драстично.

Тази динамика на разходите води до важно прозрение: ефективността се превръща в решаващ диференциращ фактор. Фондация „ARC Prize“ подчертава, че не само точността, но и цената на решен проблем е ключов критерий.

Какво означава ARC-AGI за бъдещето на труда?

Резултатите имат успокояващи последици за много професии. Неспособността на системите с изкуствен интелект да решават основни мисловни задачи показва, че човешките когнитивни способности далеч не са заменени.

В същото време, напредъкът в специализираните задачи предполага, че изкуственият интелект ще продължи да служи като инструмент в подкрепа на човешката работа, вместо да я замени напълно.

Какви нови изследователски подходи произтичат от ARC-AGI?

Бенчмаркът е вдъхновил няколко иновативни изследователски насоки:

Синтез на програми

Системи, които генерират програми за решаване на проблеми.

Невросимволни подходи

Комбинация от невронни мрежи със символно разсъждение.

Многоагентни системи

Няколко специализирани агенти работят заедно.

Еволюционни алгоритми

Системи, които разработват решения чрез еволюция.

Каква е визията на фондация „ARC Prize“ за бъдещето?

Фондацията преследва ясна мисия: да служи като „Северна звезда“ за развитието на отворения общ изкуствен интелект (ОИИ). Това включва не само технически показатели, но и създаването на екосистема, която насърчава иновациите, като същевременно гарантира, че напредъкът на ОИИ е от полза за цялото човечество.

Непрекъснатото разработване на нови версии на бенчмаркове има за цел да гарантира, че летвата постоянно се повишава и изследванията не стагнират. С ARC-AGI-3 и бъдещи версии, фондацията се стреми да проучи допълнително границите на това, което изкуственият интелект може да прави, и какво все още му липсва.

Тук сме за Вас - Консултации - Планиране - Внедряване - Управление на проекти

☑️ Подкрепа за МСП в стратегията, консултирането, планирането и внедряването

☑️ Създаване или пренасочване на стратегията за ИИ

☑️ Pioneer Business Development

Konrad Wolfenstein

С удоволствие бих служел като ваш личен съветник.

Можете да се свържете с мен, като попълните формата за контакт по-долу или просто ми се обадите на +49 89 89 674 804 (Мюнхен) .

Очаквам с нетърпение нашия съвместен проект.

Пиши ми

➡️ Заявка за видеообаждане 👩👱

Xpert.Digital - Konrad Wolfenstein

Xpert.Digital е индустриален център, фокусиран върху дигитализацията, машиностроенето, логистиката/интралогистиката и фотоволтаиката.

С нашето 360° решение за бизнес развитие, ние подкрепяме известни компании от нов бизнес до следпродажбено обслужване.

Пазарно разузнаване, маркетинг, маркетингова автоматизация, разработване на съдържание, PR, имейл кампании, персонализирани социални медии и подхранване на лийдове са част от нашите дигитални инструменти.

Можете да намерите повече информация на: www.xpert.digital - www.xpert.solar - www.xpert.plus

Поддържайте връзка