Противостояние ИИ-моделей на бенчмарке ARC: GPT-5 против Grok против o3
Предварительная версия Xpert
Выбор голоса 📢
Опубликовано: 8 августа 2025 г. / Обновлено: 8 августа 2025 г. – Автор: Конрад Вольфенштейн
Соревнование ИИ на бенчмарке ARC для моделей ИИ: GPT-5 против Grok против o3 – Изображение: Xpert.Digital
Великое разочарование: почему всё более крупные модели ИИ не проходят важнейший тест на интеллект
Что такое бенчмарк ARC-AGI и для чего он был разработан?
Тест ARC-AGI — это серия тестов для измерения общего интеллекта систем искусственного интеллекта, разработанная Франсуа Шолле в 2019 году. ARC расшифровывается как «Корпус абстракций и рассуждений для искусственного интеллекта общего назначения». Тест был создан для оценки способности систем искусственного интеллекта понимать и решать новые задачи, для которых они не были специально обучены.
Разработка бенчмарка основана на определении интеллекта, данном Шолле из его основополагающей работы «О мере интеллекта». Он утверждает, что истинный интеллект заключается не в мастерском выполнении конкретных задач, а в эффективности приобретения новых навыков. Тест состоит из визуальных головоломок с цветными сетками, где системы искусственного интеллекта должны распознавать базовые правила преобразования и применять их к новым примерам.
Чем ARC-AGI отличается от других тестов ИИ?
В отличие от традиционных тестов ИИ, которые часто опираются на априорные знания или заученные шаблоны, ARC-AGI фокусируется на так называемых «базовых априорных знаниях» – базовых когнитивных навыках, таких как восприятие постоянства объектов, счёт и пространственное восприятие. Эти навыки обычно приобретаются к четырём годам.
Ключевое отличие заключается в том, что ARC-AGI специально разработан для решения методом чистого запоминания или интерполяции данных. Каждая задача в бенчмарке уникальна и разработана специально для данного теста, поэтому в интернете не должно быть примеров её решения. Это делает тест устойчивым к обычным стратегиям систем искусственного интеллекта, основанным на больших объёмах обучающих данных.
Какие существуют версии бенчмарка ARC-AGI?
В настоящее время существуют три основные версии бенчмарка:
АРК-АГИ-1
В оригинальной версии 2019 года, состоящей из статичных визуальных головоломок, средний показатель для людей составил 95%, тогда как для большинства систем искусственного интеллекта этот показатель уже давно ниже 5%.
АРК-АГИ-2
Эта улучшенная версия, выпущенная в 2025 году, специально разработана для того, чтобы бросить вызов даже современным системам рассуждений. В то время как люди продолжают достигать практически 100% производительности, даже продвинутые модели ИИ способны справиться лишь с 10–20% задач.
АРК-АГИ-3
В последней версии, которая всё ещё находится в разработке, представлены интерактивные элементы. Вместо статичных головоломок ИИ-агенты должны обучаться, исследуя мир методом проб и ошибок, подобно тому, как люди исследуют новые среды.
Как различные модели ИИ показывают себя в тестах ARC-AGI?
Различия в производительности между различными моделями ИИ значительны:
На ARC-AGI-1 Grok 4 достигает примерно 68%, а GPT-5 — 65,7%. Стоимость выполнения задачи составляет примерно 1 доллар США для Grok 4 и 0,51 доллара США для GPT-5.
На более сложном тесте ARC-AGI-2 производительность резко падает: GPT-5 достигает всего 9,9% при стоимости задания в 0,73 доллара, тогда как Grok 4 (мышление) показывает лучшие результаты — около 16%, хотя и при значительно более высокой стоимости в 2–4 доллара.
Как и ожидалось, более дешевые варианты моделей демонстрируют более слабую производительность: GPT-5 Mini достигает 54,3% на AGI-1 и 4,4% на AGI-2, тогда как GPT-5 Nano достигает лишь 16,5% и 2,5% соответственно.
В чем секрет предварительной модели o3?
Модель o3-preview от OpenAI представляет собой особый случай. В декабре 2024 года она достигла впечатляющих результатов от 75,7% до 87,5% на ARC-AGI-1 в зависимости от используемой вычислительной мощности. Это был первый случай, когда система ИИ превзошла человеческий порог производительности в 85%.
Однако есть одно важное ограничение: общедоступная версия o3 значительно хуже, чем исходная предварительная версия. Согласно данным ARC Prize, выпущенная версия o3 достигает лишь 41% (низкая вычислительная мощность) и 53% (средняя вычислительная мощность) на ARC-AGI-1, по сравнению с 76–88% предварительной версии.
OpenAI подтвердила, что опубликованная модель имеет другую, более компактную архитектуру и оптимизирована для чатов и продуктовых приложений. Это расхождение ставит под сомнение её реальные возможности и подчёркивает важность критического анализа результатов тестов, полученных на неопубликованных моделях.
Как работает конкурс на премию ARC?
Премия ARC — это ежегодный конкурс с общим призовым фондом более миллиона долларов США, направленный на содействие развитию открытого исходного кода в области искусственного интеллекта (ИИИ). Конкурс 2025 года проходит с 26 марта по 3 ноября на платформе Kaggle.
Структура ценообразования включает в себя:
- Главный приз (700 000 долларов США): открывается, когда команда достигает 85% точности в закрытом наборе данных оценки.
- Приз за лучший результат (75 000 долларов США): для команд, набравших наибольшее количество очков
- Премия за доклад (50 000 долларов США): за наиболее значительные концептуальные достижения
- Дополнительные призы (175 000 долларов США): дополнительные категории будут объявлены дополнительно.
Важно отметить, что все победители должны опубликовать свои решения с открытым исходным кодом. Это соответствует миссии Фонда премии ARC Prize Foundation — сделать достижения в области искусственного интеллекта доступными для всего исследовательского сообщества.
Какие технические сложности возникают при использовании бенчмарка ARC-AGI?
Задачи в ARC-AGI требуют нескольких когнитивных навыков, которые естественны для людей, но чрезвычайно сложны для систем ИИ:
Интерпретация символов
ИИ должен понимать абстрактные символы и выводить их значение из контекста.
Многоуровневое композиционное мышление
Проблемы необходимо разбить на подшаги и решать их последовательно.
Применение правил, зависящих от контекста
Одно и то же правило может требовать разного применения в зависимости от контекста.
Обобщение на основе нескольких примеров
Обычно доступны только 2–3 демонстрационные пары, из которых необходимо вывести правило преобразования.
Какую роль играет обучение во время тестирования в решении ARC-AGI?
Тестовое обучение (TTT) оказалось перспективным подходом к повышению производительности ARC-AGI. Этот метод динамически адаптирует параметры модели к текущим входным данным во время вывода, а не полагается исключительно на предварительно обученные знания.
Исследователи Массачусетского технологического института продемонстрировали, что TTT значительно повышает производительность языковых моделей в ARC-AGI. Метод позволяет моделям адаптироваться в процессе решения задач и обучаться на конкретных примерах. Это имитирует поведение человека при решении задач, когда мы уделяем больше времени решению сложных задач.
Безопасность данных в ЕС и Германии | Интеграция независимой и кросс-источниковой платформы ИИ для всех бизнес-потребностей
Независимые платформы ИИ как стратегическая альтернатива для европейских компаний – Изображение: Xpert.Digital
Ki-GameChanger: наиболее гибкая платформа AI – специальные решения, которые снижают затраты, улучшают свои решения и повышают эффективность
Независимая платформа искусственного интеллекта: интегрирует все соответствующие источники данных компании
- Быстрая интеграция AI: специально разработанные решения для ИИ для компаний в течение нескольких часов или дней вместо месяцев
- Гибкая инфраструктура: облачный или хостинг в вашем собственном центре обработки данных (Германия, Европа, свободный выбор местоположения)
- Самая высокая безопасность данных: использование в юридических фирмах является безопасным доказательством
- Используйте в широком спектре источников данных компании
- Выбор ваших собственных или различных моделей искусственного интеллекта (DE, EU, USA, CN)
Подробнее об этом здесь:
Искусственный интеллект за пределами масштаба: выводы из теста ARC-AGI
Что означают полученные результаты для развития ОИИ?
Результаты демонстрируют явный разрыв между человеческим и искусственным интеллектом. В то время как люди решают задачи ARC-AGI интуитивно, даже самые современные системы искусственного интеллекта не справляются с базовыми задачами рассуждения.
Франсуа Шолле утверждает, что текущая парадигма развития ИИ – обучение всё более крупных моделей на всё большем объёме данных – достигла своего предела. Неудовлетворительные результаты ARC-AGI, несмотря на экспоненциальный рост размера модели, доказывают, по его мнению, что «подвижный интеллект не возникает из-за масштабирования предварительного обучения».
Будущее может быть за новыми подходами, такими как адаптация во время тестирования, когда модели могут изменять свои состояния во время выполнения, чтобы адаптироваться к новым ситуациям.
Каково будущее бенчмарка ARC-AGI?
Фонд премии ARC Prize планирует постоянно развивать этот бенчмарк. Полная версия ARC-AGI-3 с интерактивными элементами запланирована на 2026 год и будет включать около 100 уникальных сред.
Цель Фонда — разработать ориентиры, которые станут «путеводной звездой» для развития искусственного интеллекта. Это позволит не только измерять прогресс, но и направлять исследования в направлениях, которые могут привести к созданию настоящего всеобщего интеллекта.
Каковы экономические последствия эталонных показателей?
Стоимость решения задач ARC-AGI существенно различается в зависимости от модели и напрямую влияет на практическую применимость.
В то время как простые задачи можно решить с API-затратами порядка нескольких центов, затраты на сложные задачи логического мышления быстро растут. Например, модель o3 может стоить до 1000 долларов за задачу при высокой вычислительной мощности.
Такая структура затрат показывает, что даже если будут достигнуты технические прорывы, экономическая целесообразность останется решающим фактором для широкого внедрения технологий AGI.
Каковы философские последствия результатов ARC-AGI?
Результаты поднимают фундаментальные вопросы о природе интеллекта. Сравнительный тест показывает, что существует фундаментальная разница между запоминанием образов и истинным пониманием.
Тот факт, что люди без труда справляются с этими задачами, в то время как системы искусственного интеллекта терпят неудачу, говорит о том, что человеческий интеллект функционирует качественно иначе, чем существующие подходы к искусственному интеллекту. Это подтверждает аргумент Шолле о том, что для создания искусственного интеллекта требуется нечто большее, чем просто более крупные модели и больше данных.
Как ARC-AGI влияет на исследования в области ИИ?
Этот бенчмарк уже привёл к переосмыслению исследований в области ИИ. Вместо того чтобы сосредоточиться исключительно на масштабировании моделей, ведущие лаборатории теперь изучают альтернативные подходы, такие как вычисления во время тестирования и адаптивные системы.
Этот сдвиг также отражается в инвестициях: компании все больше вкладывают средства в исследования в области более эффективного мышления и решения проблем, а не в постоянно увеличивающиеся объемы обучения.
Какую роль играет сообщество разработчиков ПО с открытым исходным кодом?
Фонд премии ARC подчёркивает важность разработки ПО с открытым исходным кодом для развития искусственного интеллекта (ИИ). Все победители конкурса обязаны сделать свои решения общедоступными.
Эта философия основана на убеждении, что искусственный интеллект слишком важен, чтобы разрабатывать его исключительно в закрытых лабораториях. Фонд видит себя катализатором создания совместного и прозрачного исследовательского сообщества.
Каковы ограничения бенчмарка ARC-AGI?
Несмотря на свою важность, ARC-AGI имеет и ограничения. Сам Шолле подчёркивает, что прохождение теста не равнозначно достижению AGI. Тест измеряет лишь один аспект интеллекта – способность решать абстрактные задачи.
Другие важные аспекты, такие как креативность, эмоциональный интеллект и долгосрочное планирование, не оцениваются. Более того, существует риск того, что системы, специально оптимизированные для ARC-AGI, пройдут тест, не будучи по-настоящему интеллектуальными в целом.
Как развиваются затраты на модели ИИ в контексте ARC-AGI?
Динамика затрат демонстрирует интересные тенденции. Производительность растёт медленно, а затраты на незначительные улучшения стремительно растут.
Эта динамика затрат приводит к важному выводу: эффективность становится ключевым фактором. Фонд премии ARC подчёркивает, что важным критерием является не только точность, но и стоимость решения каждой задачи.
Что означает ARC-AGI для будущего труда?
Результаты имеют обнадеживающие последствия для многих профессий. Неспособность систем искусственного интеллекта решать базовые задачи логического мышления показывает, что человеческие когнитивные способности ещё далеки от замещения.
В то же время прогресс в решении специализированных задач позволяет предположить, что ИИ продолжит служить инструментом поддержки человеческой работы, а не заменит ее полностью.
Какие новые исследовательские подходы появляются благодаря ARC-AGI?
Этот бенчмарк вдохновил несколько инновационных направлений исследований:
Синтез программ
Системы, генерирующие программы для решения проблем.
Нейросимволические подходы
Сочетание нейронных сетей с символическим мышлением.
Многоагентные системы
Несколько специализированных агентов работают вместе.
Эволюционные алгоритмы
Системы, разрабатывающие решения эволюционным образом.
Каково видение будущего Фонда премии ARC?
У Фонда есть чёткая миссия: служить «путеводной звездой» для развития открытого искусственного интеллекта. Речь идёт не только о задании технических ориентиров, но и о создании экосистемы, способствующей инновациям и гарантирующей, что достижения в области искусственного интеллекта принесут пользу всему человечеству.
Постоянная разработка новых версий бенчмарков призвана обеспечить постоянное повышение планки и не допустить стагнации исследований. С помощью ARC-AGI-3 и последующих версий Фонд намерен глубже изучить пределы возможностей ИИ и его недостающие возможности.
Мы здесь для вас – Консультация – Планирование – Внедрение – Управление проектами
☑️ Поддержка МСП в разработке стратегии, консультировании, планировании и реализации.
☑ Создание или перестройка стратегии ИИ
☑️ Пионерское развитие бизнеса
Буду рад стать вашим личным консультантом.
Вы можете связаться со мной, заполнив контактную форму ниже, или просто позвонить мне по телефону +49 89 89 674 804 (Мюнхен) .
Я с нетерпением жду нашего совместного проекта.
Xpert.digital – Конрад Вольфенштейн
Xpert.Digital — это промышленный центр с упором на цифровизацию, машиностроение, логистику/внутреннюю логистику и фотоэлектрическую энергетику.
С помощью нашего решения для развития бизнеса на 360° мы поддерживаем известные компании, начиная с нового бизнеса и заканчивая послепродажным обслуживанием.
Аналитика рынка, маркетинг, автоматизация маркетинга, разработка контента, PR, почтовые кампании, персонализированные социальные сети и привлечение потенциальных клиентов являются частью наших цифровых инструментов.
Вы можете найти больше по адресу: www.xpert.digital – www.xpert.solar – www.xpert.plus