Сравнение моделей ИИ в бенчмарке ARC: GPT-5 против Grok против o3

Konrad Wolfenstein

12 месяцев назад

Сравнение моделей ИИ в бенчмарке ARC: GPT-5 против Grok против o3 – Изображение: Xpert.Digital

Великое разочарование: почему всё более крупные модели ИИ не проходят решающий тест на интеллект

Что представляет собой эталонный тест ARC-AGI и зачем он был разработан?

Тестовый набор ARC-AGI — это серия тестов для измерения общего интеллекта систем искусственного интеллекта, разработанная в 2019 году Франсуа Шолле. ARC расшифровывается как «Корпус абстракции и рассуждений для общего искусственного интеллекта». Этот набор тестов был создан для оценки способности систем ИИ понимать и решать новые задачи, для которых они не были специально обучены.

Разработка эталонного теста основана на определении интеллекта, данном Шолле в его основополагающей работе «О мере интеллекта». Он утверждает, что истинный интеллект заключается не в освоении конкретных задач, а в эффективности приобретения новых навыков. Тест состоит из визуальных головоломок с цветными сетками, где системы искусственного интеллекта должны определить лежащие в их основе правила преобразования и применить их к новым примерам.

Чем ARC-AGI отличается от других тестов производительности ИИ?

В отличие от традиционных тестов искусственного интеллекта, которые часто опираются на предварительные знания или заученные шаблоны, ARC-AGI фокусируется на так называемых «базовых знаниях» — фундаментальных когнитивных навыках, таких как постоянство объекта, счет и пространственное мышление. Эти навыки обычно приобретаются людьми примерно в возрасте четырех лет.

Ключевое отличие заключается в том, что ARC-AGI специально разработан таким образом, чтобы его нельзя было решить простым запоминанием или интерполяцией данных. Каждая задача в бенчмарке уникальна и была разработана специально для этого теста, поэтому в интернете не должно быть примеров подобных задач. Это делает тест устойчивым к типичным стратегиям систем искусственного интеллекта, которые полагаются на большие обучающие наборы данных.

Какие существуют разные версии бенчмарка ARC-AGI?

В настоящее время существует три основные версии этого бенчмарка:

ARC-AGI-1

Оригинальная версия 2019 года представляет собой статичные визуальные головоломки. Люди набирают в этой игре в среднем 95%, в то время как большинство систем искусственного интеллекта уже давно показывают результаты ниже 5%.

ARC-AGI-2

Эта улучшенная версия была выпущена в 2025 году и специально разработана для того, чтобы представлять собой вызов даже для современных систем логического мышления. В то время как люди продолжают добиваться почти 100% успеха, даже продвинутые модели ИИ справляются лишь с 10-20% задач.

ARC-AGI-3

В последней версии, которая всё ещё находится в разработке, вводятся интерактивные элементы. Вместо статичных головоломок, агенты ИИ должны учиться путём исследования и проб и ошибок в сеточном мире, подобно тому, как люди исследуют новые среды.

Как различные модели ИИ показали себя в тестах ARC-AGI?

Различия в производительности между различными моделями ИИ значительны:

Для ARC-AGI-1 Grok 4 достигает примерно 68%, а GPT-5 — 65,7%. Стоимость выполнения одной задачи составляет приблизительно 1 доллар США для Grok 4 и 0,51 доллара США для GPT-5.

В ARC-AGI-2, более сложном тесте, производительность резко падает: GPT-5 достигает лишь 9,9% при стоимости 0,73 доллара за задачу, в то время как Grok 4 (Thinking) показывает лучшие результаты — около 16%, но при значительно более высокой стоимости — 2-4 доллара.

Как и ожидалось, более дешевые варианты моделей демонстрируют более низкую производительность: GPT-5 Mini достигает 54,3% на AGI-1 и 4,4% на AGI-2, в то время как GPT-5 Nano достигает лишь 16,5% и 2,5% соответственно.

В чём секрет модели предварительного просмотра o3?

Предварительная версия модели o3 от OpenAI представляет собой особый случай. В декабре 2024 года она продемонстрировала впечатляющие результаты производительности от 75,7% до 87,5% на ARC-AGI-1 в зависимости от используемой вычислительной мощности. Это был первый случай, когда система искусственного интеллекта превзошла предел производительности человека в 85%.

Однако есть одно важное ограничение: общедоступная версия o3 показывает значительно худшие результаты, чем оригинальная предварительная версия. По данным ARC Prize, выпущенная версия o3 достигает лишь 41% (низкая вычислительная мощность) и 53% (средняя вычислительная мощность) на ARC-AGI-1, по сравнению с 76-88% у предварительной версии.

OpenAI подтвердила, что опубликованная модель имеет другую, меньшую по размеру архитектуру и оптимизирована для чат-приложений и приложений для управления продуктами. Это несоответствие вызывает вопросы о её реальных возможностях и подчеркивает важность критической оценки результатов тестирования неопубликованных моделей.

Как работает конкурс ARC Prize?

Премия ARC Prize — это ежегодный конкурс с общим призовым фондом более миллиона долларов США, цель которого — содействие развитию открытого программного обеспечения в направлении AGI (активно универсальной архитектуры). Текущий конкурс 2025 года проходит с 26 марта по 3 ноября на платформе Kaggle.

Структура ценообразования включает в себя:

Главный приз (700 000 долларов США): разблокируется, когда команда достигнет 85% точности на закрытом оценочном наборе данных
Приз за лучший результат (75 000 долларов США): для команд, набравших наибольшее количество очков
Премия за лучшую научную статью (50 000 долларов США): за наиболее значительные концептуальные достижения
Другие призы (175 000 долларов США): Дополнительные категории будут объявлены позже

Важно, чтобы все победители опубликовали свои решения в открытом доступе. Это соответствует миссии Фонда премии ARC — сделать достижения в области искусственного общего интеллекта доступными для всего исследовательского сообщества.

Какие технические сложности возникают при использовании бенчмарка ARC-AGI?

Задачи в ARC-AGI требуют наличия ряда когнитивных способностей, очевидных для человека, но чрезвычайно сложных для систем искусственного интеллекта:

интерпретация символов

Искусственный интеллект должен понимать абстрактные символы и извлекать их значение из контекста.

Многоэтапное композиционное мышление

Проблемы необходимо разбить на подэтапы и решать последовательно.

Применение правил, зависящее от контекста

Одно и то же правило может применяться по-разному в зависимости от контекста.

Обобщение на основе нескольких примеров

Как правило, доступно всего 2-3 пары примеров, из которых необходимо вывести правило преобразования.

Какова роль обучения в процессе тестирования в решении задачи ARC-AGI?

Метод обучения в тестовом режиме (Test-Time Training, TTT) доказал свою эффективность в повышении производительности ARC-AGI. Этот метод динамически корректирует параметры модели в соответствии с текущими входными данными во время вывода, вместо того чтобы полагаться исключительно на предварительно обученные знания.

Исследователи из MIT показали, что TTT значительно улучшает производительность языковых моделей на ARC-AGI. Этот метод позволяет моделям адаптироваться в процессе решения задач и учиться на конкретных примерах. Это имитирует поведение человека при решении проблем, когда мы тратим больше времени на сложные задачи.

Безопасность данных в ЕС/Германия | Интеграция независимой платформы искусственного интеллекта, объединяющей данные из разных источников, для удовлетворения всех потребностей бизнеса

Независимые платформы искусственного интеллекта как стратегическая альтернатива для европейских компаний - Изображение: Xpert.Digital

Искусственный интеллект меняет правила игры: самая гибкая платформа ИИ — индивидуальные решения, которые снижают затраты, улучшают качество принимаемых решений и повышают эффективность

Независимая платформа искусственного интеллекта: интегрирует все соответствующие источники данных компании

Быстрая интеграция ИИ: индивидуальные решения на основе ИИ для бизнеса, разрабатываемые за считанные часы или дни, а не месяцы
Гибкая инфраструктура: облачные решения или размещение в собственном центре обработки данных (Германия, Европа, свободный выбор местоположения)

Максимальная защита данных: неопровержимое доказательство ее эффективности в юридических фирмах
Развертывание в самых разнообразных корпоративных источниках данных
Выбор собственной или различных моделей ИИ (Германия, ЕС, США, Китай)

Более подробная информация здесь:

Независимые платформы ИИ против крупных провайдеров: какое решение лучше?

Искусственный интеллект вне рамок масштабируемости: выводы из теста ARC-AGI

Что означают полученные результаты для развития искусственного общего интеллекта?

Результаты показывают существенный разрыв между человеческим и искусственным интеллектом. В то время как люди решают задачи ARC-AGI интуитивно, даже самые продвинутые системы ИИ не справляются с базовыми когнитивными задачами.

Франсуа Шолле утверждает, что нынешняя парадигма разработки ИИ — обучение всё более крупных моделей на всё больших объёмах данных — достигла своих пределов. По его мнению, неудовлетворительные результаты на ARC-AGI, несмотря на экспоненциальное увеличение размера модели, доказывают, что «гибкий интеллект не возникает в результате масштабирования предварительного обучения».

В будущем могут появиться новые подходы, такие как адаптация во время тестирования, когда модели могут изменять свои состояния в процессе выполнения, чтобы адаптироваться к новым ситуациям.

Какое будущее ждет бенчмарк ARC-AGI?

Фонд ARC Prize планирует дальнейшее развитие эталонного теста. Полноценный релиз ARC-AGI-3 с интерактивными элементами запланирован на 2026 год, и он будет включать около 100 уникальных сред.

Цель Фонда — разработка критериев, которые будут служить «путеводной звездой» для развития искусственного общего интеллекта. Это включает в себя не только измерение прогресса, но и направление исследований в те направления, которые могут привести к созданию подлинного общего интеллекта.

Каковы экономические последствия показателей эффективности эталонных значений?

Стоимость решения задач ARC-AGI значительно варьируется в зависимости от модели и напрямую влияет на практическое применение.

В то время как простые задачи можно решить с помощью API, стоимость которых составляет всего несколько центов, затраты на сложные задачи, требующие логического мышления, быстро возрастают. Например, модель o3 может стоить до 1000 долларов за задачу при использовании высокопроизводительных вычислительных мощностей.

Данная структура затрат показывает, что даже при достижении технических прорывов экономическая целесообразность остается решающим фактором для широкого применения технологий искусственного общего интеллекта.

Какие философские последствия имеют результаты исследования ARC-AGI?

Полученные результаты поднимают фундаментальные вопросы о природе интеллекта. Тест показывает, что существует принципиальная разница между запоминанием закономерностей и истинным пониманием.

Тот факт, что люди решают эти задачи без усилий, в то время как системы ИИ терпят неудачу, говорит о том, что человеческий интеллект качественно отличается от современных подходов к ИИ. Это подтверждает аргумент Шолле о том, что для создания общего искусственного интеллекта требуется нечто большее, чем просто более крупные модели и больше данных.

Каким образом ARC-AGI влияет на направление исследований в области искусственного интеллекта?

Этот бенчмарк уже привел к переосмыслению исследований в области ИИ. Вместо того чтобы сосредотачиваться исключительно на масштабировании моделей, ведущие лаборатории теперь изучают альтернативные подходы, такие как вычисления во время тестирования и адаптивные системы.

Этот сдвиг отражается и в инвестициях: компании все чаще вкладывают средства в исследования, направленные на повышение эффективности мышления и решения проблем, вместо того чтобы тратить их на все более масштабные программы обучения.

Какова роль сообщества разработчиков открытого программного обеспечения?

Фонд ARC Prize Foundation подчеркивает важность разработки программного обеспечения с открытым исходным кодом для развития искусственного общего интеллекта. Все победители конкурса обязаны сделать свои решения общедоступными.

Эта философия основана на убеждении, что искусственный общий интеллект слишком важен, чтобы его разработка осуществлялась исключительно в закрытых лабораториях. Фонд видит себя катализатором для создания сообщества исследователей, работающих на основе сотрудничества и прозрачности.

Каковы ограничения бенчмарка ARC-AGI?

Несмотря на свою важность, тест ARC-AGI также имеет ограничения. Сам Шолле подчеркивает, что прохождение теста не является синонимом достижения AGI. Этот тест измеряет только один аспект интеллекта — способность решать абстрактные задачи.

Другие важные аспекты, такие как креативность, эмоциональный интеллект или долгосрочное планирование, не оцениваются. Кроме того, существует риск того, что будут разработаны системы, специально оптимизированные для ARC-AGI, которые пройдут тест, но на самом деле не будут обладать общим интеллектом.

Как меняются затраты на модели ИИ в контексте проекта ARC-AGI?

Динамика затрат выявляет интересные тенденции. В то время как производительность повышается лишь медленно, затраты на незначительные улучшения стремительно растут.

Такая динамика затрат приводит к важному выводу: эффективность становится решающим фактором. Фонд премии ARC подчеркивает, что решающим критерием является не только точность, но и стоимость решения одной задачи.

Что означает проект ARC-AGI для будущего рынка труда?

Полученные результаты вселяют оптимизм во многих профессиях. Неспособность систем искусственного интеллекта решать элементарные мыслительные задачи показывает, что человеческие когнитивные способности еще далеки от того, чтобы быть замененными.

В то же время прогресс в решении специализированных задач свидетельствует о том, что ИИ будет и впредь служить инструментом поддержки человеческого труда, а не полностью его заменять.

Какие новые исследовательские подходы вытекают из проекта ARC-AGI?

Данный эталонный показатель послужил толчком для нескольких инновационных направлений исследований:

Синтез программ

Системы, генерирующие программы для решения задач.

Нейросимболические подходы

Сочетание нейронных сетей с символическим мышлением.

Многоагентные системы

Несколько специализированных агентов работают вместе.

Эволюционные алгоритмы

Системы, разрабатывающие решения в процессе эволюции.

Каково видение Фонда премии ARC на будущее?

Фонд преследует четкую миссию: служить «путеводной звездой» для развития открытого искусственного общего интеллекта (AGI). Это включает в себя не только технические критерии, но и создание экосистемы, которая способствует инновациям, обеспечивая при этом, чтобы достижения в области AGI приносили пользу всему человечеству.

Непрерывная разработка новых эталонных версий призвана обеспечить постоянное повышение планки и предотвратить стагнацию исследований. С помощью ARC-AGI-3 и будущих версий Фонд стремится более глубоко изучить пределы возможностей ИИ и то, чего ему еще не хватает.

Мы здесь для вас — Консультации — Планирование — Внедрение — Управление проектами

☑️ Поддержка малых и средних предприятий в области стратегии, консалтинга, планирования и реализации проектов

☑️ Создание или корректировка стратегии в области ИИ

☑️ Развитие новаторского бизнеса

Konrad Wolfenstein

Я с удовольствием стану вашим личным консультантом.

Вы можете связаться со мной, заполнив форму обратной связи ниже, или просто позвонить мне по номеру +49 7348 4088 965 .

Я с нетерпением жду начала нашего совместного проекта.

Напишите мне

➡️ Запрос на видеозвонок 👩👱

Xpert.Digital - Konrad Wolfenstein

Xpert.Digital — это центр для предприятий, специализирующийся на цифровизации, машиностроении, логистике/внутрипроизводственной логистике и фотовольтаике.

С помощью нашего комплексного решения для развития бизнеса мы поддерживаем известные компании на всех этапах, от привлечения новых клиентов до послепродажного обслуживания.

Анализ рынка, маркетинговый маркетинг, автоматизация маркетинга, разработка контента, PR, почтовые рассылки, персонализированные кампании в социальных сетях и работа с потенциальными клиентами — все это входит в число наших цифровых инструментов.

Более подробную информацию можно найти по ссылкам: www.xpert.digital - www.xpert.solar - www.xpert.plus

Поддерживать связь

Великое разочарование: почему всё более крупные модели ИИ не проходят решающий тест на интеллект

Что представляет собой эталонный тест ARC-AGI и зачем он был разработан?

Чем ARC-AGI отличается от других тестов производительности ИИ?

Какие существуют разные версии бенчмарка ARC-AGI?

ARC-AGI-1

ARC-AGI-2

ARC-AGI-3

Как различные модели ИИ показали себя в тестах ARC-AGI?

В чём секрет модели предварительного просмотра o3?

Как работает конкурс ARC Prize?

Какие технические сложности возникают при использовании бенчмарка ARC-AGI?

интерпретация символов

Многоэтапное композиционное мышление

Применение правил, зависящее от контекста

Обобщение на основе нескольких примеров

Какова роль обучения в процессе тестирования в решении задачи ARC-AGI?

Независимая платформа искусственного интеллекта: интегрирует все соответствующие источники данных компании

Искусственный интеллект вне рамок масштабируемости: выводы из теста ARC-AGI

Что означают полученные результаты для развития искусственного общего интеллекта?

Какое будущее ждет бенчмарк ARC-AGI?

Каковы экономические последствия показателей эффективности эталонных значений?

Какие философские последствия имеют результаты исследования ARC-AGI?

Каким образом ARC-AGI влияет на направление исследований в области искусственного интеллекта?

Какова роль сообщества разработчиков открытого программного обеспечения?

Каковы ограничения бенчмарка ARC-AGI?

Как меняются затраты на модели ИИ в контексте проекта ARC-AGI?

Что означает проект ARC-AGI для будущего рынка труда?

Какие новые исследовательские подходы вытекают из проекта ARC-AGI?

Синтез программ

Нейросимболические подходы

Многоагентные системы

Эволюционные алгоритмы

Каково видение Фонда премии ARC на будущее?

☑️ Поддержка малых и средних предприятий в области стратегии, консалтинга, планирования и реализации проектов

☑️ Создание или корректировка стратегии в области ИИ

☑️ Развитие новаторского бизнеса

Другие темы