Змагання ШІ на бенчмарку ARC серед моделей ШІ: GPT-5 проти Grok проти o3
Xpert попередня випуск
Вибір голосу 📢
Опубліковано: 8 серпня 2025 р. / Оновлено: 8 серпня 2025 р. – Автор: Конрад Вольфенштейн
Змагання ШІ на бенчмарку ARC серед моделей ШІ: GPT-5 проти Grok проти o3 – Зображення: Xpert.Digital
Велике розчарування: Чому дедалі більші моделі штучного інтелекту не проходять вирішальний тест на інтелект
Що таке бенчмарк ARC-AGI та чому його було розроблено?
Бенчмарк ARC-AGI — це серія тестів для вимірювання загального інтелекту систем штучного інтелекту, розроблених Франсуа Шолле у 2019 році. ARC розшифровується як «Корпус абстракції та міркування для загального штучного інтелекту». Бенчмарк був створений для оцінки здатності систем штучного інтелекту розуміти та вирішувати нові завдання, для яких вони не були спеціально навчені.
Розробка цього бенчмарку базується на визначенні інтелекту Шолле з його фундаментальної роботи «Про міру інтелекту». Він стверджує, що справжній інтелект полягає не в опануванні конкретних завдань, а в ефективності набуття нових навичок. Тест складається з візуальних головоломок з кольоровими сітками, де системи штучного інтелекту повинні розпізнавати основні правила перетворення та застосовувати їх до нових прикладів.
Чим ARC-AGI відрізняється від інших бенчмарків ШІ?
На відміну від традиційних тестів штучного інтелекту, які часто спираються на попередні знання або запам'ятовані шаблони, ARC-AGI зосереджується на так званих «базових попередніх знаннях» – когнітивних навичках, таких як сприйняття об'єктів, рахунок та просторове розуміння. Ці навички зазвичай набуваються до чотирьох років.
Ключова відмінність полягає в тому, що ARC-AGI спеціально розроблений для розв'язання шляхом чистого запам'ятовування або інтерполяції даних. Кожне завдання в бенчмарку є унікальним і було розроблено спеціально для тесту, тому жодних його прикладів не повинно існувати в Інтернеті. Це робить тест стійким до звичайних стратегій систем штучного інтелекту, заснованих на великих обсягах навчальних даних.
Які існують різні версії бенчмарку ARC-AGI?
Зараз існує три основні версії бенчмарка:
ARC-AGI-1
В оригінальній версії 2019 року, яка складається зі статичних візуальних головоломок, люди досягають в середньому 95%, тоді як більшість систем штучного інтелекту вже давно не мають показника нижче 5%.
ARC-AGI-2
Ця покращена версія, випущена у 2025 році, спеціально розроблена, щоб кинути виклик навіть сучасним системам мислення. Хоча люди продовжують досягати майже 100% продуктивності, навіть передові моделі штучного інтелекту можуть впоратися лише з 10-20% завдань.
ARC-AGI-3
Остання версія, яка все ще перебуває в розробці, впроваджує інтерактивні елементи. Замість статичних головоломок, агенти штучного інтелекту повинні навчатися шляхом дослідження, спроб і помилок у світі сітки, подібно до того, як люди досліджують нові середовища.
Як різні моделі штучного інтелекту показують себе в тестах ARC-AGI?
Різниця в продуктивності між різними моделями штучного інтелекту є суттєвою:
В ARC-AGI-1, Grok 4 досягає приблизно 68%, тоді як GPT-5 — 65,7%. Вартість одного завдання становить приблизно 1 долар США для Grok 4 та 0,51 долара США для GPT-5.
У складнішому тесті ARC-AGI-2 продуктивність різко падає: GPT-5 досягає лише 9,9% при витратах $0,73 на завдання, тоді як Grok 4 (Thinking) показує кращі результати, приблизно 16%, хоча й зі значно вищими витратами у розмірі $2-4.
Як і очікувалося, дешевші варіанти моделей демонструють слабші показники: GPT-5 Mini досягає 54,3% на AGI-1 та 4,4% на AGI-2, тоді як GPT-5 Nano досягає лише 16,5% та 2,5% відповідно.
У чому секрет моделі O3 Preview?
Модель o3-preview від OpenAI є особливим випадком. У грудні 2024 року вона досягла вражаючих 75,7–87,5% на ARC-AGI-1, залежно від використаної обчислювальної потужності. Це був перший випадок, коли система штучного інтелекту перевищила поріг людської продуктивності в 85%.
Однак є одне важливе обмеження: загальнодоступна версія o3 працює значно гірше, ніж оригінальна попередня версія. Згідно з премією ARC Prize, випущена версія o3 досягає лише 41% (низький обчислювальний ресурс) та 53% (середній обчислювальний ресурс) на ARC-AGI-1, порівняно з 76-88% попередньої версії.
OpenAI підтвердив, що опублікована модель має іншу, меншу архітектуру та оптимізована для чат-додатків та продуктових програм. Ця невідповідність ставить під сумнів її фактичні можливості та підкреслює важливість критичного вивчення результатів бенчмарків неопублікованих моделей.
Як працює конкурс премії ARC?
Премія ARC Prize – це щорічний конкурс із загальним призовим фондом понад один мільйон доларів США, спрямований на сприяння розвитку відкритого коду в напрямку ЗШІ. Поточний конкурс 2025 року триватиме з 26 березня по 3 листопада на платформі Kaggle.
Структура ціноутворення включає:
- Головний приз (700 000 доларів США): Розблоковується, коли команда досягає 85% точності на приватному наборі даних для оцінювання.
- Приз за найкращий результат (75 000 доларів США): Для команд з найвищими балами
- Премія за статтю (50 000 доларів США): За найзначніші концептуальні досягнення
- Додаткові призи (175 000 доларів США): додаткові категорії будуть оголошені пізніше.
Важливо, що всі переможці повинні опублікувати свої рішення як проекти з відкритим вихідним кодом. Це відповідає місії Фонду премії ARC, яка полягає в тому, щоб зробити досягнення ЗШІ доступними для всієї дослідницької спільноти.
Які технічні труднощі виникають у бенчмарку ARC-AGI?
Завдання в ARC-AGI вимагають кількох когнітивних навичок, які є природними для людини, але надзвичайно складними для систем штучного інтелекту:
Тлумачення символів
Штучний інтелект повинен розуміти абстрактні символи та виводити їх значення з контексту.
Багаторівневе композиційне мислення
Проблеми необхідно розбити на підетапи та вирішувати їх послідовно.
Контекстно-залежне застосування правил
Одне й те саме правило може потребувати застосування по-різному залежно від контексту.
Узагальнення з кількох прикладів
Зазвичай доступні лише 2-3 демонстраційні пари, з яких потрібно вивести правило перетворення.
Яку роль відіграє навчання під час тестування у вирішенні задач ARC-AGI?
Навчання під час тестування (TTT) виявилося перспективним підходом для покращення продуктивності ARC-AGI. Цей метод динамічно адаптує параметри моделі до поточних вхідних даних під час логічного висновку, а не покладається виключно на попередньо навчені знання.
Дослідники MIT продемонстрували, що TTT значно покращує продуктивність мовних моделей на ARC-AGI. Метод дозволяє моделям адаптуватися під час вирішення завдань та навчатися на конкретних прикладах. Це імітує поведінку людей під час вирішення проблем, коли ми витрачаємо більше часу на складні проблеми.
Безпека даних ЄС/Німеччина | Інтеграція незалежної платформи штучного інтелекту з використанням різних джерел даних для всіх потреб бізнесу
Незалежні платформи штучного інтелекту як стратегічна альтернатива для європейських компаній – Зображення: Xpert.Digital
Ki-Gamechanger: Найбільш гнучка платформа AI – кременовані рішення, що зменшують витрати, покращують свої рішення та підвищують ефективність
Незалежна платформа AI: інтегрує всі відповідні джерела даних компанії
- Швидка інтеграція AI: індивідуальні рішення AI для компаній у години чи дні замість місяців
- Гнучка інфраструктура: хмарна або хостинг у власному центрі обробки даних (Німеччина, Європа, вільний вибір місця розташування)
- Найвища безпека даних: Використання в юридичних фірмах - це безпечні докази
- Використовуйте в широкому спектрі джерел даних компанії
- Вибір власних або різних моделей AI (DE, EU, США, CN)
Детальніше про це тут:
Штучний інтелект поза межами масштабу: висновки з тесту ARC-AGI
Що означають результати для розвитку ЗШІ?
Результати показують явний розрив між людським та штучним інтелектом. Хоча люди вирішують завдання ARC-AGI інтуїтивно, навіть найсучасніші системи штучного інтелекту не справляються з базовими завданнями мислення.
Франсуа Шолле стверджує, що сучасна парадигма розробки штучного інтелекту – навчання дедалі більших моделей з використанням більшої кількості даних – досягла своїх меж. Погані результати ARC-AGI, незважаючи на експоненціальне збільшення розміру моделі, на його думку, доводять, що «флюїдний інтелект не виникає в результаті масштабування попереднього навчання».
Майбутнє може бути за новими підходами, такими як адаптація під час тестування, де моделі можуть змінювати свої стани під час виконання, щоб адаптуватися до нових ситуацій.
Яким виглядає майбутнє бенчмарку ARC-AGI?
Фонд премії ARC планує постійно розвивати бенчмарк. Повний реліз ARC-AGI-3 з його інтерактивними елементами заплановано на 2026 рік, і він включатиме приблизно 100 унікальних середовищ.
Мета Фонду — розробити орієнтири, які слугуватимуть «орієнтиром» для розвитку ЗШІ. Це спрямовано не лише на вимірювання прогресу, але й на спрямування досліджень у напрямках, які можуть призвести до справжнього загального інтелекту.
Які економічні наслідки мають показники бенчмаркінгу?
Вартість вирішення завдань ARC-AGI значно варіюється між моделями та має прямий вплив на практичну застосовність.
Хоча прості завдання можна вирішити з витратами API в межах центів, витрати на складні завдання мислення швидко зростають. Наприклад, модель o3 може коштувати до 1000 доларів за завдання при високій обчислювальній потужності.
Така структура витрат демонструє, що навіть за умови досягнення технічних проривів, економічна доцільність залишається вирішальним фактором для широкого впровадження технологій ЗШІ.
Які філософські наслідки результатів ARC-AGI?
Результати піднімають фундаментальні питання щодо природи інтелекту. Порівняльний аналіз показує, що існує фундаментальна різниця між запам'ятовуванням шаблонів та справжнім розумінням.
Той факт, що люди вирішують ці завдання без зусиль, тоді як системи штучного інтелекту дають збій, свідчить про те, що людський інтелект функціонує якісно інакше, ніж сучасні підходи ШІ. Це підтверджує аргумент Чолле про те, що ЗШІ вимагає більше, ніж просто більших моделей та більшої кількості даних.
Як ARC-AGI впливає на дослідження штучного інтелекту?
Цей бенчмарк вже призвів до переосмислення досліджень у галузі штучного інтелекту. Замість того, щоб зосереджуватися виключно на моделях масштабування, провідні лабораторії зараз досліджують альтернативні підходи, такі як обчислення під час тестування та адаптивні системи.
Цей зсув також відображається в інвестиціях: компанії все частіше інвестують у дослідження, спрямовані на ефективніше мислення та вирішення проблем, замість того, щоб проводити дедалі масштабніші навчальні сесії.
Яку роль відіграє спільнота відкритого коду?
Фонд премії ARC наголошує на важливості розробки з відкритим кодом для розвитку штучного інтелекту (ЗШІ). Усі переможці конкурсу зобов'язані зробити свої рішення загальнодоступними.
Ця філософія ґрунтується на переконанні, що ЗШІ є занадто важливим для розробки виключно в закритих лабораторіях. Фонд розглядає себе як каталізатор спільної та прозорої дослідницької спільноти.
Які обмеження має бенчмарк ARC-AGI?
Незважаючи на свою важливість, ARC-AGI також має обмеження. Сам Шолле наголошує, що успішне проходження тесту не означає досягнення AGI. Цей тест вимірює лише один аспект інтелекту – здатність вирішувати абстрактні проблеми.
Інші важливі аспекти, такі як креативність, емоційний інтелект чи довгострокове планування, не вимірюються. Крім того, існує ризик того, що будуть розроблені системи, спеціально оптимізовані для ARC-AGI, які пройдуть тест, не будучи справді інтелектуальними загалом.
Як розвиваються витрати на моделі штучного інтелекту в контексті ARC-AGI?
Тенденції витрат демонструють цікаві тенденції. Хоча продуктивність зростає лише повільно, витрати на незначні покращення зростають стрімко.
Така динаміка витрат призводить до важливого висновку: ефективність стає ключовим фактором диференціації. Фонд премії ARC наголошує, що важливим критерієм є не лише точність, а й вартість кожного вирішеного завдання.
Що означає ARC-AGI для майбутнього праці?
Результати мають обнадійливі наслідки для багатьох професій. Нездатність систем штучного інтелекту вирішувати основні завдання мислення демонструє, що когнітивні здібності людини далеко не замінимі.
Водночас, прогрес у спеціалізованих завданнях свідчить про те, що штучний інтелект продовжуватиме служити інструментом для підтримки людської праці, а не повністю її замінить.
Які нові дослідницькі підходи з'являються завдяки ARC-AGI?
Цей бенчмарк надихнув на кілька інноваційних напрямків досліджень:
Синтез програми
Системи, що генерують програми для вирішення проблем.
Нейросимволічні підходи
Поєднання нейронних мереж із символічним мисленням.
Багатоагентні системи
Кілька спеціалізованих агентів працюють разом.
Еволюційні алгоритми
Системи, що розробляють рішення еволюційним чином.
Яке бачення Фонду премії ARC на майбутнє?
Фонд має чітку місію: служити «Полярною зіркою» для розвитку відкритого ЗШІ. Йдеться не лише про встановлення технічних орієнтирів, а й про створення екосистеми, яка сприяє інноваціям, водночас забезпечуючи користь прогресу ЗШІ для всього людства.
Постійна розробка нових версій бенчмарків має на меті забезпечити постійне підвищення планки та запобігання стагнації досліджень. За допомогою ARC-AGI-3 та майбутніх версій Фонд прагне глибше дослідити межі можливостей штучного інтелекту та те, чого йому все ще бракує.
Ми там для вас – поради – планування – впровадження – управління проектами
☑ Підтримка МСП у стратегії, порадах, плануванні та впровадженні
☑ Створення або перестановка стратегії AI
☑ Піонерський розвиток бізнесу
Я радий допомогти вам як особистого консультанта.
Ви можете зв’язатися зі мною, заповнивши контактну форму нижче або просто зателефонуйте мені за номером +49 89 674 804 (Мюнхен) .
Я з нетерпінням чекаю нашого спільного проекту.
Xpert.digital – Konrad Wolfenstein
Xpert.digital - це центр для промисловості з фокусом, оцифруванням, машинобудуванням, логістикою/внутрішньологічною та фотоелектричною.
За допомогою нашого рішення щодо розвитку бізнесу на 360 ° ми підтримуємо відомі компанії від нового бізнесу до після продажу.
Ринкова розвідка, маха, автоматизація маркетингу, розвиток контенту, PR, поштові кампанії, персоналізовані соціальні медіа та виховання свинцю є частиною наших цифрових інструментів.
Ви можете знайти більше на: www.xpert.digital – www.xpert.solar – www.xpert.plus