
Хто є піонерами штучного інтелекту? Комплексний аналіз революції глибокого навчання – Зображення: Xpert.Digital
Забудьте про ChatGPT: стаття Google 2017 року «Увага – це все, що вам потрібно» – справжня причина вибуху штучного інтелекту
Що мається на увазі під ерою глибокого навчання?
Ера глибокого навчання — це період з 2010 року, коли розвиток штучного інтелекту принципово прискорився завдяки кільком технологічним проривам. Ця епоха знаменує собою поворотний момент в історії ШІ, оскільки вперше зібралися необхідні передумови для навчання складних нейронних мереж: достатня обчислювальна потужність, великі набори даних та вдосконалені алгоритми.
Термін «глибоке навчання» стосується багатошарових нейронних мереж, які можуть автоматично витягувати абстрактні ознаки з даних. На відміну від попередніх підходів, ці системи більше не потрібно програмувати вручну для розпізнавання певних ознак; натомість вони вивчають ці закономірності незалежно від навчальних даних.
Підходить для цього:
Чому революція глибокого навчання почалася у 2010 році?
2010 рік став переломним, оскільки в ньому зійшлися три критичні події. По-перше, було випущено базу даних ImageNet, яка містила понад 10 мільйонів маркованих зображень у 1000 категоріях, таким чином вперше забезпечивши достатньо великий набір даних для навчання глибоких нейронних мереж.
По-друге, графічні процесори (GPU) стали достатньо потужними, щоб забезпечити паралельну обробку великих обсягів даних. Платформа CUDA від NVIDIA, представлена у 2007 році, дозволила дослідникам виконувати ресурсоємні обчислення, необхідні для глибокого навчання.
По-третє, алгоритмічні вдосконалення, зокрема використання функції активації ReLU замість традиційних сигмоїдних функцій, значно пришвидшили навчання. Ця конвергенція нарешті дозволила застосувати теоретичні основи 1980-х років на практиці.
Який прорив ознаменував початок революції глибокого навчання?
Вирішальний прорив відбувся 30 вересня 2012 року з перемогою AlexNet у конкурсі ImageNet. Згорткова нейронна мережа, розроблена Алексом Крижевським, Іллею Суцкевером та Джеффрі Хінтоном, досягла рівня помилок у першій п'ятірці на рівні 15,3%, що більш ніж на 10 відсоткових пунктів краще, ніж алгоритм, що посів друге місце.
AlexNet був першим успішним поєднанням глибоких нейронних мереж, великих наборів даних та обчислень на графічних процесорах. Примітно, що навчання проходило лише на двох відеокартах NVIDIA у спальні Крижевського. Цей успіх довів науковій спільноті, що глибоке навчання не лише теоретично цікаве, але й практично перевершує інші.
Успіх AlexNet спричинив каскад розробок. Ще у 2015 році модель SENet з коефіцієнтом помилок 2,25 відсотка навіть перевершила коефіцієнт розпізнавання людиною ImageNet. Це разюче покращення всього за кілька років продемонструвало величезний потенціал технології глибокого навчання.
Яку роль відіграла архітектура Трансформера?
У 2017 році команда Google опублікувала новаторську статтю «Увага — це все, що вам потрібно», в якій було представлено архітектуру Transformer. Ця архітектура революціонізувала обробку природної мови, повністю покладаючись на механізми уваги та усуваючи потребу в рекурентних нейронних мережах.
Особливістю трансформаторів є їхня здатність до паралельної обробки: у той час як попередні моделі мали працювати послідовно, слово за словом, трансформатори можуть обробляти цілі речення одночасно. Механізм самоуваги дозволяє моделі розуміти зв'язки між усіма словами в реченні, незалежно від їхньої позиції.
Архітектура Transformer стала основою для всіх сучасних основних мовних моделей, від BERT та GPT до Gemini. Оригінальна стаття була цитована понад 173 000 разів до 2025 року і вважається однією з найвпливовіших наукових робіт 21 століття.
Чому Google є провідним піонером штучного інтелекту?
Згідно з аналізом, проведеним Epoch AI, Google значно лідирує в цій галузі, маючи 168 «значущих» моделей штучного інтелекту. Це домінування можна пояснити кількома стратегічними рішеннями, прийнятими компанією на ранньому етапі.
Google інвестував значні кошти в дослідження штучного інтелекту ще в 2000-х роках і рано усвідомив потенціал нейронних мереж. Придбання DeepMind у 2014 році принесло компанії додаткову експертизу. Найважливіше те, що випуск фреймворку TensorFlow з відкритим вихідним кодом у 2015 році прискорив розвиток штучного інтелекту в усьому світі.
Внесок Google у архітектуру Transformer був особливо значним. Стаття, опублікована у 2017 році дослідниками Google, заклала основу для сучасного генеративного штучного інтелекту. Спираючись на це, Google розробив BERT (2018), який революціонізував обробку природної мови, а пізніше моделі Gemini.
Тісна інтеграція досліджень та розробки продуктів у Google ще більше сприяла його високій впізнаваності. Моделі штучного інтелекту безпосередньо інтегровані в такі сервіси Google, як пошук, YouTube та Android, що сприяє практичному використанню та, таким чином, відповідає критеріям для «вартих уваги» моделей.
Підходить для цього:
- KI та SEO з Bert - двонаправлені представлення кодера з трансформаторів - модель у галузі обробки природних мов (NLP)
Як розвивалися Microsoft, OpenAI та Meta?
Microsoft посідає друге місце з 43 вартими уваги моделями штучного інтелекту. Компанія скористалася перевагами стратегічного партнерства з OpenAI, в яке Microsoft інвестувала кілька мільярдів доларів. Ця співпраця дозволила Microsoft на ранній стадії інтегрувати моделі GPT у такі продукти, як Bing та Copilot.
OpenAI, з 40 моделями, посідає третє місце, незважаючи на те, що був заснований лише у 2015 році. Розвиток серії GPT, від GPT-1 (2018) до сучасних моделей, таких як GPT-4 та o3, зробив OpenAI провідним розробником моделей великих мов. ChatGPT, випущений у 2022 році, досяг мільйона користувачів протягом п'яти днів, зробивши ШІ відомим для громадськості.
Meta (Facebook) розробила серію LLaMA з 35 моделями як альтернативу пропрієтарним моделям з відкритим кодом. Моделі LLaMA, особливо LLaMA 3 та новіша LLaMA 4, продемонстрували, що моделі з відкритим кодом можуть конкурувати з пропрієтарними рішеннями.
Підходить для цього:
- Станом на вересень 2024 року: Моделі ШІ в цифрах: 15 найкращих моделей великих мов програмування – 149 базових моделей / «фундаментальних моделей» – 51 модель машинного навчання
Що робить модель штучного інтелекту «вартою уваги»?
Epoch AI визначає модель ШІ як «варту уваги», якщо вона відповідає принаймні одному з чотирьох критеріїв. По-перше, вона повинна демонструвати технічне покращення порівняно з визнаним еталоном. По-друге, вона повинна досягти високого рівня цитування понад 1000 цитувань. По-третє, історична актуальність може бути критерієм, навіть якщо модель зараз технічно застаріла. По-четверте, враховується значне практичне використання.
Це визначення зосереджено не лише на технологічному прогресі, але й на фактичному впливі та актуальності в науковій та економічній сферах. Тому модель можна вважати вартою уваги, якщо вона знаходить широке практичне застосування, навіть якщо вона не обов'язково є найтехнологічно розвиненішою.
База даних Epoch AI містить понад 2400 моделей машинного навчання з 1950 року до сьогодні, що робить її найбільшою загальнодоступною колекцією такого роду. Цей комплексний набір даних дозволяє провести обґрунтований аналіз розвитку штучного інтелекту протягом понад 70 років.
Як розвивався штучний інтелект до ери глибокого навчання?
Історія штучного інтелекту до 2010 року характеризувалася циклами оптимізму та розчарування. У 1950-х та 1960-х роках панував великий оптимізм, символом якого став Перцептрон (1957) Френка Розенблатта. Ці ранні нейронні мережі вселяли надії на швидку появу штучного інтелекту.
Перша зима ШІ розпочалася на початку 1970-х років, її поштовхом стала книга Марвіна Мінського та Сеймура Пейперта про межі перцептронів (1969). Звіт Лайтхілла для британського парламенту 1973 року призвів до різкого скорочення фінансування досліджень. Цей період тривав приблизно до 1980 року та значно уповільнив дослідження ШІ.
У 1980-х роках відбулося відродження завдяки експертним системам, таким як MYCIN, медична діагностична система. Водночас, у 1986 році, Джеффрі Хінтон, Девід Румельхарт та Рональд Вільямс розробили алгоритм зворотного поширення, який зробив нейронні мережі придатними для навчання. Ще в 1989 році Янн ЛеКун розробив LeNet, ранню згорткову нейронну мережу для розпізнавання рукописного тексту.
Друга зима штучного інтелекту настала наприкінці 1980-х років, коли високі очікування щодо експертних систем та LISP-машин виявилися невиправданими. Ця фаза тривала до 1990-х років і характеризувалася скептицизмом щодо нейронних мереж.
Які технологічні основи зробили можливим глибоке навчання?
Три вирішальні прориви зробили можливим революцію глибокого навчання. Розробка потужних графічних процесорів була фундаментальною, оскільки вони дозволяли паралельну обробку великих обсягів даних. Платформа CUDA від NVIDIA з 2007 року зробила обчислення на графічних процесорах доступними для машинного навчання.
Другою вимогою були великі, високоякісні набори даних. ImageNet, опублікований Фей-Фей Лі у 2010 році, був першим, хто запропонував набір даних із понад 10 мільйонами позначених зображень. Такий обсяг даних був необхідний для ефективного навчання глибоких нейронних мереж.
Алгоритмічні вдосконалення сформували третій стовп. Використання функції активації ReLU замість сигмоїдних функцій значно пришвидшило навчання. Удосконалені методи оптимізації та методи регуляризації, такі як dropout, допомогли вирішити проблему перенавчання.
Як змінилися обчислювальні витрати на навчання ШІ?
Витрати на навчання моделей штучного інтелекту зросли в геометричній прогресії. Навчання оригінальної моделі Transformer коштувало лише 930 доларів у 2017 році. BERT-Large вже коштував 3300 доларів у 2018 році, тоді як GPT-3 витратив приблизно 4,3 мільйона доларів у 2020 році.
Сучасні моделі досягають ще більших витрат: GPT-4 коштує приблизно 78,4 мільйона доларів, тоді як Gemini Ultra від Google, вартістю приблизно 191,4 мільйона доларів, може бути найдорожчою моделлю, навченою на сьогодні. Ця тенденція відображає зростання складності та розміру моделей.
Згідно з даними Epoch AI, обчислювальна потужність, необхідна для навчання, подвоюється приблизно кожні п'ять місяців. Цей розвиток значно перевищує закон Мура та демонструє швидке масштабування досліджень у галузі штучного інтелекту. Водночас це призводить до концентрації розробки ШІ в руках кількох компаній, які володіють необхідними ресурсами.
Підходить для цього:
Які виклики існують для подальшого розвитку ШІ?
Розробка штучного інтелекту стикається з кількома суттєвими викликами. Моделі міркувань, оптимізовані для складного логічного мислення, можуть досягти своїх меж масштабування вже у 2026 році. Величезні обчислювальні витрати обмежують коло гравців, які можуть брати участь у передових дослідженнях у галузі штучного інтелекту.
Такі технічні проблеми, як галюцинації, коли системи штучного інтелекту генерують неправдиву інформацію, ще не повністю вирішені. Водночас етичні питання виникають через можливість створення оманливо реалістичного контенту, як продемонстровано вірусним зображенням Папи Римського в пуховику, створеним за допомогою штучного інтелекту.
Наявність високоякісних навчальних даних дедалі більше стає вузьким місцем. Багато моделей вже навчені з використанням значної частини доступних даних з Інтернету, що вимагає нових підходів до генерації даних.
Як розвиток штучного інтелекту впливає на суспільство?
Революція глибокого навчання вже має величезний вплив на суспільство. Системи штучного інтелекту використовуються в таких критично важливих сферах, як медична діагностика, фінанси та автономні транспортні засоби. Потенціал для позитивних змін величезний, починаючи від прискорення наукових відкриттів і закінчуючи персоналізацією освіти.
Водночас виникають нові ризики. Здатність створювати реалістичний фальшивий контент загрожує цілісності інформації. Автоматизація може призвести до втрати робочих місць, адже Федеральне міністерство праці очікує, що до 2035 року жодне робоче місце не буде можливим без програмного забезпечення на базі штучного інтелекту.
Концентрація влади ШІ в руках кількох технологічних компаній викликає питання щодо демократичного контролю над цією потужною технологією. Такі експерти, як Джеффрі Хінтон, один з піонерів глибокого навчання, попереджали про потенційні небезпеки майбутніх систем ШІ.
Піонери штучного інтелекту ери глибокого навчання створили технологію, яка має потенціал докорінно змінити людство. Лідерство Google у розробці 168 значущих моделей штучного інтелекту, за яким йдуть Microsoft, OpenAI та Meta, демонструє концентрацію інноваційної сили в руках кількох ключових гравців. Революція глибокого навчання, яка розпочалася у 2010 році та була ініційована такими проривами, як AlexNet та архітектура Transformer, вже змінила наше повсякденне життя і зробить це ще глибше в майбутньому. Завдання полягає у використанні цієї потужної технології на благо людства, одночасно мінімізуючи її ризики.
Підходить для цього:
Ваша трансформація AI, інтеграція AI та експерт з питань індустрії платформ AI
☑ Наша ділова мова - англійська чи німецька
☑ Нове: листування на вашій національній мові!
Я радий бути доступним вам та моїй команді як особистого консультанта.
Ви можете зв’язатися зі мною, заповнивши тут контактну форму або просто зателефонуйте мені за номером +49 89 674 804 (Мюнхен) . Моя електронна адреса: Вольфенштейн ∂ xpert.digital
Я з нетерпінням чекаю нашого спільного проекту.

