Вибір мови 📢


Google Gemini 2.0, штучний інтелект та робототехніка: Gemini Robotics та Gemini Robotics-ER

Опубліковано: 20 березня 2025 р. / Оновлено: 20 березня 2025 р. – Автор: Konrad Wolfenstein

Google Gemini 2.0, штучний інтелект та робототехніка: Gemini Robotics та Gemini Robotics-ER

Google Gemini 2.0, Штучний інтелект та робототехніка: Gemini Robotics та Gemini Robotics-ER – Креативне зображення: Xpert.Digital

DeepMind представляє Gemini: Початок наступної ери робототехніки

Gemini Robotics: трансформаційне поєднання штучного інтелекту та робототехніки від Google

12 березня 2025 року компанія Google DeepMind представила свій останній проєкт Gemini Robotics – вражаючу технологію, яка поєднує потужну мовну модель Gemini 2.0 з передовою робототехнікою. Ця інновація знаменує собою важливу віху в розвитку інтелектуальних роботизованих систем, здатних розуміти природну мову та виконувати складні фізичні завдання.

Google DeepMind — провідна дослідницька компанія в галузі штучного інтелекту (ШІ), заснована в 2010 році та придбана Google в 2014 році. Вона зосереджена на розробці передових технологій ШІ, що характеризуються нейронними мережами з короткочасним зберіганням даних та штучною пам'яттю. DeepMind досягла значних проривів, включаючи перемогу над гравцями-людьми в грі Го та розробку AlphaFold, системи прогнозування структури білків. Технології DeepMind застосовуються в таких галузях, як робототехніка, медицина, енергоефективність та обробка природної мови.

Технологічні основи Gemini Robotics

Робототехніка Gemini була розроблена як вдосконалена модель Vision-Language-Action (VLA), що базується на вже потужній Gemini 2.0. Ключовим нововведенням є те, що система може не лише обробляти цифрові дані, такі як текст, зображення чи відео, але й вперше виконувати фізичні дії в реальному світі.

Ця технологія використовує можливості мультимодального розуміння Gemini 2.0 та розширює їх, включаючи нову важливу модальність: фізичні дії. Це дозволяє роботам поєднувати цифровий та фізичний світи способом, який раніше був неможливим.

Пов'язано з цим:

Функціональні та перцептивні здібності

Технологічний прорив Gemini Robotics полягає в її здатності сприймати навколишнє середовище за допомогою камер, розпізнавати об'єкти та фіксувати їхні просторові виміри. Ця інформація потім перетворюється на тривимірний світ з точними технічними координатами.

Система також може:

  • Розуміння команд природної мови та перетворення їх на фізичні дії
  • Розуміння складних просторових зв'язків між об'єктами
  • Адаптація до нових, незнайомих ситуацій
  • узагальнення для різних типів роботів

Дві взаємодоповнюючі моделі: Gemini Robotics та Gemini Robotics-ER

Google DeepMind представила не одну, а дві спеціалізовані моделі, які розглядають різні аспекти робототехніки на основі штучного інтелекту.

Робототехніка Gemini

Основна модель Gemini Robotics поєднує можливості обробки мовлення Gemini 2.0 з фізичним керуванням. Вона дозволяє роботам реагувати на команди природної мови, розуміти складні середовища та виконувати адаптивні дії.

Gemini Robotics-ER

Друга модель, Gemini Robotics-ER (де ER розшифровується як «втілене мислення»), зосереджена на покращенні просторового мислення. Ця здатність є критично важливою для роботів, які повинні працювати в динамічних тривимірних середовищах.

Наприклад, Gemini Robotics-ER може інтуїтивно розпізнати найкращий спосіб захоплення об'єкта. Якщо моделі показують кавову чашку, вона може самостійно вибрати відповідний хват двома пальцями, щоб підняти чашку за ручку, та розрахувати безпечну послідовність рухів.

Продемонстровані навички та практичне застосування

У вражаючих демонстраційних відео Google DeepMind демонструє практичні можливості своїх нових моделей штучного інтелекту. Роботизовані системи можуть виконувати широкий спектр складних завдань, зокрема:

  • Складання орігамі та паперу
  • Сортування та впорядкування об'єктів на основі усних інструкцій
  • Точне захоплення та переміщення крихких предметів
  • Обережно покладіть окуляри у футляр
  • Кидання кубиків та маніпулювання дрібними предметами
  • Застібання блискавки разом
  • Змотування кабелів навушників
  • Виконання точних завдань, таких як данки в баскетбольному грі

Особливо примітним є те, що роботи виконують ці завдання автономно, отримавши лише одну інструкцію. Система самостійно розпізнає об'єкти, ідентифікує їх, визначає необхідні окремі кроки та відповідно керує роботами-маніпуляторами.

Стратегічні партнерства для подальшого розвитку

Щоб розкрити весь потенціал цієї технології, Google DeepMind співпрацює з провідними компаніями в галузі робототехніки:

  • Apptronik, техаський стартап, який розробив людиноподібного робота «Аполлон», призначеного для виконання логістичних та виробничих завдань, таких як підйом, переміщення та штабелювання коробок
  • Boston Dynamics, відома компанія з виробництва робототехніки, яку, за іронією долі, колись купила Google, а пізніше знову продала
  • Agility Robotics та Agile Robots як додаткові партнери для розробки та тестування Gemini Robotics-ER

Ця співпраця демонструє стратегію Google щодо впровадження та тестування технології на різних робототехнічних платформах, щоб забезпечити її широке застосування.

Пов'язано з цим:

Значення для майбутнього робототехніки

Директор з робототехніки DeepMind Канішка Рао пояснив під час прес-конференції, що однією з найбільших проблем у робототехніці є те, що роботи зазвичай добре працюють у відомих сценаріях, але зазнають невдачі в невідомих ситуаціях. Gemini Robotics прагне вирішити саме цю проблему.

Пов'язано з цим:

Інтеграція моделей великих мов програмування (LLM) у робототехніку є частиною зростаючої тенденції, і підхід Gemini може бути одним із найвражаючих прикладів цього. Ян Ліпхардт, професор біоінженерії Стенфордського університету та засновник OpenMind, наголошує, що це «один із перших прикладів застосування генеративного штучного інтелекту та моделей великих мов програмування до передових роботів» і може «дійсно стати ключем до розкриття можливостей роботів-вчителів, роботів-помічників та роботів-компаньйонів».

Генеральний директор Nvidia Дженсен Хуанг йде ще далі, припускаючи, що використання генеративного штучного інтелекту для розгортання роботів у великих масштабах може представляти ринковий потенціал у кілька трильйонів доларів США.

Gemini та робототехніка: поворотний момент для інтелектуальних систем?

Незважаючи на вражаючий прогрес, проблеми залишаються. Кен Голдберг, професор робототехніки Каліфорнійського університету в Берклі, описує системи штучного інтелекту як «захопливий розвиток у галузі робототехніки», але застерігає, що «ще багато роботи потрібно виконати, перш ніж роботи загального призначення будуть готові до щоденного використання».

Google планує надати додаткову інформацію про можливості цієї технології приблизно під час майбутньої конференції Google I/O. Завдяки своєму давньому інтересу до робототехніки та теперішньому використанню Gemini як відповідного програмного компонента, Google може відкрити нову главу в розробці інтелектуальних роботів.

Від слів до дій: Google встановлює нові стандарти в робототехніці

Завдяки Gemini Robotics, Google DeepMind зробив значний крок до поєднання штучного інтелекту та робототехніки. Його здатність розуміти природну мову, сприймати складні середовища та виконувати фізичні дії може революціонізувати використання роботів у майбутньому.

Ця технологія знаменує перехід від суто цифрових застосувань штучного інтелекту до систем, які можуть мати прямий вплив на фізичний світ. Хоча це може викликати занепокоєння у деяких скептиків щодо штучного інтелекту, основна увага Google DeepMind зосереджена на розробці адаптивних та корисних роботизованих систем, які можуть виконувати складні завдання з меншим навчанням.

Найближчі роки покажуть, як розвиватиметься ця технологія та яке практичне застосування вона знайде в різних сферах, від промисловості до повсякденного життя.

Пов'язано з цим:

 

Ваш глобальний партнер з маркетингу та розвитку бізнесу

☑️ Наша ділова мова – англійська або німецька

☑️ НОВИНКА: Листування вашою рідною мовою!

 

Цифровий піонер - Konrad Wolfenstein

Konrad Wolfenstein

Я та моя команда раді бути вашим особистим консультантом.

Ви можете зв'язатися зі мною, заповнивши контактну форму тут , або просто зателефонувавши мені за номером +49 89 89 674 804 ( Мюнхен) . Моя адреса електронної пошти: [email protected]

Я з нетерпінням чекаю нашого спільного проєкту.

 

 

☑️ Підтримка МСП у стратегії, консалтингу, плануванні та впровадженні

☑️ Створення або переорієнтація цифрової стратегії та діджиталізації

☑️ Розширення та оптимізація процесів міжнародних продажів

☑️ Глобальні та цифрові торгові платформи B2B

☑️ Розвиток бізнесу Pioneer / Маркетинг / PR / Виставки


⭐️ Штучний інтелект (ШІ) - Блог про ШІ, гаряча точка та центр контенту ⭐️ Робототехніка ⭐️ XPaper