⭐ Umělá inteligence (AI) -Ai blog, hotspot a obsahový rozbočovač ⭐ Robotika/robotika ⭐ xpaper

Výběr hlasu 📢

Google Gemini 2.0, umělá inteligence a robotika: Robotika Gemini a robotika Gemini

Publikováno dne: 20. března 2025 / Aktualizace od: 20. března 2025 - Autor: Konrad Wolfenstein

Google Gemini 2.0, umělá inteligence a robotika: Robotika gemini a gemini robotics-er-thereative obrázek: xpert.digital

Deepmind představuje Gemini: Další éra robotiky začíná

Robotika Gemini: Transformativní fúze umělé inteligence a robotiky společnosti Google

12. března 2025 představil Google DeepMind svůj nejnovější projekt Gemini Robotics, působivou technologii, která kombinuje výkonný jazykový model Gemini 2.0 s pokročilou robotikou. Tato inovace představuje důležitý milník ve vývoji inteligentních robotických systémů, které dokážou porozumět přirozenému jazyku a provádět složité fyzické úkoly.

Google DeepMind je přední výzkumná společnost pro umělou inteligenci (AI), která byla založena v roce 2010 a převzata společností Google v roce 2014. Zaměřuje se na vývoj pokročilých technologií AI, které se vyznačují neuronovými sítěmi s krátkodobým skladováním a umělou pamětí. DeepMind dosáhl významných průlomů, včetně obrany lidských hráčů ve hře „Go“ a vývoje Alphafoldu, systému předpovídání proteinových struktur. Technologie DeepMind se používají v oblastech, jako je robotika, medicína, energetická účinnost a zpracování jazyka.

Technologické základy robotiky Gemini

Robotika Gemini byla navržena jako progresivní délka vidění modelu modelu (VLA), který staví na již tak výkonném Gemini 2.0. Ústřední inovace je, že systém může nejen zpracovávat digitální data, jako jsou texty, obrázky nebo videa, ale také mohou poprvé provádět fyzické akce v reálném světě.

Tato technologie používá multimodální porozumění Gemini 2.0 a rozšiřuje ji s rozhodující novou modalitou: fyzickými akcemi. To umožňuje robotům překlenout digitální a fyzický svět způsobem, který dosud nebyl možný.

Vhodné pro:

Platforma Google Gemini s Google AI Studio, Google Deep Research s Gemini Advanced a Google DeepMind

Dovednosti funkčnosti a vnímání

Technologický průlom robotiky Gemini spočívá v jeho schopnosti vnímat okolí prostřednictvím kamer, rozpoznat objekty a zachytit jejich prostorové rozměry. Tato informace je poté převedena na 3D svět s přesnými technickými souřadnicemi.

Systém může také:

Porozumět příkazům přirozeného jazyka a implementovat je ve fyzických akcích
Pochopit složité prostorové vztahy mezi objekty
Přizpůsobit se novým, neznámým situacím
Generujte přes různé typy robotů

Dva doplňkové modely: robotika gemini a robotika Gemini

Google DeepMind nejen představil jeden, ale dva specializované modely, které se zabývají různými aspekty AI robotiky.

Blíženci robotika

Hlavní model robotiky Gemini kombinuje dovednosti jazykového zpracování jazyků Gemini 2.0 s fyzickou kontrolou. Umožňuje robotům reagovat na příkazy přirozeného jazyka, porozumět složitým prostředím a provádět adaptivní akce.

Blíženci robotika

Druhý model, Gemini Robotics-er (kde je zkratka pro „ztělesněné uvažování“ nebo „modifikovanou logiku“), se zaměřuje na zlepšené prostorové myšlení. Tato schopnost je zásadní pro roboty, kteří musí působit v dynamickém, třírozměrném prostředí.

Například Gemini Robotics-er může intuitivně rozpoznat, jak lze nejlépe použít objekt. Pokud je modelu zobrazen šálek kávy, může si samostatně vybrat vhodnou rukojeť dvou prstů, která zvedne šálek na rukojeti a vypočítá bezpečný pohyb.

Prokázané dovednosti a praktické aplikace

V působivých demonstračních videích ukazuje Google DeepMind praktické dovednosti nových modelů AI. Robotické systémy mohou provádět řadu složitých úkolů, včetně:

Záhyby origami a papíru
Třídění a organizování objektů na základě slovních pokynů
Přesné poutavé a pohyblivé křehké objekty
Pečlivé vložení brýlí do ETUI
Kostky a manipulovat s malými předměty
Uzavření zipu dohromady
Zabalení kabelů pro sluchátka
Provádění přesných úkolů, jako je basketbal dunking

Je zvláště pozoruhodné, že roboti provádějí tyto úkoly autonomně poté, co obdrželi pouze pokyn. Systém nezávisle detekuje objekty, identifikuje je, odvozuje nezbytné individuální kroky a odpovídajícím způsobem ovládá ramena robota.

Strategická partnerství pro další rozvoj

Za účelem otevření plného potenciálu této technologie spolupracuje Google DeepMind s předními společnostmi z robotického průmyslu:

Apptronik, start-up Texan, který vyvinul humanoidního robota „Apollo“, který je určen pro logistické a výrobní úkoly, jako je zvedání, pohyb a stohování krabic
Boston Dynamics, známá robotická společnost, která byla ironicky koupena společností Google a později se opět prodala
Agility Robotika a agilní roboti jako ostatní partneři pro vývoj a test Gemini Robotics-er

Tato spolupráce ukazuje strategii Google pro implementaci a testování technologie na různých robotických platformách, aby byla zajištěna jejich široká použitelnost.

Vhodné pro:

Google Deep Research s Gemini 2.0 - komplexní analýza pokročilých výzkumných funkcí

Význam pro budoucnost robotiky

Ředitel robotiky v Deepmind, Kanishka Rao, řekl během tiskové konference, jedna z největších výzev v robotice se skládá z toho, že roboti obvykle dobře fungují ve známých scénářích, ale v neznámých situacích selhávají. Robotika Gemini by měla tento problém vyřešit přesně.

Vhodné pro:

Humanoidní kontrola vzoru: Naučte se vstávat s „hostitelskými“ humanoidy-průlom pro roboty v každodenním životě

Integrace velkých jazykových modelů (LLM) do robotického robotiky je součástí rostoucího trendu a Geminiho přístup by mohl být jedním z nejpůsobivějších příkladů tohoto. Jan Liphardt, profesor biologického inženýrství na Stanfordské univerzitě a zakladatel OpenMind, zdůrazňuje, že toto je „jeden z prvních příkladů používání generativních modelů AI a velkých jazyků na pokročilých robotech“ a „opravdu klíčem k rozvoji robotických pomocníků a robotických společníků“.

Generální ředitel NVIDIA Jensen Huang jde ještě dále a naznačuje, že použití generativní AI k poskytování robotů by mohlo být tržním potenciálem několika bilionů amerických dolarů ve velkém měřítku.

Blíženci a robotika: Zlom pro inteligentní systémy?

Navzdory působivému pokroku stále existují výzvy. Ken Goldberg, profesor robotiky na Kalifornské univerzitě v Berkeley, popisuje systémy AI jako „vzrušující vývoj v oblasti robotiky“, ale zdůrazňuje, že „stále je co dělat, než jsou všestranní roboti připraveni k použití v každodenním životě“.

Google plánuje poskytnout další informace o možnostech této technologie kolem nadcházející konference Google I/O. Díky svému mnohaletým zájmem o robotiku a nyní s Gemini jako vhodnou softwarovou součástí by Google mohl otevřít novou kapitolu ve vývoji inteligentních robotů.

Z jazyka k akci: Google stanoví nové standardy v robotice

S robotikou Gemini udělal Google Deepmind důležitý krok k fúzi AI a robotiky. Schopnost porozumět přirozenému jazyku, vnímat složitá prostředí a provádět fyzické akce by mohla revoluci v tom, jak budou roboti v budoucnu používány.

Tato technologie znamená přechod z čistě digitálních aplikací AI na systémy, které mohou mít přímý dopad na fyzický svět. I když to může vyvolat obavy u některých skeptiků AI, hlavním zaměřením Google DeepMind je vývoj adaptivních a užitečných robotických systémů, které dokážou spravovat složité úkoly s menším tréninkem.

V nadcházejících letech ukáže, jak se tato technologie vyvíjí a jaké praktické aplikace najdete v různých oblastech, od průmyslu po každodenní život.

Vhodné pro: