Google Gemini 2.0, The Artificial Intelligence and Robotics: Gemini Robotics and Gemini Robotics-ER

Gepubliceerd op: 20 maart 2025 / Bijgewerkt op: 20 maart 2025 – Auteur: Konrad Wolfenstein

Google Gemini 2.0, kunstmatige intelligentie en robotica: Gemini Robotics en Gemini Robotics-ER – Creatieve afbeelding: Xpert.Digital

DeepMind presenteert Gemini: Het volgende tijdperk van robotica begint

Gemini Robotics: Google's baanbrekende combinatie van kunstmatige intelligentie en robotica

Op 12 maart 2025 onthulde Google DeepMind zijn nieuwste project, Gemini Robotics, een indrukwekkende technologie die het krachtige Gemini 2.0-taalmodel combineert met geavanceerde robotica. Deze innovatie markeert een belangrijke mijlpaal in de ontwikkeling van intelligente robotsystemen die natuurlijke taal kunnen begrijpen en complexe fysieke taken kunnen uitvoeren.

Google DeepMind is een toonaangevend onderzoeksbedrijf op het gebied van kunstmatige intelligentie (AI), opgericht in 2010 en overgenomen door Google in 2014. Het richt zich op de ontwikkeling van geavanceerde AI-technologieën, gekenmerkt door neurale netwerken met kortetermijngeheugen en kunstmatig geheugen. DeepMind heeft belangrijke doorbraken bereikt, waaronder het verslaan van menselijke spelers in het spel Go en de ontwikkeling van AlphaFold, een systeem voor het voorspellen van eiwitstructuren. De technologieën van DeepMind worden toegepast in gebieden zoals robotica, geneeskunde, energie-efficiëntie en natuurlijke taalverwerking.

De technologische basis van Gemini Robotics

Gemini Robotics is ontworpen als een geavanceerd Vision-Language-Action (VLA)-model, voortbouwend op de reeds krachtige Gemini 2.0. De belangrijkste innovatie is dat het systeem niet alleen digitale data zoals tekst, afbeeldingen of video's kan verwerken, maar voor het eerst ook fysieke acties in de echte wereld kan uitvoeren.

De technologie maakt gebruik van de multimodale begripsmogelijkheden van Gemini 2.0 en breidt deze uit met een cruciale nieuwe modaliteit: fysieke acties. Hierdoor kunnen de robots de digitale en fysieke wereld met elkaar verbinden op een manier die voorheen onmogelijk was.

Geschikt hiervoor:

Het Gemini -platform van Google met Google AI Studio, Google Deep Research met Gemini Advanced en Google DeepMind

Functionele en perceptuele vaardigheden

De technologische doorbraak van Gemini Robotics schuilt in het vermogen om de omgeving waar te nemen via camera's, objecten te herkennen en hun ruimtelijke afmetingen vast te leggen. Deze informatie wordt vervolgens omgezet in een 3D-wereld met nauwkeurige technische coördinaten.

Het systeem kan ook:

Het begrijpen van commando's in natuurlijke taal en deze vertalen naar fysieke acties
Inzicht in complexe ruimtelijke relaties tussen objecten
Aanpassen aan nieuwe, onbekende situaties
generaliseren over verschillende robottypen

De twee complementaire modellen: Gemini Robotics en Gemini Robotics-ER

Google DeepMind heeft niet één, maar twee gespecialiseerde modellen onthuld die verschillende aspecten van AI in de robotica aanpakken.

Gemini Robotics

Het belangrijkste model van Gemini Robotics combineert de spraakverwerkingsmogelijkheden van Gemini 2.0 met fysieke besturing. Hierdoor kunnen robots reageren op commando's in natuurlijke taal, complexe omgevingen begrijpen en adaptieve acties uitvoeren.

Gemini Robotics-ER

Het tweede model, Gemini Robotics-ER (waarbij ER staat voor "embodied reasoning" of "embodied reasoning"), richt zich op verbeterd ruimtelijk redeneervermogen. Deze vaardigheid is cruciaal voor robots die moeten opereren in dynamische, driedimensionale omgevingen.

Gemini Robotics-ER kan bijvoorbeeld intuïtief de beste manier herkennen om een object vast te pakken. Als het model een koffiekopje te zien krijgt, kan het zelfstandig een geschikte greep met twee vingers selecteren om het kopje aan het handvat op te tillen en een veilige bewegingssequentie berekenen.

Aangetoonde vaardigheden en praktische toepassingen

In indrukwekkende demonstratievideo's laat Google DeepMind de praktische mogelijkheden van zijn nieuwe AI-modellen zien. De robotsystemen kunnen een breed scala aan complexe taken uitvoeren, waaronder:

Origami vouwen en papier
Het sorteren en ordenen van objecten op basis van mondelinge instructies
Nauwkeurig vastpakken en verplaatsen van breekbare objecten
De bril voorzichtig in een brillenkoker plaatsen
Het gooien van dobbelstenen en het manipuleren van kleine voorwerpen
Een rits dichtdoen
Oprollende hoofdtelefoonkabels
Het uitvoeren van precisietaken zoals basketbal dunks

Wat bijzonder opmerkelijk is, is dat de robots deze taken autonoom uitvoeren na slechts één instructie te hebben ontvangen. Het systeem herkent zelfstandig objecten, identificeert ze, leidt de benodigde individuele stappen af en stuurt de robotarmen dienovereenkomstig aan.

Strategische partnerschappen voor verdere ontwikkeling

Om het volledige potentieel van deze technologie te benutten, werkt Google DeepMind samen met toonaangevende bedrijven in de robotica-industrie:

Apptronik, een startup uit Texas, ontwikkelde de humanoïde robot "Apollo", ontworpen voor logistieke en productietaken zoals het tillen, verplaatsen en stapelen van dozen
Boston Dynamics, een bekend robotica-bedrijf dat ironisch genoeg ooit door Google werd overgenomen en later weer werd verkocht
Agility Robotics en Agile Robots zijn extra partners voor de ontwikkeling en het testen van Gemini Robotics-ER

Deze samenwerking illustreert Googles strategie om de technologie op verschillende robotplatformen te implementeren en te testen, om zo de brede toepasbaarheid ervan te garanderen.

Geschikt hiervoor:

Google Deep Research met Gemini 2.0 – Een uitgebreide analyse van geavanceerde onderzoeksfuncties

Betekenis voor de toekomst van de robotica

Kanishka Rao, directeur robotica bij DeepMind, legde tijdens een persconferentie uit dat een van de grootste uitdagingen in de robotica is dat robots doorgaans goed presteren in bekende scenario's, maar falen in onbekende situaties. Gemini Robotics wil precies dit probleem oplossen.

Geschikt hiervoor:

Humanoid Stand-Up Control: Leer op te staan met "Host" Humanoids-de doorbraak voor robots in het dagelijks leven

De integratie van grote taalmodellen (Large Language Models, LLM's) in robotica is onderdeel van een groeiende trend, en de aanpak van Gemini zou wel eens een van de meest indrukwekkende voorbeelden hiervan kunnen zijn. Jan Liphardt, hoogleraar bio-engineering aan de Stanford University en oprichter van OpenMind, benadrukt dat dit "een van de eerste voorbeelden is van het toepassen van generatieve AI en grote taalmodellen op geavanceerde robots" en dat het "echt de sleutel zou kunnen zijn tot het ontsluiten van robotleraren, robothelpers en robotgezellen".

Nvidia-CEO Jensen Huang gaat zelfs nog verder en suggereert dat het gebruik van generatieve AI voor de grootschalige inzet van robots een marktpotentieel van enkele biljoenen Amerikaanse dollars zou kunnen vertegenwoordigen.

Gemini en robotica: een keerpunt voor intelligente systemen?

Ondanks de indrukwekkende vooruitgang blijven er uitdagingen bestaan. Ken Goldberg, hoogleraar robotica aan de Universiteit van Californië, Berkeley, beschrijft AI-systemen als "een spannende ontwikkeling op het gebied van robotica", maar waarschuwt dat "er nog veel werk te verzetten is voordat robots voor algemeen gebruik klaar zijn voor dagelijks gebruik.".

Google is van plan om rond de aanstaande Google I/O-conferentie meer inzicht te geven in de mogelijkheden van deze technologie. Met zijn al lang bestaande interesse in robotica en nu met Gemini als geschikte softwarecomponent, zou Google een nieuw hoofdstuk kunnen openen in de ontwikkeling van intelligente robots.

Van woorden naar daden: Google zet nieuwe standaarden in robotica

Met Gemini Robotics heeft Google DeepMind een belangrijke stap gezet richting de fusie van AI en robotica. Het vermogen van de robot om natuurlijke taal te begrijpen, complexe omgevingen waar te nemen en fysieke handelingen uit te voeren, zou een revolutie teweeg kunnen brengen in de manier waarop robots in de toekomst worden gebruikt.

Deze technologie markeert de overgang van puur digitale AI-toepassingen naar systemen die een directe impact kunnen hebben op de fysieke wereld. Hoewel dit bij sommige AI-sceptici tot bezorgdheid kan leiden, richt Google DeepMind zich primair op de ontwikkeling van adaptieve en nuttige robotsystemen die complexe taken met minder training kunnen uitvoeren.

De komende jaren zullen uitwijzen hoe deze technologie zich ontwikkelt en welke praktische toepassingen ze zal vinden in diverse sectoren, van de industrie tot het dagelijks leven.

Geschikt hiervoor: