⭐️ Kunstig intelligens (AI) - AI-blog, hotspot og indholdshub ⭐️ Robotteknologi ⭐️ XPaper

Available in 27 languages 📢

Google Gemini 2.0, kunstig intelligens og robotteknologi: Gemini Robotics og Gemini Robotics-ER

Udgivet den: 20. marts 2025 / Opdateret den: 20. marts 2025 – Forfatter: Konrad Wolfenstein

Google Gemini 2.0, kunstig intelligens og robotteknologi: Gemini Robotics og Gemini Robotics-ER – Kreativt billede: Xpert.Digital

DeepMind præsenterer Gemini: Den næste æra inden for robotteknologi begynder

Gemini Robotics: Googles transformative fusion af kunstig intelligens og robotteknologi

Den 12. marts 2025 afslørede Google DeepMind sit seneste projekt, Gemini Robotics, en imponerende teknologi, der kombinerer den kraftfulde Gemini 2.0-sprogmodel med avanceret robotteknologi. Denne innovation markerer en betydelig milepæl i udviklingen af intelligente robotsystemer, der er i stand til at forstå naturligt sprog og udføre komplekse fysiske opgaver.

Google DeepMind er en førende virksomhed inden for forskning i kunstig intelligens (AI), grundlagt i 2010 og opkøbt af Google i 2014. Virksomheden fokuserer på at udvikle avancerede AI-teknologier, der er karakteriseret ved neurale netværk med korttidslagring og kunstig hukommelse. DeepMind har opnået betydelige gennembrud, herunder at besejre menneskelige spillere i spillet Go og udvikle AlphaFold, et system til at forudsige proteinstrukturer. DeepMinds teknologier anvendes inden for områder som robotteknologi, medicin, energieffektivitet og behandling af naturligt sprog.

Det teknologiske grundlag for Gemini Robotics

Gemini Robotics blev designet som en avanceret Vision-Language-Action (VLA)-model, der bygger på den allerede kraftfulde Gemini 2.0. Den vigtigste innovation er, at systemet ikke kun kan behandle digitale data såsom tekst, billeder eller videoer, men for første gang også udføre fysiske handlinger i den virkelige verden.

Teknologien udnytter Gemini 2.0's multimodale forståelsesmuligheder og udvider dem til at omfatte en afgørende ny modalitet: fysiske handlinger. Dette gør det muligt for robotterne at bygge bro mellem den digitale og fysiske verden på en måde, der tidligere var umulig.

Relateret til dette:

Googles Gemini-platform med Google AI Studio, Google Deep Research med Gemini Advanced og Google DeepMind

Funktions- og perceptuelle evner

Gemini Robotics' teknologiske gennembrud ligger i deres evne til at opfatte sine omgivelser via kameraer, genkende objekter og indfange deres rumlige dimensioner. Denne information omdannes derefter til en 3D-verden med præcise tekniske koordinater.

Systemet kan også:

Forståelse af kommandoer i naturligt sprog og omsætning af dem til fysiske handlinger
Forståelse af komplekse rumlige relationer mellem objekter
Tilpasning til nye, ukendte situationer
generalisering på tværs af forskellige robottyper

De to komplementære modeller: Gemini Robotics og Gemini Robotics-ER

Google DeepMind har afsløret ikke én, men to specialiserede modeller, der adresserer forskellige aspekter af robotteknologisk AI.

Gemini Robotics

Gemini Robotics-hovedmodellen kombinerer Gemini 2.0's talebehandlingsfunktioner med fysisk kontrol. Den gør det muligt for robotter at reagere på kommandoer fra naturligt sprog, forstå komplekse miljøer og udføre adaptive handlinger.

Gemini Robotics-ER

Den anden model, Gemini Robotics-ER (hvor ER står for "embodied reasoning"), fokuserer på forbedret rumlig ræsonnement. Denne evne er afgørende for robotter, der skal operere i dynamiske, tredimensionelle miljøer.

Gemini Robotics-ER kan for eksempel intuitivt genkende den bedste måde at gribe en genstand på. Hvis modellen får vist en kaffekop, kan den uafhængigt vælge et passende tofingergreb til at løfte koppen i håndtaget og beregne en sikker bevægelsessekvens.

Dokumenterede færdigheder og praktiske anvendelser

I imponerende demonstrationsvideoer viser Google DeepMind de praktiske muligheder i sine nye AI-modeller. Robotsystemerne kan udføre en bred vifte af komplekse opgaver, herunder:

Foldning af origami og papir
Sortering og organisering af objekter baseret på verbale instruktioner
Præcis gribe og flytte skrøbelige genstande
Placer forsigtigt brillerne i et etui
Kaster terninger og manipulerer små genstande
Lukning af lynlås sammen
Viklende hovedtelefonkabler
Udførelse af præcisionsopgaver såsom basketball dunks

Det er særligt bemærkelsesværdigt, at robotterne udfører disse opgaver autonomt efter kun at have modtaget en enkelt instruktion. Systemet genkender selvstændigt objekter, identificerer dem, udleder de nødvendige individuelle trin og styrer robotarmene i overensstemmelse hermed.

Strategiske partnerskaber for videreudvikling

For at udnytte denne teknologis fulde potentiale samarbejder Google DeepMind med førende virksomheder i robotindustrien:

Apptronik, en Texas-baseret startup, der udviklede den humanoide robot "Apollo", designet til logistik- og produktionsopgaver såsom at løfte, flytte og stable kasser
Boston Dynamics, et velkendt robotfirma, der ironisk nok engang blev købt af Google og senere solgt igen
Agility Robotics og Agile Robots som yderligere partnere til udvikling og test af Gemini Robotics-ER

Dette samarbejde demonstrerer Googles strategi med at implementere og teste teknologien på forskellige robotplatforme for at sikre dens brede anvendelighed.

Relateret til dette:

Google Deep Research med Gemini 2.0 – En omfattende analyse af avancerede forskningsfunktioner

Betydning for robotteknologiens fremtid

DeepMinds direktør for robotteknologi, Kanishka Rao, forklarede under en pressekonference, at en af de største udfordringer inden for robotteknologi er, at robotter typisk klarer sig godt i kendte scenarier, men fejler i ukendte situationer. Gemini Robotics sigter mod at løse netop dette problem.

Relateret til dette:

Humanoid stående kontrol: Med “HoST” lærer humanoider at stå op – Gennembruddet for robotter i hverdagen

Integrationen af store sprogmodeller (LLM'er) i robotteknologi er en del af en voksende tendens, og Gemini's tilgang kunne være et af de mest imponerende eksempler på dette. Jan Liphardt, professor i bioingeniørvidenskab ved Stanford University og grundlægger af OpenMind, understreger, at dette er "et af de første eksempler på anvendelse af generativ AI og store sprogmodeller på avancerede robotter" og "virkelig kunne være nøglen til at låse op for robotlærere, robothjælpere og robotledsagere.".

Nvidias administrerende direktør, Jensen Huang, går endnu videre og antyder, at brugen af generativ kunstig intelligens til at implementere robotter i stor skala kan repræsentere et markedspotentiale på flere billioner amerikanske dollars.

Gemini og robotteknologi: Et vendepunkt for intelligente systemer?

Trods de imponerende fremskridt er der fortsat udfordringer. Ken Goldberg, professor i robotteknologi ved University of California, Berkeley, beskriver AI-systemer som "en spændende udvikling inden for robotteknologi", men advarer om, at "der stadig er meget arbejde at gøre, før universalrobotter er klar til daglig brug.".

Google planlægger at give yderligere indsigt i mulighederne ved denne teknologi omkring tidspunktet for den kommende Google I/O-konference. Med sin langvarige interesse for robotteknologi og nu med Gemini som en passende softwarekomponent, kan Google åbne et nyt kapitel i udviklingen af intelligente robotter.

Fra tale til handling: Google sætter nye standarder inden for robotteknologi

Med Gemini Robotics har Google DeepMind taget et vigtigt skridt i retning af en fusion af kunstig intelligens og robotteknologi. Dens evne til at forstå naturligt sprog, opfatte komplekse miljøer og udføre fysiske handlinger kan revolutionere, hvordan robotter bruges i fremtiden.

Denne teknologi markerer overgangen fra rent digitale AI-applikationer til systemer, der kan have en direkte indflydelse på den fysiske verden. Selvom dette kan give anledning til bekymring blandt nogle AI-skeptikere, er Google DeepMinds primære fokus på at udvikle adaptive og nyttige robotsystemer, der kan håndtere komplekse opgaver med mindre træning.

De kommende år vil vise, hvordan denne teknologi udvikler sig, og hvilke praktiske anvendelser den vil finde inden for forskellige områder, fra industri til hverdagsliv.

Relateret til dette:

Din globale marketing- og forretningsudviklingspartner

☑️ Vores forretningssprog er engelsk eller tysk

☑️ NYT: Korrespondance på dit modersmål!

Konrad Wolfenstein

Jeg og mit team er glade for at stå til rådighed for dig som din personlige rådgiver.

Du kan kontakte mig ved at udfylde kontaktformularen her eller blot ringe til mig på +49 89 89 674 804 ( München) . Min e-mailadresse er: [email protected]

Jeg glæder mig til vores fælles projekt.