Publicerad: 20 mars 2025 / UPDATE FrÄn: 20 mars 2025 - Författare: Konrad Wolfenstein
Google Gemini 2.0, The Artificial Intelligence and Robotics: Gemini Robotics and Gemini Robotics-er-Creative Image: Xpert.digital
DeepMind Presents Gemini: The Next Era of Robotics Begins
Gemini Robotics: Googles transformativa sammanslagning av konstgjord intelligens och robotik
Den 12 mars 2025 presenterade Google DeepMind sitt senaste projekt Gemini Robotics, en imponerande teknik som kombinerar den kraftfulla Gemini 2.0 -sprÄkmodellen med avancerad robotik. Denna innovation markerar en viktig milstolpe i utvecklingen av intelligenta robotsystem som kan förstÄ naturligt sprÄk och utföra komplexa fysiska uppgifter.
Google DeepMind Àr ett ledande forskningsföretag för Artificial Intelligence (AI), som grundades 2010 och togs över av Google 2014. Det fokuserar pÄ utvecklingen av avancerad AI-teknik, som kÀnnetecknas av neurala nÀtverk med kortvarig lagring och konstgjord minne. DeepMind har uppnÄtt betydande genombrott, inklusive att försvara mÀnskliga spelare i spelet "Go" och utvecklingen av AlphaFold, ett system för att förutsÀga proteinstrukturer. DeepMinds teknik anvÀnds inom omrÄden som robotik, medicin, energieffektivitet och sprÄkbehandling.
De tekniska grunden för Gemini -robotik
Gemini Robotics designades som en progressiv synlÀngd för modellen (VLA), som bygger pÄ den redan kraftfulla Gemini 2.0. Den centrala innovationen Àr att systemet inte bara kan behandla digitala data som texter, bilder eller videor, utan ocksÄ kan utföra fysiska ÄtgÀrder i den verkliga vÀrlden för första gÄngen.
Tekniken anvÀnder den multimodala förstÄelsen av Gemini 2.0 och utvidgar den med en avgörande ny modalitet: fysiska handlingar. Detta gör det möjligt för robotarna att överbrygga den digitala och fysiska vÀrlden pÄ ett sÀtt som Ànnu inte var möjligt.
LÀmplig för detta:
- Gemini -plattformen frÄn Google med Google AI Studio, Google Deep Research med Gemini Advanced och Google DeepMind
Funktionalitet och uppfattningskompetens
Det tekniska genombrottet av Gemini -robotik ligger i dess förmÄga att uppfatta omgivningen genom kameror, att kÀnna igen föremÄl och fÄnga deras rumsliga dimensioner. Denna information omvandlas sedan till en 3D -vÀrld med exakta tekniska koordinater.
Systemet kan ocksÄ:
- FörstÄ naturliga sprÄkkommandon och implementera det i fysiska ÄtgÀrder
- FörstÄ komplexa rumsliga förhÄllanden mellan objekt
- Anpassa sig till nya, okÀnda situationer
- Generera över olika robottyper
De tvÄ kompletterande modellerna: Gemini Robotics and Gemini Robotics-er
Google DeepMind har inte bara presenterat en, utan tvÄ specialiserade modeller som tar upp olika aspekter av robotik AI.
Gemini robotik
Huvudmodellen Gemini Robotics kombinerar Gemini 2.0: s sprÄkbearbetningsfÀrdigheter med fysisk kontroll. Det gör det möjligt för robotar att reagera pÄ naturligt sprÄkkommandon, förstÄ komplexa miljöer och utföra adaptiva ÄtgÀrder.
Gemini robotik
Den andra modellen, Gemini Robotics-ER (varigenom han stĂ„r för âförkroppsliga resonemangâ eller âmodifierad logikâ), fokuserar pĂ„ förbĂ€ttrat rumsligt tĂ€nkande. Denna förmĂ„ga Ă€r avgörande för robotar som mĂ„ste agera i dynamiska, tre dimensionella miljöer.
Gemini Robotics-er, till exempel, kan intuitivt inse hur ett objekt bÀst kan anvÀndas. Om en kaffekopp visas för modellen kan den sjÀlvstÀndigt vÀlja ett lÀmpligt tvÄfingerhandtag för att lyfta koppen pÄ handtaget och berÀkna en sÀker rörelse.
Demonstrerade fÀrdigheter och praktiska tillÀmpningar
I imponerande demonstrationsvideor visar Google DeepMind de praktiska fÀrdigheterna för de nya AI -modellerna. Robotsystemen kan utföra en mÀngd komplexa uppgifter, inklusive:
- Origami och papper
- Sortering och organisering av objekt baserat pÄ muntliga instruktioner
- Exakt gripande och rörliga brÀckliga föremÄl
- Noggrann insÀttning av glasögon i en etui
- TÀrningar och manipulerar smÄ föremÄl
- StÀnger en blixtlÄs tillsammans
- Inpackning av hörlurarskablar
- Utförande av precisionsuppgifter som basketdunking
Det Àr sÀrskilt anmÀrkningsvÀrt att robotarna utför dessa uppgifter autonomt efter att de bara har fÄtt en instruktion. Systemet upptÀcker oberoende föremÄl, identifierar dem, hÀrleder de nödvÀndiga enskilda stegen och kontrollerar robotarmarna i enlighet dÀrmed.
Strategiska partnerskap för vidareutveckling
För att öppna upp den fulla potentialen för denna teknik arbetar Google DeepMind med ledande företag frÄn robotindustrin:
- AppTronik, en texansk start som har utvecklat humanoidroboten "Apollo", som Àr utformad för logistik och tillverkningsuppgifter som att lyfta, flytta och stapla av lÄdor
- Boston Dynamics, ett vÀlkÀnt robotföretag som ironiskt nog köptes av Google och sÄldes igen senare
- Agility Robotics and Agile Robots som andra partners för utveckling och test av Gemini Robotics-er
Detta samarbete visar Googles strategi för att implementera och testa tekniken pÄ olika robotplattformar för att sÀkerstÀlla deras breda tillÀmpbarhet.
LÀmplig för detta:
Betydelse för robotikens framtid
Direktören för robotik i DeepMind, Kanishka Rao, sade under en presskonferens, en av de största utmaningarna i robotik bestÄr att robotar vanligtvis fungerar bra i kÀnda scenarier, men misslyckas i okÀnda situationer. Gemini -robotik bör lösa exakt detta problem.
LÀmplig för detta:
- Humanoid Standing-Up Control: LÀr dig att stÄ upp med "vÀrd" humanoider-genombrottet för robotar i vardagen
Integrationen av stora sprÄkmodeller (LLM) i roboten Àr en del av en vÀxande trend, och Geminis strategi kan vara ett av de mest imponerande exemplen pÄ detta. Jan Liphardt, professor i bioteknik vid Stanford University och grundare av OpenMind, betonar att detta Àr "ett av de första exemplen pÄ anvÀndningen av generativa AI och stora sprÄkmodeller pÄ avancerade robotar" och "verkligen nyckeln till utvecklingen av robothjÀlpare och robotkamrater" kan vara.
NVIDIA: s VD Jensen Huang gÄr Ànnu lÀngre och indikerar att anvÀndningen av generativ AI för att tillhandahÄlla robotar kan vara en marknadspotential för flera biljoner dollar i stor skala.
Gemini och robotik: En vÀndpunkt för intelligenta system?
Trots de imponerande framstegen finns det fortfarande utmaningar. Ken Goldberg, professor i robotik vid University of California i Berkeley, beskriver AI-systemen som âen spĂ€nnande utveckling inom robotomrĂ„detâ, men pĂ„pekar att âdet finns fortfarande mycket att göra innan robotar Ă€r redo för anvĂ€ndning i vardagenâ.
Google planerar att ge ytterligare insikter om möjligheterna till denna teknik kring den kommande Google I/O -konferensen. Med sina mÄnga Ärs intresse för robotik och nu med Gemini som en lÀmplig mjukvarukomponent, kunde Google öppna ett nytt kapitel i utvecklingen av intelligenta robotar.
FrÄn sprÄk till handling: Google sÀtter nya standarder i robotik
Med Gemini Robotics har Google DeepMind tagit ett viktigt steg mot sammansmÀltningen av AI och robotik. FörmÄgan att förstÄ naturligt sprÄk, uppfatta komplexa miljöer och genomföra fysiska ÄtgÀrder kan revolutionera hur robotar kommer att anvÀndas i framtiden.
Denna teknik markerar övergĂ„ngen frĂ„n rent digitala AI -applikationer till system som kan ha en direkt inverkan pĂ„ den fysiska vĂ€rlden. Ăven om detta kan utlösa problem med vissa AI -skeptiker, Ă€r Google DeepMinds huvudfokus pĂ„ att utveckla adaptiva och anvĂ€ndbara robotsystem som kan hantera komplexa uppgifter med mindre trĂ€ning.
De kommande Ären kommer att visa hur denna teknik utvecklas och vilka praktiska tillÀmpningar du hittar i olika omrÄden, frÄn industri till vardag.
LÀmplig för detta:
Â
Din globala marknadsförings- och affÀrsutvecklingspartner
â VĂ„rt affĂ€rssprĂ„k Ă€r engelska eller tyska
â Nytt: korrespondens pĂ„ ditt nationella sprĂ„k!
Â
Jag Àr glad att vara tillgÀnglig för dig och mitt team som personlig konsult.
Du kan kontakta mig genom att fylla i kontaktformulĂ€ret eller helt enkelt ringa mig pĂ„ +49 89 674 804 (MĂŒnchen) . Min e -postadress Ă€r: Wolfenstein â xpert.digital
Jag ser fram emot vÄrt gemensamma projekt.
Â
Â