⭐ Artificial Intelligence (AI) -AI-blogg, hotspot och innehållsnav ⭐ Robotik/robotik ⭐ Xpaper

Röstval 📢

Google Gemini 2.0, The Artificial Intelligence and Robotics: Gemini Robotics and Gemini Robotics-er

Publicerad: 20 mars 2025 / UPDATE Från: 20 mars 2025 - Författare: Konrad Wolfenstein

Google Gemini 2.0, The Artificial Intelligence and Robotics: Gemini Robotics and Gemini Robotics-er-Creative Image: Xpert.digital

DeepMind Presents Gemini: The Next Era of Robotics Begins

Gemini Robotics: Googles transformativa sammanslagning av konstgjord intelligens och robotik

Den 12 mars 2025 presenterade Google DeepMind sitt senaste projekt Gemini Robotics, en imponerande teknik som kombinerar den kraftfulla Gemini 2.0 -språkmodellen med avancerad robotik. Denna innovation markerar en viktig milstolpe i utvecklingen av intelligenta robotsystem som kan förstå naturligt språk och utföra komplexa fysiska uppgifter.

Google DeepMind är ett ledande forskningsföretag för Artificial Intelligence (AI), som grundades 2010 och togs över av Google 2014. Det fokuserar på utvecklingen av avancerad AI-teknik, som kännetecknas av neurala nätverk med kortvarig lagring och konstgjord minne. DeepMind har uppnått betydande genombrott, inklusive att försvara mänskliga spelare i spelet "Go" och utvecklingen av AlphaFold, ett system för att förutsäga proteinstrukturer. DeepMinds teknik används inom områden som robotik, medicin, energieffektivitet och språkbehandling.

De tekniska grunden för Gemini -robotik

Gemini Robotics designades som en progressiv synlängd för modellen (VLA), som bygger på den redan kraftfulla Gemini 2.0. Den centrala innovationen är att systemet inte bara kan behandla digitala data som texter, bilder eller videor, utan också kan utföra fysiska åtgärder i den verkliga världen för första gången.

Tekniken använder den multimodala förståelsen av Gemini 2.0 och utvidgar den med en avgörande ny modalitet: fysiska handlingar. Detta gör det möjligt för robotarna att överbrygga den digitala och fysiska världen på ett sätt som ännu inte var möjligt.

Lämplig för detta:

Gemini -plattformen från Google med Google AI Studio, Google Deep Research med Gemini Advanced och Google DeepMind

Funktionalitet och uppfattningskompetens

Det tekniska genombrottet av Gemini -robotik ligger i dess förmåga att uppfatta omgivningen genom kameror, att känna igen föremål och fånga deras rumsliga dimensioner. Denna information omvandlas sedan till en 3D -värld med exakta tekniska koordinater.

Systemet kan också:

Förstå naturliga språkkommandon och implementera det i fysiska åtgärder
Förstå komplexa rumsliga förhållanden mellan objekt
Anpassa sig till nya, okända situationer
Generera över olika robottyper

De två kompletterande modellerna: Gemini Robotics and Gemini Robotics-er

Google DeepMind har inte bara presenterat en, utan två specialiserade modeller som tar upp olika aspekter av robotik AI.

Gemini robotik

Huvudmodellen Gemini Robotics kombinerar Gemini 2.0: s språkbearbetningsfärdigheter med fysisk kontroll. Det gör det möjligt för robotar att reagera på naturligt språkkommandon, förstå komplexa miljöer och utföra adaptiva åtgärder.

Gemini robotik

Den andra modellen, Gemini Robotics-ER (varigenom han står för ”förkroppsliga resonemang” eller ”modifierad logik”), fokuserar på förbättrat rumsligt tänkande. Denna förmåga är avgörande för robotar som måste agera i dynamiska, tre dimensionella miljöer.

Gemini Robotics-er, till exempel, kan intuitivt inse hur ett objekt bäst kan användas. Om en kaffekopp visas för modellen kan den självständigt välja ett lämpligt tvåfingerhandtag för att lyfta koppen på handtaget och beräkna en säker rörelse.

Demonstrerade färdigheter och praktiska tillämpningar

I imponerande demonstrationsvideor visar Google DeepMind de praktiska färdigheterna för de nya AI -modellerna. Robotsystemen kan utföra en mängd komplexa uppgifter, inklusive:

Origami och papper
Sortering och organisering av objekt baserat på muntliga instruktioner
Exakt gripande och rörliga bräckliga föremål
Noggrann insättning av glasögon i en etui
Tärningar och manipulerar små föremål
Stänger en blixtlås tillsammans
Inpackning av hörlurarskablar
Utförande av precisionsuppgifter som basketdunking

Det är särskilt anmärkningsvärt att robotarna utför dessa uppgifter autonomt efter att de bara har fått en instruktion. Systemet upptäcker oberoende föremål, identifierar dem, härleder de nödvändiga enskilda stegen och kontrollerar robotarmarna i enlighet därmed.

Strategiska partnerskap för vidareutveckling

För att öppna upp den fulla potentialen för denna teknik arbetar Google DeepMind med ledande företag från robotindustrin:

AppTronik, en texansk start som har utvecklat humanoidroboten "Apollo", som är utformad för logistik och tillverkningsuppgifter som att lyfta, flytta och stapla av lådor
Boston Dynamics, ett välkänt robotföretag som ironiskt nog köptes av Google och såldes igen senare
Agility Robotics and Agile Robots som andra partners för utveckling och test av Gemini Robotics-er

Detta samarbete visar Googles strategi för att implementera och testa tekniken på olika robotplattformar för att säkerställa deras breda tillämpbarhet.

Lämplig för detta:

Google Deep Research med Gemini 2.0 - En omfattande analys av avancerade forskningsfunktioner

Betydelse för robotikens framtid

Direktören för robotik i DeepMind, Kanishka Rao, sade under en presskonferens, en av de största utmaningarna i robotik består att robotar vanligtvis fungerar bra i kända scenarier, men misslyckas i okända situationer. Gemini -robotik bör lösa exakt detta problem.

Lämplig för detta:

Humanoid Standing-Up Control: Lär dig att stå upp med "värd" humanoider-genombrottet för robotar i vardagen

Integrationen av stora språkmodeller (LLM) i roboten är en del av en växande trend, och Geminis strategi kan vara ett av de mest imponerande exemplen på detta. Jan Liphardt, professor i bioteknik vid Stanford University och grundare av OpenMind, betonar att detta är "ett av de första exemplen på användningen av generativa AI och stora språkmodeller på avancerade robotar" och "verkligen nyckeln till utvecklingen av robothjälpare och robotkamrater" kan vara.

NVIDIA: s VD Jensen Huang går ännu längre och indikerar att användningen av generativ AI för att tillhandahålla robotar kan vara en marknadspotential för flera biljoner dollar i stor skala.

Gemini och robotik: En vändpunkt för intelligenta system?

Trots de imponerande framstegen finns det fortfarande utmaningar. Ken Goldberg, professor i robotik vid University of California i Berkeley, beskriver AI-systemen som ”en spännande utveckling inom robotområdet”, men påpekar att ”det finns fortfarande mycket att göra innan robotar är redo för användning i vardagen”.

Google planerar att ge ytterligare insikter om möjligheterna till denna teknik kring den kommande Google I/O -konferensen. Med sina många års intresse för robotik och nu med Gemini som en lämplig mjukvarukomponent, kunde Google öppna ett nytt kapitel i utvecklingen av intelligenta robotar.

Från språk till handling: Google sätter nya standarder i robotik

Med Gemini Robotics har Google DeepMind tagit ett viktigt steg mot sammansmältningen av AI och robotik. Förmågan att förstå naturligt språk, uppfatta komplexa miljöer och genomföra fysiska åtgärder kan revolutionera hur robotar kommer att användas i framtiden.

Denna teknik markerar övergången från rent digitala AI -applikationer till system som kan ha en direkt inverkan på den fysiska världen. Även om detta kan utlösa problem med vissa AI -skeptiker, är Google DeepMinds huvudfokus på att utveckla adaptiva och användbara robotsystem som kan hantera komplexa uppgifter med mindre träning.

De kommande åren kommer att visa hur denna teknik utvecklas och vilka praktiska tillämpningar du hittar i olika områden, från industri till vardag.

Lämplig för detta: