Pubblicato il: 20 marzo 2025 / Aggiornamento dal: 20 marzo 2025 - Autore: Konrad Wolfenstein

Google Gemini 2.0, The Artificial Intelligence and Robotics: Gemini Robotics and Gemini Robotics-er-Creative Immagine: Xpert.Digital
DeepMind presenta Gemini: inizia la prossima era di robotica
Gemini Robotics: fusione trasformativa di Google di intelligenza artificiale e robotica
Il 12 marzo 2025, Google DeepMind ha presentato il suo ultimo progetto Gemini Robotics, una tecnologia impressionante che combina il potente modello di lingua Gemini 2.0 con la robotica avanzata. Questa innovazione segna un'importante pietra miliare nello sviluppo di sistemi di robot intelligenti che possono comprendere il linguaggio naturale e svolgere compiti fisici complessi.
Google DeepMind è una società di ricerca leader per l'intelligenza artificiale (AI), che è stata fondata nel 2010 e rilevata da Google nel 2014. Si concentra sullo sviluppo di tecnologie AI avanzate, che sono caratterizzate da reti neurali con archiviazione a breve termine e memoria artificiale. DeepMind ha ottenuto importanti scoperte, tra cui la difesa dei giocatori umani nel gioco "Go" e lo sviluppo di Alphafold, un sistema per prevedere le strutture proteiche. Le tecnologie di DeepMind sono utilizzate in settori quali robotica, medicina, efficienza energetica ed elaborazione del linguaggio.
Le basi tecnologiche della robotica Gemelli
Gemini Robotics è stata progettata come una lunghezza della visione progressiva del modello Model (VLA), che si basa sul già potente Gemini 2.0. L'innovazione centrale è che il sistema può non solo elaborare dati digitali come testi, immagini o video, ma può anche eseguire azioni fisiche nel mondo reale per la prima volta.
La tecnologia utilizza la comprensione multimodale di Gemini 2.0 e la espande con una nuova modalità decisiva: azioni fisiche. Ciò consente ai robot di colmare il mondo digitale e fisico in un modo che non era ancora possibile.
Adatto a:
- La piattaforma Gemini di Google con Google AI Studio, Google Deep Research con Gemini Advanced e Google DeepMind
Capacità di funzionalità e percezione
La svolta tecnologica della robotica Gemelli sta nella sua capacità di percepire l'ambiente circostante attraverso le telecamere, di riconoscere gli oggetti e di catturare le loro dimensioni spaziali. Queste informazioni vengono quindi convertite in un mondo 3D con precise coordinate tecniche.
Il sistema può anche:
- Comprendi i comandi del linguaggio naturale e implementali in azioni fisiche
- Comprendi relazioni spaziali complesse tra oggetti
- Adattarsi a situazioni nuove e sconosciute
- Generare su diversi tipi di robot
I due modelli complementari: Gemini Robotics e Gemini Robotics-Er
Google DeepMind non ha solo presentato uno, ma due modelli specializzati che affrontano diversi aspetti dell'IA robotica.
Gemelli Robotics
Il modello principale Gemini Robotics combina le capacità di elaborazione delle lingue di Gemini 2.0 con il controllo fisico. Consente ai robot di reagire ai comandi linguistici naturalmente, comprendere ambienti complessi e compiere azioni adattive.
Gemelli Robotics
Il secondo modello, Gemini Robotics-ER (in base al quale sta per "ragionamento incarnato" o "logica modificata"), si concentra sul miglioramento del pensiero spaziale. Questa capacità è cruciale per i robot che devono agire in ambienti dinamici e tridimensionali.
Gemini Robotics-ER, ad esempio, può riconoscere intuitivamente come un oggetto può essere utilizzato al meglio. Se viene mostrata una tazza di caffè al modello, può scegliere in modo indipendente una maniglia a due dita adatta per sollevare la tazza sulla maniglia e calcolare un movimento sicuro.
Abilità dimostrate e applicazioni pratiche
In impressionanti video dimostrativi, Google DeepMind mostra le capacità pratiche dei nuovi modelli AI. I sistemi robot possono svolgere una varietà di compiti complessi, tra cui:
- Pieghe di origami e carta
- Ordinamento e organizzazione di oggetti basati su istruzioni verbali
- Oggetti fragili preziosi e in movimento
- Attenta inserimento di occhiali in un Etui
- Dadi e manipolare piccoli oggetti
- Chiudere una cerniera insieme
- Avvolgimento di cavi per cuffie
- Esecuzione di compiti di precisione come il basket.
È particolarmente degno di nota il fatto che i robot svolgono questi compiti in modo autonomo dopo aver ricevuto solo un'istruzione. Il sistema rileva in modo indipendente gli oggetti, li identifica, deriva i singoli passaggi necessari e controlla di conseguenza i bracci del robot.
Partenariati strategici per un ulteriore sviluppo
Al fine di aprire il pieno potenziale di questa tecnologia, Google DeepMind lavora con aziende leader del settore della robotica:
- Apptronik, una start-up texana che ha sviluppato il robot umanoide "Apollo", progettato per compiti logistici e manifatturieri come il sollevamento, lo spostamento e l'impilamento delle scatole
- Boston Dynamics, una nota società di robotica che è stata ironicamente acquistata da Google e venduta di nuovo più tardi
- Robotica di agilità e robot agili come altri partner per lo sviluppo e il test di Gemini Robotics-Er
Questa cooperazione mostra la strategia di Google di implementare e testare la tecnologia su varie piattaforme robot per garantire la loro ampia applicabilità.
Adatto a:
Significato per il futuro della robotica
Il direttore della robotica di DeepMind, Kanishka Rao, ha dichiarato durante una conferenza stampa, una delle più grandi sfide in robotica consiste che i robot in genere funzionano bene in scenari noti, ma falliscono in situazioni sconosciute. Gemini Robotics dovrebbe risolvere esattamente questo problema.
Adatto a:
- Controllo in piedi umanoide: impara ad alzarsi con gli umanoidi "ospiti", la svolta per i robot nella vita di tutti i giorni
L'integrazione di grandi modelli linguistici (LLM) nel robotico fa parte di una tendenza in crescita e l'approccio di Gemini potrebbe essere uno degli esempi più impressionanti di questo. Jan Liphardt, professore di ingegneria biologica presso la Stanford University e fondatore di OpenMind, sottolinea che questo è "uno dei primi esempi dell'uso dell'IA generativa e dei modelli di grandi dimensioni su robot avanzati" e "davvero la chiave per lo sviluppo di aiutanti e compagni di robot".
Jensen Huang, CEO di Nvidia, va ulteriormente e indica che l'uso dell'intelligenza artificiale generativa per fornire robot potrebbe essere un potenziale di mercato di diversi trilioni di dollari statunitensi su larga scala.
Gemelli e robotica: una svolta per sistemi intelligenti?
Nonostante i progressi impressionanti, ci sono ancora sfide. Ken Goldberg, professore di robotica all'Università della California a Berkeley, descrive i sistemi AI come "uno sviluppo entusiasmante nel campo della robotica", ma sottolinea che "c'è ancora molto da fare prima che i robot per tutti gli usi siano pronti per l'uso nella vita di tutti i giorni".
Google prevede di fornire ulteriori approfondimenti sulle possibilità di questa tecnologia attorno alla prossima conferenza I/O di Google. Con i suoi molti anni di interesse per la robotica e ora con Gemelli come adeguato componente software, Google potrebbe aprire un nuovo capitolo nello sviluppo di robot intelligenti.
Dalla lingua all'azione: Google stabilisce nuovi standard in robotica
Con Gemini Robotics, Google DeepMind ha fatto un passo importante verso la fusione di AI e robotica. La capacità di comprendere il linguaggio naturale, percepire ambienti complessi e compiere azioni fisiche potrebbe rivoluzionare il modo in cui i robot verranno utilizzati in futuro.
Questa tecnologia segna il passaggio da applicazioni di intelligenza artificiale puramente digitale ai sistemi che possono avere un impatto diretto sul mondo fisico. Sebbene ciò possa innescare preoccupazioni con alcuni scettici di intelligenza artificiale, il principale obiettivo di Google DeepMind è lo sviluppo di sistemi robot adattivi e utili in grado di gestire compiti complessi con meno formazione.
I prossimi anni mostreranno come si sta sviluppando questa tecnologia e quali applicazioni pratiche troverai in diverse aree, dall'industria alla vita quotidiana.
Adatto a:
Il tuo partner globale per il marketing e lo sviluppo aziendale
☑️ La nostra lingua commerciale è l'inglese o il tedesco
☑️ NOVITÀ: corrispondenza nella tua lingua nazionale!
Sarei felice di servire te e il mio team come consulente personale.
Potete contattarmi compilando il modulo di contatto o semplicemente chiamandomi al numero +49 89 89 674 804 (Monaco) . Il mio indirizzo email è: wolfenstein ∂ xpert.digital
Non vedo l'ora di iniziare il nostro progetto comune.