⭐️ Intelligenza artificiale (AI) -Ai Blog, Hotspot e Content Hub ⭐️ Robotica/Robotica ⭐️ Xpaper

Selezione vocale 📢

Google Gemini 2.0, The Artificial Intelligence and Robotics: Gemini Robotics and Gemini Robotics-Er

Pubblicato il: 20 marzo 2025 / Aggiornamento dal: 20 marzo 2025 - Autore: Konrad Wolfenstein

Google Gemini 2.0, The Artificial Intelligence and Robotics: Gemini Robotics and Gemini Robotics-er-Creative Immagine: Xpert.Digital

DeepMind presenta Gemini: inizia la prossima era di robotica

Gemini Robotics: fusione trasformativa di Google di intelligenza artificiale e robotica

Il 12 marzo 2025, Google DeepMind ha presentato il suo ultimo progetto Gemini Robotics, una tecnologia impressionante che combina il potente modello di lingua Gemini 2.0 con la robotica avanzata. Questa innovazione segna un'importante pietra miliare nello sviluppo di sistemi di robot intelligenti che possono comprendere il linguaggio naturale e svolgere compiti fisici complessi.

Google DeepMind è una società di ricerca leader per l'intelligenza artificiale (AI), che è stata fondata nel 2010 e rilevata da Google nel 2014. Si concentra sullo sviluppo di tecnologie AI avanzate, che sono caratterizzate da reti neurali con archiviazione a breve termine e memoria artificiale. DeepMind ha ottenuto importanti scoperte, tra cui la difesa dei giocatori umani nel gioco "Go" e lo sviluppo di Alphafold, un sistema per prevedere le strutture proteiche. Le tecnologie di DeepMind sono utilizzate in settori quali robotica, medicina, efficienza energetica ed elaborazione del linguaggio.

Le basi tecnologiche della robotica Gemelli

Gemini Robotics è stata progettata come una lunghezza della visione progressiva del modello Model (VLA), che si basa sul già potente Gemini 2.0. L'innovazione centrale è che il sistema può non solo elaborare dati digitali come testi, immagini o video, ma può anche eseguire azioni fisiche nel mondo reale per la prima volta.

La tecnologia utilizza la comprensione multimodale di Gemini 2.0 e la espande con una nuova modalità decisiva: azioni fisiche. Ciò consente ai robot di colmare il mondo digitale e fisico in un modo che non era ancora possibile.

Adatto a:

La piattaforma Gemini di Google con Google AI Studio, Google Deep Research con Gemini Advanced e Google DeepMind

Capacità di funzionalità e percezione

La svolta tecnologica della robotica Gemelli sta nella sua capacità di percepire l'ambiente circostante attraverso le telecamere, di riconoscere gli oggetti e di catturare le loro dimensioni spaziali. Queste informazioni vengono quindi convertite in un mondo 3D con precise coordinate tecniche.

Il sistema può anche:

Comprendi i comandi del linguaggio naturale e implementali in azioni fisiche
Comprendi relazioni spaziali complesse tra oggetti
Adattarsi a situazioni nuove e sconosciute
Generare su diversi tipi di robot

I due modelli complementari: Gemini Robotics e Gemini Robotics-Er

Google DeepMind non ha solo presentato uno, ma due modelli specializzati che affrontano diversi aspetti dell'IA robotica.

Gemelli Robotics

Il modello principale Gemini Robotics combina le capacità di elaborazione delle lingue di Gemini 2.0 con il controllo fisico. Consente ai robot di reagire ai comandi linguistici naturalmente, comprendere ambienti complessi e compiere azioni adattive.

Gemelli Robotics

Il secondo modello, Gemini Robotics-ER (in base al quale sta per "ragionamento incarnato" o "logica modificata"), si concentra sul miglioramento del pensiero spaziale. Questa capacità è cruciale per i robot che devono agire in ambienti dinamici e tridimensionali.

Gemini Robotics-ER, ad esempio, può riconoscere intuitivamente come un oggetto può essere utilizzato al meglio. Se viene mostrata una tazza di caffè al modello, può scegliere in modo indipendente una maniglia a due dita adatta per sollevare la tazza sulla maniglia e calcolare un movimento sicuro.

Abilità dimostrate e applicazioni pratiche

In impressionanti video dimostrativi, Google DeepMind mostra le capacità pratiche dei nuovi modelli AI. I sistemi robot possono svolgere una varietà di compiti complessi, tra cui:

Pieghe di origami e carta
Ordinamento e organizzazione di oggetti basati su istruzioni verbali
Oggetti fragili preziosi e in movimento
Attenta inserimento di occhiali in un Etui
Dadi e manipolare piccoli oggetti
Chiudere una cerniera insieme
Avvolgimento di cavi per cuffie
Esecuzione di compiti di precisione come il basket.

È particolarmente degno di nota il fatto che i robot svolgono questi compiti in modo autonomo dopo aver ricevuto solo un'istruzione. Il sistema rileva in modo indipendente gli oggetti, li identifica, deriva i singoli passaggi necessari e controlla di conseguenza i bracci del robot.

Partenariati strategici per un ulteriore sviluppo

Al fine di aprire il pieno potenziale di questa tecnologia, Google DeepMind lavora con aziende leader del settore della robotica:

Apptronik, una start-up texana che ha sviluppato il robot umanoide "Apollo", progettato per compiti logistici e manifatturieri come il sollevamento, lo spostamento e l'impilamento delle scatole
Boston Dynamics, una nota società di robotica che è stata ironicamente acquistata da Google e venduta di nuovo più tardi
Robotica di agilità e robot agili come altri partner per lo sviluppo e il test di Gemini Robotics-Er

Questa cooperazione mostra la strategia di Google di implementare e testare la tecnologia su varie piattaforme robot per garantire la loro ampia applicabilità.

Adatto a:

Google Deep Research con Gemini 2.0 - Un'analisi completa delle funzioni di ricerca avanzate

Significato per il futuro della robotica

Il direttore della robotica di DeepMind, Kanishka Rao, ha dichiarato durante una conferenza stampa, una delle più grandi sfide in robotica consiste che i robot in genere funzionano bene in scenari noti, ma falliscono in situazioni sconosciute. Gemini Robotics dovrebbe risolvere esattamente questo problema.

Adatto a:

Controllo in piedi umanoide: impara ad alzarsi con gli umanoidi "ospiti", la svolta per i robot nella vita di tutti i giorni

L'integrazione di grandi modelli linguistici (LLM) nel robotico fa parte di una tendenza in crescita e l'approccio di Gemini potrebbe essere uno degli esempi più impressionanti di questo. Jan Liphardt, professore di ingegneria biologica presso la Stanford University e fondatore di OpenMind, sottolinea che questo è "uno dei primi esempi dell'uso dell'IA generativa e dei modelli di grandi dimensioni su robot avanzati" e "davvero la chiave per lo sviluppo di aiutanti e compagni di robot".

Jensen Huang, CEO di Nvidia, va ulteriormente e indica che l'uso dell'intelligenza artificiale generativa per fornire robot potrebbe essere un potenziale di mercato di diversi trilioni di dollari statunitensi su larga scala.

Gemelli e robotica: una svolta per sistemi intelligenti?

Nonostante i progressi impressionanti, ci sono ancora sfide. Ken Goldberg, professore di robotica all'Università della California a Berkeley, descrive i sistemi AI come "uno sviluppo entusiasmante nel campo della robotica", ma sottolinea che "c'è ancora molto da fare prima che i robot per tutti gli usi siano pronti per l'uso nella vita di tutti i giorni".

Google prevede di fornire ulteriori approfondimenti sulle possibilità di questa tecnologia attorno alla prossima conferenza I/O di Google. Con i suoi molti anni di interesse per la robotica e ora con Gemelli come adeguato componente software, Google potrebbe aprire un nuovo capitolo nello sviluppo di robot intelligenti.

Dalla lingua all'azione: Google stabilisce nuovi standard in robotica

Con Gemini Robotics, Google DeepMind ha fatto un passo importante verso la fusione di AI e robotica. La capacità di comprendere il linguaggio naturale, percepire ambienti complessi e compiere azioni fisiche potrebbe rivoluzionare il modo in cui i robot verranno utilizzati in futuro.

Questa tecnologia segna il passaggio da applicazioni di intelligenza artificiale puramente digitale ai sistemi che possono avere un impatto diretto sul mondo fisico. Sebbene ciò possa innescare preoccupazioni con alcuni scettici di intelligenza artificiale, il principale obiettivo di Google DeepMind è lo sviluppo di sistemi robot adattivi e utili in grado di gestire compiti complessi con meno formazione.

I prossimi anni mostreranno come si sta sviluppando questa tecnologia e quali applicazioni pratiche troverai in diverse aree, dall'industria alla vita quotidiana.

Adatto a: