⭐️ Intelligence artificielle (AI) -ai blog, hotspot et hub de contenu ⭐️ Robotique / robotique ⭐️ Xpaper

Sélection de voix 📢

Google Gemini 2.0, The Artificial Intelligence and Robotics: Gemini Robotics and Gemini Robotics-ER

Publié le: 20 mars 2025 / mise à jour de: 20 mars 2025 - Auteur: Konrad Wolfenstein

Google Gemini 2.0, The Artificial Intelligence and Robotics: Gemini Robotics and Gemini Robotics-er-créatif Image: Xpert.Digital

Deepmind présente Gemini: la prochaine ère de la robotique commence

Gemini Robotics: la fusion transformatrice de Google de l'intelligence artificielle et de la robotique

Le 12 mars 2025, Google Deepmind a présenté son dernier projet Gemini Robotics, une technologie impressionnante qui combine le puissant modèle de langue Gemini 2.0 avec une robotique avancée. Cette innovation marque une étape importante dans le développement de systèmes de robots intelligents qui peuvent comprendre le langage naturel et effectuer des tâches physiques complexes.

Google Deepmind est une société de recherche de premier plan pour l'intelligence artificielle (AI), qui a été fondée en 2010 et prise en charge par Google en 2014. Il se concentre sur le développement de technologies AI avancées, qui se caractérisent par des réseaux de neurones avec un stockage à court terme et une mémoire artificielle. DeepMind a réalisé des percées importantes, notamment la défense des joueurs humains dans le jeu «Go» et le développement d'Alphafold, un système de prédiction des structures protéiques. Les technologies de Deepmind sont utilisées dans des domaines tels que la robotique, la médecine, l'efficacité énergétique et le traitement des langues.

Les fondements technologiques de Gemini Robotics

Gemini Robotics a été conçu comme une longueur de vision progressive du modèle du modèle (VLA), qui s'appuie sur le Gemini 2.0 déjà puissant. L'innovation centrale est que le système peut non seulement traiter des données numériques telles que des textes, des images ou des vidéos, mais peut également effectuer des actions physiques dans le monde réel pour la première fois.

La technologie utilise la compréhension multimodale de Gemini 2.0 et l'élargit avec une nouvelle modalité décisive: les actions physiques. Cela permet aux robots de combler le monde numérique et physique d'une manière qui n'était pas encore possible.

Convient à:

Plateforme Gemini de Google avec Google AI Studio, Google Deep Research avec Gemini Advanced et Google DeepMind

Compétences de fonctionnalité et de perception

La percée technologique de la robotique des Gémeaux réside dans sa capacité à percevoir l'environnement par des caméras, à reconnaître les objets et à capturer leurs dimensions spatiales. Ces informations sont ensuite converties en un monde 3D avec des coordonnées techniques précises.

Le système peut également:

Comprendre les commandes du langage naturel et la mettre en œuvre en actions physiques
Comprendre les relations spatiales complexes entre les objets
S'adapter à de nouvelles situations inconnues
Générer sur différents types de robots

Les deux modèles complémentaires: Gemini Robotics et Gemini Robotics-ER

Google Deepmind en a non seulement présenté un, mais deux modèles spécialisés qui abordent différents aspects de l'IA de la robotique.

Gémeaux robotique

Le principal modèle Gemini Robotics combine les compétences de traitement du langage de Gemini 2.0 avec le contrôle physique. Il permet aux robots de réagir aux commandes naturellement du langage, de comprendre des environnements complexes et de réaliser des actions adaptatives.

Gémeaux robotique

Le deuxième modèle, Gemini Robotics-ER (par lequel il signifie «raisonnement incarné» ou «logique modifiée»), se concentre sur une amélioration de la pensée spatiale. Cette capacité est cruciale pour les robots qui doivent agir dans des environnements dynamiques à trois dimensions.

Gemini Robotics-ER, par exemple, peut reconnaître intuitivement comment un objet peut être utilisé au mieux. Si une tasse de café est montrée au modèle, il peut choisir indépendamment une poignée à deux doigts appropriée pour soulever la tasse sur la poignée et calculer un mouvement sécurisé.

Compétences démontrées et applications pratiques

Dans des vidéos de démonstration impressionnantes, Google DeepMind montre les compétences pratiques des nouveaux modèles d'IA. Les systèmes de robots peuvent effectuer une variété de tâches complexes, notamment:

Plis d'origami et de papier
Tri et organisation d'objets basés sur des instructions verbales
Des objets fragiles précis et en mouvement
Insertion minutieuse de lunettes dans un etui
Dés et manipuler de petits objets
Fermer une fermeture éclair ensemble
Emballage des câbles de casque
Exécution de tâches de précision telles que le basket-ball

Il est particulièrement remarquable que les robots effectuent ces tâches de manière autonome après avoir reçu une instruction. Le système détecte indépendamment les objets, les identifie, tire les étapes individuelles nécessaires et contrôle les bras du robot en conséquence.

Partenariats stratégiques pour un développement ultérieur

Afin d'ouvrir le plein potentiel de cette technologie, Google DeepMind travaille avec les principales entreprises de l'industrie de la robotique:

Apptronik, une start-up texan qui a développé le robot humanoïde «Apollo», qui est conçu pour les tâches de logistique et de fabrication telles que le levage, le déplacement et l'empilement des boîtes
Boston Dynamics, une entreprise de robotique bien connue qui a été ironiquement achetée par Google et vendue à nouveau plus tard
Agility Robotics et Agile Robots en tant qu'autres partenaires pour le développement et le test de Gemini Robotics-ER

Cette coopération montre la stratégie de Google pour mettre en œuvre et tester la technologie sur diverses plates-formes robots pour assurer leur large applicabilité.

Convient à:

Google Deep Research avec Gemini 2.0 - Une analyse complète des fonctions de recherche avancées

Signification pour l'avenir de la robotique

Le directeur de la robotique de Deepmind, Kanishka Rao, a déclaré qu'au cours d'une conférence de presse, l'un des plus grands défis de la robotique comprend que les robots fonctionnent généralement bien dans des scénarios connus, mais échouent dans des situations inconnues. Gemini Robotics devrait résoudre exactement ce problème.

Convient à:

Contrôle debout humanoïdes: Apprenez à vous lever avec des humanoïdes «hôte» - la percée pour les robots dans la vie quotidienne

L'intégration des modèles de grandes langues (LLM) dans le robotique fait partie d'une tendance croissante, et l'approche de Gemini pourrait être l'un des exemples les plus impressionnants de cela. Jan Liphardt, professeur de bio-ingénierie à l'Université de Stanford et fondateur d'OpenInd, souligne qu'il s'agit «de l'un des premiers exemples de l'utilisation de l'IA génératrice et des modèles de grands langues sur des robots avancés» et «vraiment la clé du développement des aides robots et des compagnons de robot» pourrait l'être.

Le PDG de Nvidia, Jensen Huang, va encore plus loin et indique que l'utilisation d'une IA générative pour fournir des robots pourrait être un potentiel de marché de plusieurs billions de dollars américains à grande échelle.

Gémeaux et robotique: un tournant pour les systèmes intelligents?

Malgré les progrès impressionnants, il y a encore des défis. Ken Goldberg, professeur de robotique à l'Université de Californie à Berkeley, décrit les systèmes d'IA comme «un développement passionnant dans le domaine de la robotique», mais souligne qu '«il y a encore beaucoup à faire avant que les robots polyvalents ne soient prêts à être utilisés dans la vie quotidienne».

Google prévoit de donner un aperçu des possibilités de cette technologie autour de la prochaine conférence Google I / S. Avec ses nombreuses années d'intérêt pour la robotique et maintenant avec Gemini comme composant logiciel approprié, Google pourrait ouvrir un nouveau chapitre dans le développement de robots intelligents.

Du langage à l'action: Google établit de nouvelles normes en robotique

Avec Gemini Robotics, Google Deepmind a franchi une étape importante vers la fusion de l'IA et de la robotique. La capacité de comprendre le langage naturel, de percevoir des environnements complexes et de réaliser des actions physiques pourrait révolutionner la façon dont les robots seront utilisés à l'avenir.

Cette technologie marque la transition des applications d'IA purement numériques aux systèmes qui peuvent avoir un impact direct sur le monde physique. Bien que cela puisse déclencher des préoccupations avec certaines sceptiques de l'IA, Google Deepmind est l'accent mis sur le développement de systèmes de robots adaptatifs et utiles qui peuvent gérer des tâches complexes avec moins de formation.

Les années à venir montreront comment cette technologie se développe et quelles applications pratiques que vous trouverez dans différents domaines, de l'industrie à la vie quotidienne.

Convient à: