Selección de voz 📢


Google Gemini 2.0, The Artificial Intelligence and Robotics: Gemini Robotics and Gemini Robotics-Er

Publicado el: 20 de marzo de 2025 / Actualización de: 20 de marzo de 2025 - Autor: Konrad Wolfenstein

Google Gemini 2.0, The Artificial Intelligence and Robotics: Gemini Robotics and Gemini Robotics-Er

Google Gemini 2.0, La inteligencia artificial y la robótica: Géminis Robótica y Géminis Robótica-Er-creativa Imagen: Xpert.digital

DeepMind presenta Géminis: la próxima era de la robótica comienza

Robótica de Géminis: la fusión transformadora de inteligencia artificial y robótica de Google

El 12 de marzo de 2025, Google Deepmind presentó su último proyecto Gemini Robotics, una tecnología impresionante que combina el poderoso modelo de lenguaje Gemini 2.0 con robótica avanzada. Esta innovación marca un hito importante en el desarrollo de sistemas de robot inteligentes que pueden comprender el lenguaje natural y realizar tareas físicas complejas.

Google Deepmind es una compañía de investigación líder para la inteligencia artificial (IA), que fue fundada en 2010 y asumida por Google en 2014. Se centra en el desarrollo de tecnologías AI avanzadas, que se caracterizan por redes neuronales con almacenamiento a corto plazo y memoria artificial. DeepMind ha logrado avances significativos, incluida la defensa de jugadores humanos en el juego "GO" y el desarrollo de Alfafold, un sistema para predecir las estructuras de proteínas. Las tecnologías de DeepMind se utilizan en áreas como robótica, medicina, eficiencia energética y procesamiento del lenguaje.

Los fundamentos tecnológicos de Géminis Robótica

Gemini Robotics fue diseñado como una longitud de visión progresiva del modelo del modelo (VLA), que se basa en el ya potente Géminis 2.0. La innovación central es que el sistema no solo puede procesar datos digitales como textos, imágenes o videos, sino que también puede realizar acciones físicas en el mundo real por primera vez.

La tecnología utiliza la comprensión multimodal de Gemini 2.0 y la expande con una nueva modalidad decisiva: las acciones físicas. Esto permite a los robots unir el mundo digital y físico de una manera que aún no era posible.

Adecuado para:

Funcionalidad y habilidades de percepción

El avance tecnológico de Géminis Robotics radica en su capacidad para percibir los alrededores a través de cámaras, reconocer objetos y capturar sus dimensiones espaciales. Esta información se convierte en un mundo 3D con coordenadas técnicas precisas.

El sistema también puede:

  • Comprender los comandos del lenguaje natural e implementarlo en acciones físicas
  • Comprender las relaciones espaciales complejas entre objetos
  • Adaptarse a situaciones nuevas y desconocidas
  • Generar diferentes tipos de robots

Los dos modelos complementarios: Géminis Robotics y Gemini Robotics-Er

Google Deepmind no solo ha presentado uno, sino dos modelos especializados que abordan diferentes aspectos de la IA robótica.

Robótica de Géminis

El modelo principal Gemini Robotics combina habilidades de procesamiento del lenguaje de Gemini 2.0 con control físico. Permite que los robots reaccionen a los comandos naturales del lenguaje, comprendan entornos complejos y realicen acciones adaptativas.

Robótica de Géminis

El segundo modelo, Gemini Robotics-ER (por el cual significa "razonamiento encarnado" o "lógica modificada"), se centra en un mejor pensamiento espacial. Esta capacidad es crucial para los robots que tienen que actuar en entornos dinámicos y tres dimensionales.

Gemini Robotics-Er, por ejemplo, puede reconocer intuitivamente cómo se puede utilizar mejor un objeto. Si se muestra una taza de café al modelo, puede elegir independientemente un mango adecuado de dos dedos para levantar la taza del mango y calcular un movimiento seguro.

Habilidades demostradas y aplicaciones prácticas

En impresionantes videos de demostración, Google Deepmind muestra las habilidades prácticas de los nuevos modelos de IA. Los sistemas de robots pueden llevar a cabo una variedad de tareas complejas, que incluyen:

  • Pliegues de origami y papel
  • Clasificación y organización de objetos basados ​​en instrucciones verbales
  • Objetos frágiles de agarre y en movimiento precisos
  • Inserción cuidadosa de gafas en un etui
  • Dados y manipular objetos pequeños
  • Cerrar una cremallera juntos
  • Envolver los cables de los auriculares
  • Ejecución de tareas de precisión como la inmersión del baloncesto

Es particularmente digno de mención que los robots realizan estas tareas de forma autónoma después de haber recibido una instrucción. El sistema detecta independientemente los objetos, los identifica, deriva los pasos individuales necesarios y controla los brazos del robot en consecuencia.

Asociaciones estratégicas para un mayor desarrollo

Para abrir todo el potencial de esta tecnología, Google Deepmind trabaja con empresas líderes de la industria robótica:

  • Apptronik, una nueva empresa texana que ha desarrollado el robot humanoide "Apolo", que está diseñado para tareas de logística y fabricación, como levantar, mover y apilar cajas
  • Boston Dynamics, una conocida compañía de robótica que irónicamente fue comprada por Google y se vendió nuevamente más tarde
  • Robótica de agilidad y robots ágiles como otros socios para el desarrollo y la prueba de Géminis Robotics-Er

Esta cooperación muestra la estrategia de Google para implementar y probar la tecnología en varias plataformas de robots para garantizar su amplia aplicabilidad.

Adecuado para:

Significado para el futuro de la robótica

El director de robótica de Deepmind, Kanishka Rao, dijo que durante una conferencia de prensa, uno de los mayores desafíos en robótica, consiste en que los robots generalmente funcionan bien en escenarios conocidos, pero fallan en situaciones desconocidas. Gemini Robotics debería resolver exactamente este problema.

Adecuado para:

La integración de los modelos de idiomas grandes (LLM) en el robótico es parte de una tendencia creciente, y el enfoque de Gemini podría ser uno de los ejemplos más impresionantes de esto. Jan Liphardt, profesor de Bio Engineering en la Universidad de Stanford y fundador de OpenMind, enfatiza que este es "uno de los primeros ejemplos del uso de IA generativos y modelos de lenguaje grande en robots avanzados" y "realmente la clave para el desarrollo de ayudantes de robots y compañeros de robots" podría ser.

El CEO de NVIDIA, Jensen Huang, va aún más lejos e indica que el uso de IA generativo para proporcionar robots podría ser un potencial de mercado de varios billones de dólares estadounidenses a gran escala.

Géminis y robótica: ¿Un punto de inflexión para sistemas inteligentes?

A pesar del impresionante progreso, todavía hay desafíos. Ken Goldberg, profesor de robótica en la Universidad de California en Berkeley, describe los sistemas de IA como "un desarrollo emocionante en el campo de la robótica", pero señala que "todavía hay mucho que hacer antes de que los robots de uso múltiple estén listos para su uso en la vida cotidiana".

Google planea dar más información sobre las posibilidades de esta tecnología en torno a la próxima Conferencia de E/S de Google. Con sus muchos años de interés en la robótica y ahora con Gemini como un componente de software adecuado, Google podría abrir un nuevo capítulo en el desarrollo de robots inteligentes.

De lenguaje a acción: Google establece nuevos estándares en robótica

Con Gemini Robotics, Google Deepmind ha dado un paso importante hacia la fusión de la IA y la robótica. La capacidad de comprender el lenguaje natural, percibir entornos complejos y llevar a cabo acciones físicas podría revolucionar la forma en que los robots se utilizarán en el futuro.

Esta tecnología marca la transición de aplicaciones de IA puramente digitales a sistemas que pueden tener un impacto directo en el mundo físico. Si bien esto puede desencadenar preocupaciones con algunos escépticos de IA, el enfoque principal de Google Deepmind es desarrollar sistemas de robot adaptativos y útiles que puedan administrar tareas complejas con menos capacitación.

Los próximos años mostrarán cómo se está desarrollando esta tecnología y qué aplicaciones prácticas encontrará en diferentes áreas, desde la industria hasta la vida cotidiana.

Adecuado para:

 

Su socio global de marketing y desarrollo empresarial

☑️ Nuestro idioma comercial es inglés o alemán.

☑️ NUEVO: ¡Correspondencia en tu idioma nacional!

 

Pionero digital - Konrad Wolfenstein

Konrad Wolfenstein

Estaré encantado de servirle a usted y a mi equipo como asesor personal.

Puedes ponerte en contacto conmigo rellenando el formulario de contacto o simplemente llámame al +49 89 89 674 804 (Múnich) . Mi dirección de correo electrónico es: wolfenstein xpert.digital

Estoy deseando que llegue nuestro proyecto conjunto.

 

 

☑️ Apoyo a las PYMES en estrategia, consultoría, planificación e implementación.

☑️ Creación o realineamiento de la estrategia digital y digitalización

☑️ Ampliación y optimización de procesos de ventas internacionales

☑️ Plataformas comerciales B2B globales y digitales

☑️ Pionero en desarrollo empresarial / marketing / relaciones públicas / ferias comerciales


⭐️ Blog de inteligencia artificial (AI) -ai, punto de acceso y centro de contenido ⭐️ robótica/robótica ⭐️ xpaper