⭐️ Inteligência Artificial (IA) - blog de IA, hotspot e centro de conteúdo ⭐️ Robótica/Robótica ⭐️ XPaper

Seleção de voz 📢

Google Gemini 2.0, The Artificial Intelligence and Robotics: Gemini Robotics e Gemini Robotics-er

Publicado em: 20 de março de 2025 / atualização de: 20 de março de 2025 - Autor: Konrad Wolfenstein

Google Gemini 2.0, The Artificial Intelligence and Robotics: Gemini Robotics e Gemini Robotics-Er-Creative Image: Xpert.Digital

DeepMind apresenta Gemini: a próxima era da robótica começa

Robótica Gemini: fusão transformadora do Google de inteligência artificial e robótica

Em 12 de março de 2025, o Google Deepmind apresentou seu mais recente projeto Gemini Robotics, uma tecnologia impressionante que combina o poderoso modelo de idioma Gemini 2.0 com robótica avançada. Essa inovação marca um marco importante no desenvolvimento de sistemas de robôs inteligentes que podem entender a linguagem natural e executar tarefas físicas complexas.

O Google DeepMind é uma empresa líder de pesquisa para inteligência artificial (IA), fundada em 2010 e assumida pelo Google em 2014. Ele se concentra no desenvolvimento de tecnologias avançadas de IA, caracterizadas por redes neurais com armazenamento de curto prazo e memória artificial. O DeepMind alcançou avanços significativos, incluindo a defesa de jogadores humanos no jogo "Go" e o desenvolvimento do Alphafold, um sistema para prever estruturas de proteínas. As tecnologias da DeepMind são usadas em áreas como robótica, medicina, eficiência energética e processamento de idiomas.

Os fundamentos tecnológicos da Gemini Robotics

A Gemini Robotics foi projetada como um comprimento de visão progressivo do modelo de modelo (VLA), que se baseia no já poderoso Gemini 2.0. A inovação central é que o sistema não apenas pode processar dados digitais como textos, imagens ou vídeos, mas também pode executar ações físicas no mundo real pela primeira vez.

A tecnologia usa o entendimento multimodal de Gemini 2.0 e a expande com uma nova modalidade decisiva: ações físicas. Isso permite que os robôs preencham o mundo digital e físico de uma maneira que ainda não era possível.

Adequado para:

Plataforma Gemini do Google com Google AI Studio, Google Deep Research com Gemini Advanced e Google DeepMind

Habilidades de funcionalidade e percepção

O avanço tecnológico da Robótica Gemini está em sua capacidade de perceber o ambiente através das câmeras, reconhecer objetos e capturar suas dimensões espaciais. Esta informação é então convertida em um mundo 3D com coordenadas técnicas precisas.

O sistema também pode:

Entenda comandos de linguagem natural e implemente -o em ações físicas
Entender relações espaciais complexas entre objetos
Adaptar -se a situações novas e desconhecidas
Gerar sobre diferentes tipos de robôs

Os dois modelos complementares: Gemini Robotics e Gemini Robotics-er

O Google DeepMind não apenas apresentou um, mas dois modelos especializados que abordam diferentes aspectos da IA da robótica.

Robótica Gemini

O principal modelo Gemini Robotics combina as habilidades de processamento de idiomas do Gemini 2.0 com o controle físico. Ele permite que os robôs reajam a comandos naturalmente de idiomas, entendam ambientes complexos e realizem ações adaptativas.

Robótica Gemini

O segundo modelo, Gemini Robotics-Er (pelo qual ele defende "raciocínio incorporado" ou "lógica modificada"), concentra-se em um pensamento espacial aprimorado. Essa capacidade é crucial para os robôs que precisam agir em ambientes dinâmicos e tridimensionais.

Gemini Robotics-er, por exemplo, pode reconhecer intuitivamente como um objeto pode ser melhor usado. Se uma xícara de café for mostrada ao modelo, ele poderá escolher independentemente uma alça de dois dedos adequada para levantar o copo na alça e calcular um movimento seguro.

Habilidades demonstradas e aplicações práticas

Em vídeos impressionantes de demonstração, o Google DeepMind mostra as habilidades práticas dos novos modelos de IA. Os sistemas de robôs podem realizar uma variedade de tarefas complexas, incluindo:

Dobras de origami e papel
Classificação e organização de objetos com base em instruções verbais
Seguindo e movendo objetos frágeis de movimentação
Inserção cuidadosa de óculos em um etui
Dados e manipular pequenos objetos
Fechando um zíper juntos
Encontro cabos de fone de ouvido
Execução de tarefas de precisão, como o Basketball Dunking

É particularmente digno de nota que os robôs executam essas tarefas autonomamente depois de receberem apenas uma instrução. O sistema detecta independentemente objetos, identifica, deriva as etapas individuais necessárias e controla os braços do robô de acordo.

Parcerias estratégicas para desenvolvimento adicional

Para abrir todo o potencial dessa tecnologia, o Google Deepmind trabalha com empresas líderes do setor de robótica:

Apptronik, uma start-up texana que desenvolveu o robô humanóide "Apollo", projetado para tarefas de logística e fabricação, como levantamento, movimento e empilhamento de caixas
Boston Dynamics, uma empresa de robótica conhecida que foi ironicamente comprada pelo Google e vendida novamente mais tarde
Robótica de agilidade e robôs ágeis como outros parceiros para o desenvolvimento e teste de Gemini Robotics-er

Essa cooperação mostra a estratégia do Google para implementar e testar a tecnologia em várias plataformas de robôs para garantir sua ampla aplicabilidade.

Adequado para:

Google Deep Research com Gemini 2.0 - Uma análise abrangente de funções de pesquisa avançada

Significado para o futuro da robótica

O diretor de robótica da DeepMind, Kanishka Rao, disse que durante uma conferência de imprensa, um dos maiores desafios da robótica consiste que os robôs normalmente funcionam bem em cenários conhecidos, mas falham em situações desconhecidas. A Gemini Robotics deve resolver exatamente esse problema.

Adequado para:

Controle Humanóide Stal-Up: Aprenda a se levantar com Humanóides "Host"-a descoberta para os robôs na vida cotidiana

A integração de grandes modelos de linguagem (LLMs) no robótico faz parte de uma tendência crescente, e a abordagem de Gêmeos pode ser um dos exemplos mais impressionantes disso. Jan Liphardt, professor de engenharia biológica da Universidade de Stanford e fundador do OpenMind, enfatiza que este é "um dos primeiros exemplos do uso de IA generativa e grandes modelos de idiomas em robôs avançados" e "realmente a chave para o desenvolvimento de ajudantes de robôs e companheiros de robô" poderia ser.

O CEO da NVIDIA, Jensen Huang, vai ainda mais longe e indica que o uso de IA generativa para fornecer robôs pode ser um potencial de mercado de vários trilhões de dólares nos EUA em larga escala.

Gêmeos e robótica: um ponto de virada para sistemas inteligentes?

Apesar do progresso impressionante, ainda existem desafios. Ken Goldberg, professor de robótica da Universidade da Califórnia em Berkeley, descreve os sistemas de IA como "um desenvolvimento emocionante no campo da robótica", mas aponta que "ainda há muito o que fazer antes que os robôs para todos os fins estejam prontos para uso na vida cotidiana".

O Google planeja fornecer mais informações sobre as possibilidades dessa tecnologia em torno da próxima conferência de E/S do Google. Com seus muitos anos de interesse pela robótica e agora com Gemini como um componente de software adequado, o Google poderia abrir um novo capítulo no desenvolvimento de robôs inteligentes.

Da linguagem à ação: o Google define novos padrões em robótica

Com a Gemini Robotics, o Google Deepmind deu um passo importante em direção à fusão de IA e robótica. A capacidade de entender a linguagem natural, perceber ambientes complexos e realizar ações físicas pode revolucionar a maneira como os robôs serão usados no futuro.

Essa tecnologia marca a transição de aplicações puramente digitais de IA para sistemas que podem ter um impacto direto no mundo físico. Embora isso possa desencadear preocupações com alguns céticos da IA, o foco principal do Google DeepMind é desenvolver sistemas de robôs adaptativos e úteis que podem gerenciar tarefas complexas com menos treinamento.

Os próximos anos mostrarão como essa tecnologia está se desenvolvendo e quais aplicativos práticos você encontrará em diferentes áreas, da indústria à vida cotidiana.

Adequado para: