O sistema de IA para robótica "Helix" da Figure AI, voltado para robôs humanoides, é um modelo de Visão-Linguagem-Ação (VLA)

Konrad Wolfenstein

1 ano atrás

Sistema de IA para robótica "Helix" da Figure AI para robôs humanoides – um modelo de Visão-Linguagem-Ação (VLA) – Imagem: Xpert.Digital

Helix: O sistema de IA que leva os robôs humanoides a um novo patamar

Resumo: Visão, linguagem, movimento: Helix como um marco na robótica

Helix é um sistema de IA inovador para robôs humanoides desenvolvido pela Figure AI. Trata-se de um modelo de Visão-Linguagem-Ação (VLA) que combina percepção visual, compreensão da fala e controle motor preciso em um único sistema. Helix representa um avanço significativo no desenvolvimento de sistemas robóticos flexíveis para ambientes não estruturados, como residências. Com sua capacidade de executar tarefas complexas sem treinamento prévio, ele tem o potencial de revolucionar a interação humano-máquina.

Relacionado a isto:

Robôs controlados por voz: Helix, da Figure AI, está mudando tudo! Indústria, residências, futuro – compreenda, aprenda e execute em tempo real

Habilidades de Helix

Controle em tempo real de toda a parte superior do corpo de robôs humanoides, incluindo 35 eixos de movimento
Processamento de entrada de voz e informação visual para executar tarefas complexas
Reconhecimento e manuseio de objetos desconhecidos sem treinamento específico
Colaboração entre múltiplos robôs na execução de tarefas
Realizar tarefas domésticas, como abastecer a geladeira

Detalhes técnicos

Consiste em dois componentes principais:

Um modelo de linguagem multimodal com 7 bilhões de parâmetros (7-9 Hz)
Uma IA de movimento com 80 milhões de parâmetros (200 Hz)

Treinado com apenas 500 horas de treinamento supervisionado
Funciona em GPUs integradas com baixo consumo de energia

Principais concorrentes

Google DeepMind: Desenvolvendo modelos VLA semelhantes ao RT-2
Meta: Trabalhando em robôs humanoides avançados
Apple: Também na corrida para desenvolver humanoides de IA avançados
OpenAI: Antiga parceira da Figure AI, agora concorrente na área de desenvolvimento de IA

Google DeepMind

O Google DeepMind apresentou o RT-2 (Robotics Transformer 2), um modelo inovador de visão-linguagem-ação (VLA). O RT-2 permite que robôs executem novas tarefas sem treinamento específico, aprendendo conceitos a partir de dados de texto e imagem na internet e traduzindo-os em ações robóticas. Em testes, o RT-2 demonstrou desempenho significativamente melhor em novas tarefas em comparação com seu antecessor, o RT-1.

Relacionado a isto:

Projeto Mariner do Google: Agente de IA experimental como extensão de navegador – Navegação web autônoma com a tecnologia DeepMind

Maçã

A Apple também está explorando designs de robôs humanoides e não humanoides. No entanto, a empresa ainda está em um estágio inicial de desenvolvimento. O analista Ming-Chi Kuo prevê que a produção em massa não será possível antes de 2028. A Apple está focando particularmente na interação humano-robô.

Relacionado a isto:

A Apple está dominada pela febre dos robôs? Anúncios de vagas revelam a ofensiva robótica da Apple: Será que a gigante da tecnologia agora está atacando o mercado de eletrodomésticos?

OpenAI

A OpenAI, antiga parceira da Figure AI, está construindo sua própria divisão de robótica e focando em robôs como a materialização da inteligência artificial no mundo real. A empresa agora compete diretamente com o Google DeepMind e outras no campo do desenvolvimento de IA para robótica.

🎯🎯🎯 Aproveite a vasta experiência da Xpert.Digital em cinco áreas, reunida em um pacote de serviços completo: Desenvolvimento de Negócios, P&D, Realidade Estendida, Relações Públicas e Otimização da Visibilidade Digital

Aproveite a vasta experiência da Xpert.Digital em cinco frentes, num pacote de serviços abrangente: P&D, XR, RP e Otimização da Visibilidade Digital. - Imagem: Xpert.Digital

A Xpert.Digital possui conhecimento profundo em diversos setores. Isso nos permite desenvolver estratégias personalizadas, precisamente alinhadas às necessidades e aos desafios do seu segmento de mercado específico. Ao analisar continuamente as tendências de mercado e monitorar os desenvolvimentos do setor, podemos agir de forma proativa e oferecer soluções inovadoras. A combinação de experiência e conhecimento especializado gera valor agregado e proporciona aos nossos clientes uma vantagem competitiva decisiva.

Mais informações aqui:

Aproveite as 5 áreas de especialização da Xpert.Digital em um único pacote – a partir de apenas € 500/mês

Helix: Diferenciação em comparação com outros sistemas de IA para robôs

Modelo VLA inovador: Helix combina percepção, linguagem e movimento

O recente lançamento do Helix pela Figure AI representa um avanço significativo no cenário da IA aplicada à robótica. Este inovador modelo de Visão-Linguagem-Ação (VLA) se diferencia dos sistemas existentes por meio de diversas funcionalidades revolucionárias, estabelecendo novos padrões para o controle de robôs humanoides. O Helix integra percepção visual, compreensão de fala e controle preciso de movimento em um único sistema projetado especificamente para enfrentar os desafios da robótica física.

Arquitetura exclusiva de sistema duplo

Talvez a diferença mais significativa entre o Helix e outros sistemas de IA para robôs resida em sua arquitetura inovadora de dois componentes. Essa estrutura de sistema duplo resolve um problema fundamental na IA aplicada à robótica.

Sistema 1 e Sistema 2: Uma inteligência complementar

Ao contrário das abordagens convencionais, o Helix utiliza dois sistemas complementares que, juntos, alcançam um equilíbrio único entre universalidade e velocidade. O Sistema 2 (S2) é um modelo de linguagem multimodal com 7 bilhões de parâmetros, operando a uma frequência de 7 a 9 Hz, e funciona como o "cérebro" analítico do robô. Ele processa dados visuais e comandos de voz, interpreta o ambiente e decide quais ações executar.

Complementando isso, temos o Sistema 1 (S1), uma unidade de controle visuomotor rápida e reativa com 80 milhões de parâmetros. Este componente traduz a informação semântica fornecida por S2 em ações robóticas precisas e contínuas a uma impressionante frequência de 200 Hz. A Figure AI explica que as abordagens anteriores falharam devido à falta de universalidade ou velocidade: "Usar VLM (Modelo Visual de Linguagem Ampla) é universal, mas não rápido, e usar estratégias de movimento visual para robôs é rápido, mas não universal." O Helix supera essa dicotomia por meio de sua estrutura dupla.

Essa arquitetura difere fundamentalmente de outros modelos VLA bem conhecidos, como o RT-2 do Google DeepMind, que também combina dados visuais e comandos de voz, mas não possui uma divisão comparável em duas partes.

Relacionado a isto:

A plataforma Gemini do Google com o Google AI Studio, o Google Deep Research com Gemini Advanced e o Google DeepMind

Capacidades de controle abrangentes

Controle sobre 35 graus de liberdade

Outra característica distintiva do Helix é sua capacidade de coordenar 35 graus de liberdade simultaneamente. Esse controle abrangente permite a manipulação precisa e em alta velocidade de toda a parte superior do corpo humanoide, incluindo pulsos, tronco, cabeça e dedos individuais. Essa capacidade de controle supera a maioria dos sistemas existentes e possibilita tarefas complexas de manipulação que exigem um alto grau de destreza motora fina.

Generalização e aprendizagem de objetos

Reconhecimento universal de objetos sem treinamento específico

Uma característica fundamental do Helix é sua capacidade de reconhecer e manipular praticamente qualquer pequeno objeto doméstico sem treinamento prévio sobre suas características específicas. Essa ampla generalidade permite que o sistema lide com milhares de objetos com diferentes formatos, tamanhos, cores e propriedades de materiais.

Ao contrário de muitos outros sistemas robóticos com IA que precisam ser reprogramados ou reconfigurados para cada nova tarefa ou tipo de objeto, o Helix consegue se adaptar a diferentes situações e responder a comandos em linguagem natural. Isso representa uma mudança de paradigma, já que o sistema utiliza uma única rede neural para aprender todos os comportamentos — como pegar e colocar objetos, usar gavetas e geladeiras e interagir com outros robôs — sem a necessidade de ajustes específicos para cada tarefa.

Coordenação multi-robô

Habilidades únicas de colaboração

O Helix é o primeiro modelo VLA capaz de controlar dois robôs simultaneamente e permitir que eles colaborem. Essa capacidade possibilita que os robôs resolvam em conjunto tarefas complexas envolvendo a passagem de objetos e a coordenação de seus movimentos. Particularmente notável é a comunicação quase humana entre os robôs, por meio de acenos de cabeça e contato visual.

Essa forma de coordenação representa um avanço significativo em relação aos sistemas convencionais, nos quais cada robô é normalmente controlado individualmente ou requer treinamento específico para funções particulares. Com o Helix, ambos os robôs utilizam os mesmos pesos de modelo, sem a necessidade de ajustes individuais.

Eficiência e implementação do treinamento

Requisitos mínimos de treinamento, desempenho máximo

Outra diferença fundamental reside na notável eficiência do processo de treinamento. O Helix foi desenvolvido utilizando apenas 500 horas de dados de treinamento teleoperados de alta qualidade, um número significativamente menor do que abordagens comparáveis que frequentemente exigem milhares de horas de demonstrações específicas. Essa eficiência não apenas ressalta a sofisticação técnica do sistema, mas também sua viabilidade econômica para aplicações comerciais.

Processamento com capacidade para sistemas embarcados

Ao contrário de muitos sistemas de IA para robótica que dependem de servidores externos potentes, o Helix funciona inteiramente com GPUs integradas e de baixo consumo de energia dentro dos robôs. Esse processamento a bordo elimina a necessidade de uma conexão constante com recursos computacionais externos, tornando o robô mais autônomo e flexível em diferentes ambientes.

Diferenciação estratégica

Integração vertical em vez de modelos genéricos de IA

A Figure AI diferenciou-se estrategicamente de outras empresas ao encerrar sua colaboração com a OpenAI e adotar uma estratégia de integração vertical, desenvolvendo tanto hardware quanto software internamente. O CEO Brett Adcock explicou que modelos genéricos de IA são insuficientes para atender aos requisitos da IA incorporada — ou seja, IA em robôs físicos. Essa decisão reforça a abordagem da empresa de desenvolver soluções personalizadas para os desafios específicos da robótica, em vez de depender de modelos gerais de IA.

Orientação de aplicação

Foco no uso doméstico

Enquanto muitas empresas do setor estão atualmente focadas em aplicações de robôs industriais ou para o ambiente de trabalho, a Figure AI está adotando uma abordagem estrategicamente surpreendente com o Helix, concentrando-se na robótica doméstica. A capacidade dos robôs de realizar tarefas cotidianas, como separar compras, abastecer a geladeira ou manusear uma ampla variedade de itens domésticos, visa um mercado que outras empresas geralmente consideram complexo demais para entrar.

Coordenação multi-robô: a chave para a próxima geração da robótica

O Helix se destaca de outros sistemas de robótica com IA devido à sua arquitetura de sistema duplo, amplas capacidades de controle, notável capacidade de generalização e coordenação multi-robô. Com seu eficiente processo de treinamento, processamento embarcado e foco estratégico em aplicações domésticas, ele representa um avanço significativo no desenvolvimento de robôs humanoides. Enquanto outros sistemas, como o RT-2 do Google DeepMind, seguem abordagens semelhantes, combinando dados visuais e comandos de voz, o Helix oferece vantagens diferenciadoras por meio de sua arquitetura exclusiva e abordagem de desenvolvimento integrada, tornando-o pioneiro na próxima geração de robôs com inteligência artificial.

Estamos aqui para você - Consultoria - Planejamento - Implementação - Gestão de Projetos

☑️ Apoio a PMEs em estratégia, consultoria, planejamento e implementação

☑️ Criação ou realinhamento da estratégia digital e digitalização

☑️ Expansão e otimização dos processos de vendas internacionais

☑️ Plataformas de negociação B2B globais e digitais

☑️ Desenvolvimento de Negócios Pioneiros

Konrad Wolfenstein

Terei o maior prazer em atuar como seu consultor pessoal.

Você pode entrar em contato comigo preenchendo o formulário abaixo ou simplesmente me ligando para +49 7348 4088 965 .

Estou ansioso pelo nosso projeto conjunto.

Escreva-me

➡️ Solicitação de chamada de vídeo 👩👱

Xpert.Digital - Konrad Wolfenstein

Xpert.Digital é um centro para a indústria com foco em digitalização, engenharia mecânica, logística/intralogística e energia fotovoltaica.

Com nossa solução de Desenvolvimento de Negócios 360°, apoiamos empresas renomadas desde a prospecção de novos negócios até o pós-venda.

Inteligência de mercado, smarketing, automação de marketing, desenvolvimento de conteúdo, relações públicas, campanhas de e-mail marketing, mídias sociais personalizadas e nutrição de leads fazem parte de nossas ferramentas digitais.

Você pode encontrar mais informações em: www.xpert.digital - www.xpert.solar - www.xpert.plus

Mantenha contato

Helix: O sistema de IA que leva os robôs humanoides a um novo patamar

Resumo: Visão, linguagem, movimento: Helix como um marco na robótica

Habilidades de Helix

Detalhes técnicos

Principais concorrentes

Google DeepMind

Meta

Maçã

OpenAI

🎯🎯🎯 Aproveite a vasta experiência da Xpert.Digital em cinco áreas, reunida em um pacote de serviços completo: Desenvolvimento de Negócios, P&D, Realidade Estendida, Relações Públicas e Otimização da Visibilidade Digital

Helix: Diferenciação em comparação com outros sistemas de IA para robôs

Modelo VLA inovador: Helix combina percepção, linguagem e movimento

Arquitetura exclusiva de sistema duplo

Sistema 1 e Sistema 2: Uma inteligência complementar

Capacidades de controle abrangentes

Controle sobre 35 graus de liberdade

Generalização e aprendizagem de objetos

Reconhecimento universal de objetos sem treinamento específico

Coordenação multi-robô

Habilidades únicas de colaboração

Eficiência e implementação do treinamento

Requisitos mínimos de treinamento, desempenho máximo

Processamento com capacidade para sistemas embarcados

Diferenciação estratégica

Integração vertical em vez de modelos genéricos de IA

Orientação de aplicação

Foco no uso doméstico

Coordenação multi-robô: a chave para a próxima geração da robótica

☑️ Apoio a PMEs em estratégia, consultoria, planejamento e implementação

☑️ Criação ou realinhamento da estratégia digital e digitalização

☑️ Expansão e otimização dos processos de vendas internacionais

☑️ Plataformas de negociação B2B globais e digitais

☑️ Desenvolvimento de Negócios Pioneiros

Outros tópicos