Il sistema di AI robotico "Helix" di Figure AI per il modello di azione del linguaggio della visione umanoide-a Vision (VLA)

Konrad Wolfenstein

10 mesi fa

Sistema di intelligenza artificiale robotica "Helix" di Figure AI per robot umanoidi: un modello Visione-Linguaggio-Azione (VLA) - Immagine: Xpert.Digital

Helix: il sistema di intelligenza artificiale che porta i robot umanoidi a un nuovo livello

Riepilogo: Visione, linguaggio, movimento: Helix come pietra miliare nella robotica

Helix è un innovativo sistema di intelligenza artificiale per robot umanoidi sviluppato da Figure AI. Si tratta di un modello Vision-Language-Action (VLA) che combina percezione visiva, comprensione del parlato e controllo motorio preciso in un unico sistema. Helix segna un significativo passo avanti nello sviluppo di sistemi robotici flessibili per ambienti non strutturati come le abitazioni. Grazie alla sua capacità di eseguire compiti complessi senza formazione preventiva, potrebbe rivoluzionare l'interazione uomo-macchina.

Adatto a:

Language -Robot controllato: Helix dalla figura AI cambia tutto! Industria, famiglia, futuro - comprensione, apprendimento, esecuzione in tempo reale

Le abilità di Helix

Controllo in tempo reale dell'intera parte superiore del corpo dei robot umanoidi, compresi 35 assi di movimento
Elaborazione di input vocali e informazioni visive per eseguire attività complesse
Riconoscimento e manipolazione di oggetti sconosciuti senza formazione specifica
Collaborazione tra più robot nell'esecuzione di compiti
Svolgere lavori domestici come riempire il frigorifero

Dettagli tecnici

È costituito da due componenti principali:

Un modello linguistico multimodale con 7 miliardi di parametri (7-9 Hz)
Un'intelligenza artificiale di movimento con 80 milioni di parametri (200 Hz)

Formato con sole 500 ore di formazione supervisionata
Funziona con GPU integrate a basso consumo energetico

I maggiori concorrenti

Google DeepMind: sviluppo di modelli VLA simili a RT-2
Meta: Stiamo lavorando su robot umanoidi avanzati
Apple: anche in gara per sviluppare umanoidi con intelligenza artificiale avanzata
OpenAI: ex partner di Figure AI, ora concorrente nel campo dello sviluppo dell'intelligenza artificiale

Google DeepMind

Google DeepMind ha presentato RT-2 (Robotics Transformer 2), un rivoluzionario modello di visione-linguaggio-azione (VLA). RT-2 consente ai robot di svolgere nuovi compiti senza una formazione specifica, apprendendo concetti da dati testuali e immagini presenti su Internet e traducendoli in azioni robotiche. Nei test, RT-2 ha dimostrato prestazioni significativamente migliori su nuovi compiti rispetto al suo predecessore, RT-1.

Adatto a:

Google Project Mariner: agente AI sperimentale come estensione del browser – Navigazione web autonoma con tecnologia DeepMind

Mela

Apple sta anche esplorando progetti di robot sia umanoidi che non umanoidi. Tuttavia, l'azienda è ancora in una fase iniziale di sviluppo. L'analista Ming-Chi Kuo prevede che la produzione di massa non sarà possibile prima del 2028. Apple si sta concentrando in particolare sull'interazione uomo-robot.

Adatto a:

Apple è in preda alla febbre dei robot? Gli annunci di lavoro rivelano l'offensiva robotica di Apple: il gigante della tecnologia sta ora attaccando il mercato degli elettrodomestici?

OpenAI

OpenAI, ex partner di Figure AI, sta creando una propria divisione di robotica e si concentra sui robot come incarnazione dell'intelligenza artificiale nel mondo reale. L'azienda ora compete direttamente con Google DeepMind e altri nel campo dello sviluppo di intelligenza artificiale per la robotica.

🎯🎯🎯 Approfitta della vasta e quintuplicata competenza di Xpert.Digital in un pacchetto di servizi completo | BD, R&D, XR, PR e ottimizzazione della visibilità digitale

Approfitta dell'ampia e quintuplicata competenza di Xpert.Digital in un pacchetto di servizi completo | Ottimizzazione di R&S, XR, PR e visibilità digitale - Immagine: Xpert.Digital

Xpert.Digital ha una conoscenza approfondita di vari settori. Questo ci consente di sviluppare strategie su misura che si adattano esattamente alle esigenze e alle sfide del vostro specifico segmento di mercato. Analizzando continuamente le tendenze del mercato e seguendo gli sviluppi del settore, possiamo agire con lungimiranza e offrire soluzioni innovative. Attraverso la combinazione di esperienza e conoscenza, generiamo valore aggiunto e diamo ai nostri clienti un vantaggio competitivo decisivo.

Maggiori informazioni qui:

Utilizza l'esperienza 5x di Xpert.Digital in un unico pacchetto, a partire da soli € 500/mese

Helix: Differenziazione rispetto ad altri sistemi di intelligenza artificiale per robot

Modello VLA innovativo: Helix combina percezione, linguaggio e movimento

Il recente lancio di Helix da parte di Figure AI segna un significativo progresso nel panorama dell'intelligenza artificiale robotica. Questo innovativo modello Vision-Language-Action (VLA) si distingue dai sistemi esistenti per diverse caratteristiche innovative, stabilendo nuovi standard per il controllo dei robot umanoidi. Helix integra percezione visiva, comprensione del parlato e controllo preciso del movimento in un unico sistema, specificamente progettato per affrontare le sfide della robotica fisica.

Architettura unica a doppio sistema

Forse la differenza più significativa tra Helix e altri sistemi di intelligenza artificiale per robot risiede nella sua innovativa architettura a due componenti. Questa struttura a doppio sistema risolve un problema fondamentale nell'intelligenza artificiale robotica.

Sistema 1 e Sistema 2: un'intelligenza complementare

A differenza degli approcci convenzionali, Helix utilizza due sistemi complementari che insieme raggiungono un equilibrio unico tra universalità e velocità. Il Sistema 2 (S2) è un modello linguistico multimodale con 7 miliardi di parametri, operante a una frequenza di 7-9 Hz, e funge da "cervello" analitico del robot. Elabora dati visivi e comandi vocali, interpreta l'ambiente e decide quali azioni eseguire.

A completare questo c'è il Sistema 1 (S1), un'unità di controllo visuo-motorio veloce e reattiva con 80 milioni di parametri. Questo componente traduce le informazioni semantiche fornite da S2 in azioni robotiche precise e continue a un'impressionante frequenza di 200 Hz. Figure AI spiega che gli approcci precedenti hanno fallito a causa della mancanza di universalità o di velocità: "L'utilizzo del VLM (Visual Large Language Model) è universale ma non veloce, e l'utilizzo di strategie di movimento visivo per i robot è veloce ma non universale". Helix supera questa dicotomia grazie alla sua struttura duale.

Questa architettura differisce fondamentalmente da altri noti modelli VLA, come RT-2 di Google DeepMind, che combina anch'esso dati visivi e comandi vocali, ma non presenta una suddivisione comparabile in due parti.

Adatto a:

La piattaforma Gemini di Google con Google AI Studio, Google Deep Research con Gemini Advanced e Google DeepMind

Capacità di controllo complete

Controllo su 35 gradi di libertà

Un'altra caratteristica distintiva di Helix è la sua capacità di coordinare 35 gradi di libertà simultaneamente. Questo controllo completo consente una manipolazione precisa e ad alta velocità dell'intera parte superiore del corpo umanoide, inclusi polsi, torso, testa e singole dita. Questa capacità di controllo supera la maggior parte dei sistemi esistenti e consente di eseguire manipolazioni complesse che richiedono un elevato grado di abilità motorie fini.

Generalizzazione e apprendimento degli oggetti

Riconoscimento universale degli oggetti senza formazione specifica

Una caratteristica fondamentale di Helix è la sua capacità di riconoscere e gestire praticamente qualsiasi piccolo oggetto domestico senza bisogno di un addestramento preliminare sulle sue caratteristiche specifiche. Questa ampia generalizzabilità consente al sistema di gestire migliaia di oggetti con forme, dimensioni, colori e proprietà dei materiali diverse.

A differenza di molti altri sistemi robotici basati sull'intelligenza artificiale, che devono essere riprogrammati o riqualificati per ogni nuovo compito o tipo di oggetto, Helix può adattarsi a diverse situazioni e rispondere a comandi in linguaggio naturale. Questo rappresenta un cambio di paradigma, poiché il sistema utilizza un'unica rete neurale per apprendere tutti i comportamenti, come raccogliere e posare oggetti, usare cassetti e frigoriferi e interagire con altri robot, senza bisogno di regolazioni specifiche per ogni compito.

Coordinamento multi-robot

Capacità di collaborazione uniche

Helix è il primo modello VLA in grado di controllare simultaneamente due robot e di consentire loro di collaborare. Questa capacità consente ai robot di risolvere congiuntamente compiti complessi che richiedono il passaggio di oggetti e il coordinamento dei loro movimenti. Particolarmente degna di nota è la comunicazione quasi umana tra i robot, basata su cenni del capo e contatto visivo.

Questa forma di coordinamento rappresenta un significativo progresso rispetto ai sistemi convenzionali, in cui ogni robot è tipicamente controllato individualmente o richiede una formazione specifica per ruoli specifici. Con Helix, entrambi i robot utilizzano gli stessi pesi modello senza la necessità di regolazioni individuali.

Efficienza e implementazione della formazione

Requisiti di formazione minimi, massime prestazioni

Un'altra differenza fondamentale risiede nella notevole efficienza del processo di addestramento. Helix è stato sviluppato utilizzando solo 500 ore di dati di addestramento teleoperati di alta qualità, significativamente meno rispetto ad approcci comparabili che spesso richiedono migliaia di ore di dimostrazioni specifiche. Questa efficienza non solo sottolinea la sofisticatezza tecnica del sistema, ma anche la sua fattibilità economica per applicazioni commerciali.

Elaborazione con capacità embedded

A differenza di molti sistemi di intelligenza artificiale robotica che si basano su potenti server esterni, Helix funziona interamente su GPU integrate a basso consumo energetico all'interno dei robot. Questa elaborazione integrata elimina la necessità di una connessione costante a risorse di elaborazione esterne, rendendo il robot più autonomo e flessibile in diversi ambienti.

Differenziazione strategica

Integrazione verticale invece di modelli di intelligenza artificiale generici

Figure AI si è differenziata strategicamente dalle altre aziende interrompendo la collaborazione con OpenAI e perseguendo una strategia di integrazione verticale, sviluppando internamente sia hardware che software. Il CEO Brett Adcock ha spiegato che i modelli di intelligenza artificiale generici non sono sufficienti a soddisfare i requisiti dell'intelligenza artificiale incorporata, ovvero l'intelligenza artificiale nei robot fisici. Questa decisione sottolinea l'approccio dell'azienda, che punta a sviluppare soluzioni su misura per le sfide specifiche della robotica, piuttosto che affidarsi a modelli di intelligenza artificiale generici.

Orientamento all'applicazione

Concentrarsi sull'uso domestico

Mentre molti attori del settore si stanno attualmente concentrando su applicazioni robotiche industriali o sul posto di lavoro, Figure AI sta perseguendo un approccio strategicamente sorprendente con Helix, concentrandosi sulla robotica domestica. La capacità dei robot di svolgere attività quotidiane come smistare la spesa, riempire il frigorifero o maneggiare un'ampia varietà di articoli per la casa si rivolge a un mercato che altri attori spesso considerano troppo complesso per entrare.

Coordinamento multi-robot: la chiave per la prossima generazione di robotica

Helix si distingue dagli altri sistemi robotici basati sull'intelligenza artificiale per la sua architettura a doppio sistema, le ampie capacità di controllo, la notevole capacità di generalizzazione e il coordinamento multi-robot. Grazie al suo efficiente processo di addestramento, all'elaborazione integrata e all'attenzione strategica alle applicazioni domestiche, rappresenta un significativo progresso nello sviluppo di robot umanoidi. Mentre altri sistemi, come RT-2 di Google DeepMind, perseguono approcci simili combinando dati visivi e comandi vocali, Helix offre vantaggi distintivi grazie alla sua architettura unica e all'approccio di sviluppo integrato, rendendolo un pioniere nella prossima generazione di robot basati sull'intelligenza artificiale.

Siamo a vostra disposizione: consulenza, pianificazione, implementazione, gestione del progetto

☑️ Supporto alle PMI nella strategia, consulenza, pianificazione e implementazione

☑️ Creazione o riallineamento della strategia digitale e digitalizzazione

☑️ Espansione e ottimizzazione dei processi di vendita internazionali

☑️ Piattaforme di trading B2B globali e digitali

☑️ Sviluppo aziendale pionieristico

Konrad Wolfenstein

Sarei felice di fungere da tuo consulente personale.

Potete contattarmi compilando il modulo di contatto qui sotto o semplicemente chiamandomi al numero +49 89 89 674 804 (Monaco) .

Non vedo l'ora di iniziare il nostro progetto comune.

Scrivimi

➡️ Richiesta videochiamata 👩👱

Xpert.Digital - Konrad Wolfenstein

Xpert.Digital è un hub per l'industria con focus su digitalizzazione, ingegneria meccanica, logistica/intralogistica e fotovoltaico.

Con la nostra soluzione di sviluppo aziendale a 360° supportiamo aziende rinomate dal nuovo business al post-vendita.

Market intelligence, smarketing, marketing automation, sviluppo di contenuti, PR, campagne email, social media personalizzati e lead nurturing fanno parte dei nostri strumenti digitali.

Potete saperne di più su: www.xpert.digital - www.xpert.solar - www.xpert.plus

Rimaniamo in contatto

Helix: il sistema di intelligenza artificiale che porta i robot umanoidi a un nuovo livello

Riepilogo: Visione, linguaggio, movimento: Helix come pietra miliare nella robotica

Le abilità di Helix

Dettagli tecnici

I maggiori concorrenti

Google DeepMind

Meta

Mela

OpenAI

🎯🎯🎯 Approfitta della vasta e quintuplicata competenza di Xpert.Digital in un pacchetto di servizi completo | BD, R&D, XR, PR e ottimizzazione della visibilità digitale

Helix: Differenziazione rispetto ad altri sistemi di intelligenza artificiale per robot

Modello VLA innovativo: Helix combina percezione, linguaggio e movimento

Architettura unica a doppio sistema

Sistema 1 e Sistema 2: un'intelligenza complementare

Capacità di controllo complete

Controllo su 35 gradi di libertà

Generalizzazione e apprendimento degli oggetti

Riconoscimento universale degli oggetti senza formazione specifica

Coordinamento multi-robot

Capacità di collaborazione uniche

Efficienza e implementazione della formazione

Requisiti di formazione minimi, massime prestazioni

Elaborazione con capacità embedded

Differenziazione strategica

Integrazione verticale invece di modelli di intelligenza artificiale generici

Orientamento all'applicazione

Concentrarsi sull'uso domestico

Coordinamento multi-robot: la chiave per la prossima generazione di robotica

☑️ Supporto alle PMI nella strategia, consulenza, pianificazione e implementazione

☑️ Creazione o riallineamento della strategia digitale e digitalizzazione

☑️ Espansione e ottimizzazione dei processi di vendita internazionali

☑️ Piattaforme di trading B2B globali e digitali

☑️ Sviluppo aziendale pionieristico

altri argomenti