Ábra a mesterséges intelligencia robotikai mesterséges intelligencia rendszerének, a "Helix"-nek a humanoid robotokhoz való ábrázolásáról – egy látás-nyelv-cselekvés (VLA) modell

Konrad Wolfenstein

1 évvel ezelőtt

Ábra a mesterséges intelligencia robotikai mesterséges intelligencia rendszerének, a "Helix"-nek a humanoid robotokhoz való használatáról – egy látás-nyelv-cselekvés (VLA) modell – Kép: Xpert.Digital

Helix: A mesterséges intelligencia rendszer, amely új szintre emeli a humanoid robotokat

Összefoglalás: Látás, nyelv, mozgás: A Helix mint mérföldkő a robotikában

A Helix egy innovatív mesterséges intelligencia rendszer humanoid robotokhoz, amelyet a Figure AI fejlesztett ki. Ez egy látás-nyelv-cselekvés (VLA) modell, amely egyetlen rendszerben ötvözi a vizuális érzékelést, a beszédértést és a precíz motorvezérlést. A Helix jelentős előrelépést jelent a rugalmas robotikai rendszerek fejlesztésében strukturálatlan környezetek, például otthonok számára. Azzal a képességével, hogy előzetes képzés nélkül is képes összetett feladatokat elvégezni, forradalmasíthatja az ember-gép interakciót.

Ehhez kapcsolódóan:

Hangvezérelt robotok: A Helix by Figure AI mindent megváltoztat! Ipar, háztartás, jövő – értsd meg, tanulj, hajtsd végre valós időben

Helix képességei

A humanoid robotok teljes felsőtestének valós idejű vezérlése, beleértve a 35 mozgástengelyt is
Beszédbevitel és vizuális információk feldolgozása összetett feladatok elvégzéséhez
Ismeretlen tárgyak felismerése és kezelése speciális képzés nélkül
Több robot együttműködése a feladatok végrehajtásában
Háztartási feladatok elvégzése, például hűtőszekrény feltöltése

Műszaki részletek

Két fő összetevőből áll:

Egy 7 milliárd paraméterrel rendelkező multimodális nyelvi modell (7-9 Hz)
Mozgás MI 80 millió paraméterrel (200 Hz)

Mindössze 500 óra felügyelt képzésen esett át
Energiatakarékos beágyazott GPU-kon fut

Legnagyobb versenytársak

Google DeepMind: Az RT-2-höz hasonló VLA modellek fejlesztése
Meta: Fejlett humanoid robotokon dolgoznak
Apple: Szintén versenyben van a fejlett mesterséges intelligencia által fejlesztett humanoidokért
OpenAI: A Figure AI korábbi partnere, most versenytárs a mesterséges intelligencia fejlesztése területén

Google DeepMind

A Google DeepMind bemutatta az RT-2-t (Robotics Transformer 2), egy úttörő látás-nyelv-cselekvés (VLA) modellt. Az RT-2 lehetővé teszi a robotok számára, hogy új feladatokat hajtsanak végre speciális képzés nélkül azáltal, hogy az interneten található szöveges és képi adatokból tanulnak fogalmakat, és robotikus cselekvésekké alakítják azokat. A tesztek során az RT-2 jelentősen jobb teljesítményt mutatott az új feladatokban az elődjéhez, az RT-1-hez képest.

Ehhez kapcsolódóan:

Google Project Mariner: Kísérleti mesterséges intelligencia ágens böngészőbővítményként – Autonóm webes navigáció DeepMind technológiával

Méta

A Meta jelentős összegeket fektet be mesterséges intelligenciával hajtott humanoid robotok fejlesztésébe. A vállalat egy új csapatot hozott létre a Reality Labs részlegen belül, amely a fogyasztóknak szánt robotok kutatására és fejlesztésére összpontosít. A Meta olyan mesterséges intelligencia alapú rendszerek, érzékelők és szoftverplatformok fejlesztését tervezi, amelyeket más gyártók is használhatnak.

Alma

Az Apple humanoid és nem humanoid robotok tervezésén is dolgozik. A vállalat azonban még mindig a fejlesztés korai szakaszában van. Ming-Chi Kuo elemző szerint a tömeggyártás legkorábban 2028-ban lehetséges. Az Apple különösen az ember-robot interakcióra összpontosít.

Ehhez kapcsolódóan:

Robotláz sújtja az Apple-t? Álláshirdetések mutatják az Apple robotoffenzíváját: Vajon a techóriás most a háztartási gépek piacát támadja?

Nyílt mesterséges intelligencia

Az OpenAI, a Figure AI korábbi partnere, saját robotikai részleget épít, és a robotokra, mint a mesterséges intelligencia valós világban való megtestesítőire összpontosít. A vállalat most közvetlenül versenyez a Google DeepMinddel és másokkal a robotika mesterséges intelligencia fejlesztésének területén.

🎯🎯🎯 Profitáljon az Xpert.Digital széleskörű, ötszörös szakértelméből egyetlen átfogó szolgáltatáscsomagban | BD, K+F, XR, PR és digitális láthatóság optimalizálása

Profitáljon az Xpert.Digital széleskörű, ötszörös szakértelméből egy átfogó szolgáltatáscsomagban | K+F, XR, PR és digitális láthatóság optimalizálása - Kép: Xpert.Digital

Az Xpert.Digital mélyreható ismeretekkel rendelkezik a különböző iparágakban. Ez lehetővé teszi számunkra, hogy személyre szabott stratégiákat dolgozzunk ki, amelyek pontosan illeszkednek az Ön konkrét piaci szegmensének követelményeihez és kihívásaihoz. A piaci trendek folyamatos elemzésével és az iparági fejlemények nyomon követésével proaktívan tudunk cselekedni és innovatív megoldásokat kínálni. A tapasztalat és a szakértelem kombinációja hozzáadott értéket teremt, és döntő versenyelőnyt biztosít ügyfeleink számára.

További információ itt:

Profitáljon az Xpert.Digital 5 szakterületéből egyetlen csomagban – már havi 500 eurótól!

Helix: Különbség más robotokhoz használt mesterséges intelligencia rendszerekhez képest

Innovatív VLA modell: A Helix ötvözi az érzékelést, a nyelvet és a mozgást

A Figure AI nemrégiben bemutatott Helix jelentős előrelépést jelent a robotikai mesterséges intelligencia világában. Ez az innovatív látás-nyelv-cselekvés (VLA) modell számos úttörő funkciójával különbözteti meg magát a meglévő rendszerektől, új mércét állítva fel a humanoid robotok irányításában. A Helix egyetlen rendszerben integrálja a vizuális érzékelést, a beszédértést és a precíz mozgásvezérlést, amelyet kifejezetten a fizikai robotika kihívásainak kezelésére terveztek.

Egyedi kettős rendszerű architektúra

Talán a Helix és más robotokhoz készült mesterséges intelligencia rendszerek közötti legjelentősebb különbség az innovatív kétkomponensű architektúrájában rejlik. Ez a kettős rendszerű struktúra egy alapvető problémát old meg a robotikai mesterséges intelligenciában.

1. és 2. rendszer: Kiegészítő intelligencia

A hagyományos megközelítésekkel ellentétben a Helix két egymást kiegészítő rendszert használ, amelyek együttesen egyedülálló egyensúlyt érnek el az univerzalitás és a sebesség között. A 2. rendszer (S2) egy 7 milliárd paraméterrel rendelkező multimodális nyelvi modell, amely 7-9 Hz frekvencián működik, és a robot analitikus "agyaként" funkcionál. Feldolgozza a vizuális adatokat és a hangutasításokat, értelmezi a környezetet, és eldönti, hogy mely műveleteket hajtsa végre.

Ezt egészíti ki az 1. rendszer (S1), egy gyors, reaktív vizuális motorvezérlő egység 80 millió paraméterrel. Ez a komponens az S2 által szolgáltatott szemantikai információkat precíz, folyamatos robotműveletekké alakítja lenyűgöző 200 Hz-es frekvencián. Az AI ábra elmagyarázza, hogy a korábbi megközelítések vagy az univerzalitás, vagy a sebesség hiánya miatt buktak meg: „A VLM (Visual Large Language Model) használata univerzális, de nem gyors, és a vizuális mozgásstratégiák használata robotoknál gyors, de nem univerzális.” A Helix kettős szerkezetével küzdi le ezt a dichotómiát.

Ez az architektúra alapvetően eltér más ismert VLA modellektől, mint például a Google DeepMind RT-2-je, amely szintén kombinálja a vizuális adatokat és a hangutasításokat, de nem rendelkezik összehasonlítható két részre osztási módszerrel.

Ehhez kapcsolódóan:

A Google Gemini platformja a Google AI Studio-val, a Google Deep Research a Gemini Advanced-kel és a Google DeepMind

Átfogó vezérlési lehetőségek

35 szabadságfok feletti kontroll

A Helix egy másik megkülönböztető jellemzője, hogy 35 szabadságfokot képes egyszerre koordinálni. Ez az átfogó vezérlés lehetővé teszi a teljes humanoid felsőtest, beleértve a csuklót, a törzset, a fejet és az egyes ujjakat is, precíz, nagy sebességű manipulációját. Ez a vezérlési képesség felülmúlja a legtöbb meglévő rendszert, és lehetővé teszi a magas fokú finommotoros készségeket igénylő összetett manipulációs feladatokat.

Objektumgeneralizálás és tanulás

Univerzális tárgyfelismerés speciális képzés nélkül

A Helix egyik kulcsfontosságú jellemzője, hogy gyakorlatilag bármilyen apró háztartási tárgyat képes felismerni és kezelni anélkül, hogy előzetesen betanították volna annak konkrét jellemzőit. Ez a széleskörű általánosíthatóság lehetővé teszi a rendszer számára, hogy több ezer, különböző formájú, méretű, színű és anyagtulajdonságú tárgyat kezeljen.

Sok más mesterséges intelligencia alapú robotrendszerrel ellentétben, amelyeket minden új feladathoz vagy tárgytípushoz újra kell programozni vagy újra kell képezni, a Helix képes alkalmazkodni a különböző helyzetekhez és reagálni a természetes nyelvi parancsokra. Ez paradigmaváltást jelent, mivel a rendszer egyetlen neurális hálózatot használ az összes viselkedés – például a tárgyak felvétele és letétele, a fiókok és hűtőszekrények használata, valamint a más robotokkal való interakció – megtanulására feladatspecifikus finomhangolás nélkül.

Több robot koordinációja

Egyedi együttműködési készségek

A Helix az első olyan VLA modell, amely képes két robot egyidejű vezérlésére és együttműködésük lehetővé tételére. Ez a képesség lehetővé teszi a robotok számára, hogy közösen oldjanak meg összetett feladatokat, amelyek magukban foglalják az objektumok elhaladását és mozgásuk összehangolását. Különösen figyelemre méltó a robotok közötti, szinte emberihez hasonló kommunikáció bólogatás és szemkontaktus révén.

Ez a koordinációs forma jelentős előrelépést jelent a hagyományos rendszerekhez képest, ahol minden robotot jellemzően külön vezérelnek, vagy az adott szerepkörökhöz speciális képzés szükséges. A Helix segítségével mindkét robot ugyanazokat a modellsúlyokat használja anélkül, hogy egyedi beállításokra lenne szükség.

Képzési hatékonyság és megvalósítás

Minimális képzési igény, maximális teljesítmény

Egy másik fontos különbség a betanítási folyamat figyelemre méltó hatékonyságában rejlik. A Helix fejlesztése mindössze 500 órányi kiváló minőségű, távvezérelt betanítási adat felhasználásával történt, ami lényegesen kevesebb, mint a hasonló megközelítések esetében, amelyek gyakran több ezer órányi speciális demonstrációt igényelnek. Ez a hatékonyság nemcsak a rendszer technikai kifinomultságát hangsúlyozza, hanem gazdasági életképességét is kereskedelmi alkalmazások szempontjából.

Beágyazott feldolgozás

Sok más, nagy teljesítményű külső szerverekre támaszkodó robotikai MI-rendszerrel ellentétben a Helix teljes egészében beágyazott, energiahatékony GPU-kon fut a robotokon belül. Ez a beépített feldolgozás kiküszöböli a külső számítási erőforrásokhoz való állandó kapcsolat szükségességét, így a robot autonómabb és rugalmasabb a különböző környezetekben.

Stratégiai megkülönböztetés

Vertikális integráció az általános AI-modellek helyett

A Figure AI stratégiailag megkülönböztette magát a többi vállalattól azáltal, hogy befejezte az OpenAI-val való együttműködést, és vertikálisan integrált stratégiát követett, amely során mind a hardvert, mind a szoftvert házon belül fejlesztette. Brett Adcock vezérigazgató kifejtette, hogy az általános MI-modellek nem elegendőek a megtestesült MI – azaz a fizikai robotokban lévő MI – követelményeinek kielégítésére. Ez a döntés hangsúlyozza a vállalat azon megközelítését, hogy a robotika konkrét kihívásaira testreszabott megoldásokat fejlesszen ki, ahelyett, hogy az általános MI-modellekre támaszkodna.

Alkalmazásorientáltság

Fókuszban a háztartási használat

Míg számos iparági szereplő jelenleg ipari vagy munkahelyi robotalkalmazásokra összpontosít, a Figure AI egy stratégiailag meglepő megközelítést alkalmaz a Helixszel, amely a háztartási robotikára összpontosít. A robotok mindennapi feladatok elvégzésére való képessége, mint például az élelmiszerek válogatása, a hűtőszekrény feltöltése vagy a különféle háztartási cikkek kezelése, egy olyan piacot céloz meg, amelyet más szereplők gyakran túl összetettnek tartanak ahhoz, hogy belépjenek.

Többrobotos koordináció: A robotika következő generációjának kulcsa

A Helix kettős rendszerű architektúrája, átfogó vezérlési képességei, figyelemre méltó általánosítási képessége és többrobotos koordinációja miatt kiemelkedik a többi mesterséges intelligencia alapú robotikai rendszer közül. Hatékony betanítási folyamatával, beágyazott feldolgozásával és a háztartási alkalmazásokra való stratégiai összpontosításával jelentős előrelépést jelent a humanoid robotok fejlesztésében. Míg más rendszerek, mint például a Google DeepMind RT-2-je, hasonló megközelítéseket alkalmaznak a vizuális adatok és a hangutasítások kombinálásában, a Helix egyedi architektúrája és integrált fejlesztési megközelítése révén megkülönböztető előnyöket kínál, így úttörővé teszi a mesterséges intelligencia alapú robotok következő generációjában.

Itt vagyunk Önnek - Tanácsadás - Tervezés - Megvalósítás - Projektmenedzsment

☑️ KKV-támogatás a stratégiában, tanácsadásban, tervezésben és megvalósításban

☑️ Digitális stratégia létrehozása vagy átalakítása és digitalizáció

☑️ Nemzetközi értékesítési folyamatok bővítése és optimalizálása

☑️ Globális és digitális B2B kereskedési platformok

☑️ Úttörő üzletfejlesztés

Konrad Wolfenstein

Örömmel lennék az Ön személyes tanácsadója.

Kapcsolatba léphet velem az alábbi kapcsolatfelvételi űrlap kitöltésével, vagy egyszerűen hívjon a +49 7348 4088 965 .

Alig várom a közös projektünket.

Írj nekem

➡️ Videóhívás kérése 👩👱

Xpert.Digital - Konrad Wolfenstein

Az Xpert.Digital egy iparági központ, amely a digitalizációra, a gépészetre, a logisztikára/intralogisztikára és a fotovoltaikus elemekre összpontosít.

360°-os üzletfejlesztési megoldásunkkal elismert vállalatokat támogatunk az új üzletektől az értékesítés utáni szolgáltatásokig.

Piackutatás, smarketing, marketingautomatizálás, tartalomfejlesztés, PR, levelezési kampányok, személyre szabott közösségi média és érdeklődőgondozás digitális eszközeink részét képezik.

További információkat a következő weboldalakon talál: www.xpert.digital - www.xpert.solar - www.xpert.plus

Tartsuk a kapcsolatot

Helix: A mesterséges intelligencia rendszer, amely új szintre emeli a humanoid robotokat

Összefoglalás: Látás, nyelv, mozgás: A Helix mint mérföldkő a robotikában

Helix képességei

Műszaki részletek

Legnagyobb versenytársak

Google DeepMind

Méta

Alma

Nyílt mesterséges intelligencia

🎯🎯🎯 Profitáljon az Xpert.Digital széleskörű, ötszörös szakértelméből egyetlen átfogó szolgáltatáscsomagban | BD, K+F, XR, PR és digitális láthatóság optimalizálása

Helix: Különbség más robotokhoz használt mesterséges intelligencia rendszerekhez képest

Innovatív VLA modell: A Helix ötvözi az érzékelést, a nyelvet és a mozgást

Egyedi kettős rendszerű architektúra

1. és 2. rendszer: Kiegészítő intelligencia

Átfogó vezérlési lehetőségek

35 szabadságfok feletti kontroll

Objektumgeneralizálás és tanulás

Univerzális tárgyfelismerés speciális képzés nélkül

Több robot koordinációja

Egyedi együttműködési készségek

Képzési hatékonyság és megvalósítás

Minimális képzési igény, maximális teljesítmény

Beágyazott feldolgozás

Stratégiai megkülönböztetés

Vertikális integráció az általános AI-modellek helyett

Alkalmazásorientáltság

Fókuszban a háztartási használat

Többrobotos koordináció: A robotika következő generációjának kulcsa

☑️ KKV-támogatás a stratégiában, tanácsadásban, tervezésben és megvalósításban

☑️ Digitális stratégia létrehozása vagy átalakítása és digitalizáció

☑️ Nemzetközi értékesítési folyamatok bővítése és optimalizálása

☑️ Globális és digitális B2B kereskedési platformok

☑️ Úttörő üzletfejlesztés

Egyéb témák