Joonistage tehisintellekti robootika tehisintellekti süsteem „Helix” humanoidrobotite jaoks – nägemise-keele-tegevuse (VLA) mudel

Xpert eelväljaanne

Available in 27 languages 📢

Avaldatud: 28. veebruar 2025 / Uuendatud: 28. veebruar 2025 – Autor: Konrad Wolfenstein

Joonistage tehisintellekti robootika tehisintellekti süsteemi „Helix” humanoidrobotite jaoks – nägemise-keele-tegevuse (VLA) mudel – pilt: Xpert.Digital

Helix: tehisintellekti süsteem, mis viib humanoidrobotid uuele tasemele

Kokkuvõte: Nägemine, keel, liikumine: Helix kui robootika verstapost

Helix on Figure AI poolt välja töötatud uuenduslik tehisintellekti süsteem humanoidrobotite jaoks. See on nägemise-keele-tegevuse (VLA) mudel, mis ühendab visuaalse taju, kõne mõistmise ja täpse mootori juhtimise ühes süsteemis. Helix tähistab olulist edasiminekut paindlike robotisüsteemide arendamisel struktureerimata keskkondadesse, näiteks kodudesse. Oma võimega täita keerulisi ülesandeid ilma eelneva väljaõppeta võib see muuta inimese ja masina interaktsiooni revolutsiooniliselt.

Sobib selleks:

Hääljuhtimisega robotid: Helix by Figure AI muudab kõike! Tööstus, kodumajapidamine, tulevik – mõista, õpi, tegutse reaalajas

Helixi võimed

Humanoidrobotite kogu ülakeha reaalajas juhtimine, sealhulgas 35 liikumistelge
Kõne sisendi ja visuaalse teabe töötlemine keerukate ülesannete täitmiseks
Tundmatute objektide äratundmine ja käsitsemine ilma eriväljaõppeta
Mitme roboti koostöö ülesannete täitmisel
Kodutööde tegemine, näiteks külmkapi täitmine

Tehnilised üksikasjad

Koosneb kahest põhikomponendist:

Multimodaalne keelemudel 7 miljardi parameetriga (7–9 Hz)
Liikumis-tehisintellekt 80 miljoni parameetriga (200 Hz)

Koolitatud vaid 500 tunni juhendatud koolitusega
Töötab energiasäästlikel sisseehitatud GPU-del

Suurimad konkurendid

Google DeepMind: RT-2-ga sarnaste VLA-mudelite arendamine
Meta: Töötamine täiustatud humanoidrobotite kallal
Apple: Samuti võidujooksus täiustatud tehisintellektiga humanoidide arendamiseks
OpenAI: Figure AI endine partner, nüüd tehisintellekti arendamise valdkonnas konkurent

Google DeepMind

Google DeepMind avalikustas RT-2 (Robotics Transformer 2), murrangulise nägemise-keele-tegevuse (VLA) mudeli. RT-2 võimaldab robotitel täita uusi ülesandeid ilma eriväljaõppeta, õppides internetist teksti- ja pildiandmetest kontseptsioone ning teisendades need robotlikeks tegevusteks. Testides näitas RT-2 uute ülesannete puhul oma eelkäija RT-1-ga võrreldes oluliselt paremat jõudlust.

Sobib selleks:

Google Project Mariner: eksperimentaalne tehisintellekti agent brauserilaiendina – autonoomne veebinavigatsioon DeepMindi tehnoloogiaga

Õun

Apple uurib ka nii humanoidsete kui ka mittehumanoidsete robotite disaini. Siiski on ettevõte alles arendusjärgus. Analüütik Ming-Chi Kuo ennustab, et masstootmine on võimalik kõige varem 2028. aastal. Apple keskendub eriti inimese ja roboti interaktsioonile.

Sobib selleks:

Kas Apple'it haarab robotipalavik? Töökuulutused paljastavad Apple'i robotirünnaku: kas tehnoloogiahiiglane ründab nüüd kodumasinate turgu?

OpenAI

OpenAI, Figure AI endine partner, ehitab üles oma robootikaosakonda ja keskendub robotitele kui tehisintellekti kehastusele reaalses maailmas. Ettevõte konkureerib nüüd otseselt Google DeepMindi ja teistega robootika tehisintellekti arendamise valdkonnas.

🎯🎯🎯 Saa kasu Xpert.Digitali ulatuslikust, viiest astmest koosnevast asjatundlikkusest terviklikus teenustepaketis | BD, R&D, XR, PR ja digitaalse nähtavuse optimeerimine

Saage kasu Xpert.Digitali ulatuslikust, viiekordsest asjatundlikkusest terviklikus teenustepaketis | Teadus- ja arendustegevus, XR, PR ja digitaalse nähtavuse optimeerimine - Pilt: Xpert.Digital

Xpert.digital on sügavad teadmised erinevates tööstusharudes. See võimaldab meil välja töötada kohandatud strateegiad, mis on kohandatud teie konkreetse turusegmendi nõuetele ja väljakutsetele. Analüüsides pidevalt turusuundumusi ja jätkates tööstuse arengut, saame tegutseda ettenägelikkusega ja pakkuda uuenduslikke lahendusi. Kogemuste ja teadmiste kombinatsiooni abil genereerime lisaväärtust ja anname klientidele otsustava konkurentsieelise.

Lisateavet selle kohta siin:

Kasutage Xpert.digital 5 -kordist kompetentsi ühes paketis alates 500 €/kuus

Helix: Erinevus võrreldes teiste robotite tehisintellekti süsteemidega

Innovatiivne VLA mudel: Helix ühendab taju, keele ja liikumise

Figure AI hiljutine Helixi turuletoomine tähistab olulist edasiminekut robootika tehisintellekti maastikul. See uuenduslik nägemise-keele-tegevuse (VLA) mudel eristub olemasolevatest süsteemidest mitme murrangulise funktsiooni poolest, kehtestades humanoidrobotite juhtimisele uued standardid. Helix integreerib visuaalse taju, kõne mõistmise ja täpse liikumise juhtimise ühte süsteemi, mis on spetsiaalselt loodud füüsilise robootika väljakutsete lahendamiseks.

Unikaalne kahesüsteemne arhitektuur

Võib-olla kõige olulisem erinevus Helixi ja teiste robotitele mõeldud tehisintellekti süsteemide vahel seisneb selle uuenduslikus kahekomponendilises arhitektuuris. See kahesüsteemne struktuur lahendab robootika tehisintellekti põhiprobleemi.

Süsteem 1 ja süsteem 2: teineteist täiendav intelligentsus

Erinevalt tavapärastest lähenemisviisidest kasutab Helix kahte teineteist täiendavat süsteemi, mis koos saavutavad ainulaadse tasakaalu universaalsuse ja kiiruse vahel. Süsteem 2 (S2) on multimodaalne keelesuund, millel on 7 miljardit parameetrit, mis töötab sagedusel 7–9 Hz ja toimib roboti analüütilise "aju" rollis. See töötleb visuaalseid andmeid ja kõnekäsklusi, tõlgendab keskkonda ja otsustab, milliseid toiminguid teha.

Seda täiendab System 1 (S1), kiire ja reaktiivne visuomootori juhtseade 80 miljoni parameetriga. See komponent tõlgib S2 edastatud semantilise teabe täpseteks ja pidevateks roboti toiminguteks muljetavaldava 200 Hz sagedusega. Joonis AI selgitab, et varasemad lähenemisviisid ebaõnnestusid kas universaalsuse või kiiruse puudumise tõttu: „VLM-i (Visual Large Language Model) kasutamine on universaalne, kuid mitte kiire, ja visuaalsete liikumisstrateegiate kasutamine robotite jaoks on kiire, kuid mitte universaalne.“ Helix ületab selle dihhotoomia oma kahetise struktuuri abil.

See arhitektuur erineb põhimõtteliselt teistest tuntud VLA mudelitest, näiteks Google DeepMindi RT-2-st, mis samuti ühendab visuaalseid andmeid ja häälkäsklusi, kuid millel puudub võrreldav jaotus kaheks osaks.

Sobib selleks:

Google'i Gemini platvorm koos Google AI Studioga, Google Deep Research koos Gemini Advancediga ja Google DeepMind

Põhjalikud juhtimisvõimalused

Kontroll üle 35 vabadusastme

Helixi teine eristav omadus on võime koordineerida samaaegselt 35 vabadusastet. See ulatuslik kontroll võimaldab kogu humanoidi ülakeha, sealhulgas randmete, torso, pea ja üksikute sõrmede täpset ja kiiret manipuleerimist. See juhtimisvõime ületab enamiku olemasolevaid süsteeme ja võimaldab keerulisi manipuleerimisülesandeid, mis nõuavad peenmotoorika kõrget taset.

Objektide üldistamine ja õppimine

Universaalne objektide tuvastamine ilma spetsiifilise koolituseta

Helixi põhijooneks on võime ära tunda ja käsitseda praktiliselt iga väikest majapidamistarvet ilma eelneva koolituseta selle spetsiifiliste omaduste kohta. See lai üldistatavus võimaldab süsteemil käsitseda tuhandeid erineva kuju, suuruse, värvi ja materjali omadustega objekte.

Erinevalt paljudest teistest tehisintellektil põhinevatest robotisüsteemidest, mida tuleb iga uue ülesande või objektitüübi jaoks ümber programmeerida või ümber õpetada, suudab Helix kohaneda erinevate olukordadega ja reageerida loomuliku keele käsklustele. See kujutab endast paradigma muutust, kuna süsteem kasutab kõigi käitumisviiside – näiteks esemete ülesvõtmise ja mahapanemise, sahtlite ja külmikute kasutamise ning teiste robotitega suhtlemise – õppimiseks ühte närvivõrku ilma ülesandepõhise peenhäälestamiseta.

Mitme roboti koordineerimine

Ainulaadsed koostööoskused

Helix on esimene VLA-mudel, mis suudab samaaegselt juhtida kahte robotit ja võimaldada neil koostööd teha. See võimekus võimaldab robotitel ühiselt lahendada keerulisi ülesandeid, mis hõlmavad objektide möödumist ja nende liikumise koordineerimist. Eriti tähelepanuväärne on peaaegu inimlaadne suhtlus robotite vahel pea noogutamise ja silmsideme kaudu.

Selline koordineerimisvorm kujutab endast märkimisväärset edasiminekut tavapäraste süsteemidega võrreldes, kus iga robotit juhitakse tavaliselt eraldi või vajab see konkreetsete rollide jaoks spetsiifilist väljaõpet. Helixi puhul kasutavad mõlemad robotid samu mudelkaalusid ilma individuaalsete kohanduste vajaduseta.

Koolituse tõhusus ja rakendamine

Minimaalsed treeningnõuded, maksimaalne sooritusvõime

Teine oluline erinevus seisneb treeningprotsessi märkimisväärses efektiivsuses. Helixi väljatöötamisel kasutati vaid 500 tundi kvaliteetseid teleoperatsioonil põhinevaid treeningandmeid, mis on oluliselt vähem kui võrreldavate lähenemisviiside puhul, mis sageli nõuavad tuhandeid tunde spetsiifilisi demonstratsioone. See efektiivsus rõhutab mitte ainult süsteemi tehnilist keerukust, vaid ka selle majanduslikku elujõulisust ärirakenduste jaoks.

Sisseehitatud töötlusvõime

Erinevalt paljudest robotite tehisintellekti süsteemidest, mis tuginevad võimsatele välistele serveritele, töötab Helix täielikult robotite sees olevate energiatõhusate graafikaprotsessorite abil. See sisseehitatud protsessor välistab vajaduse pideva ühenduse järele väliste arvutusressurssidega, muutes roboti erinevates keskkondades autonoomsemaks ja paindlikumaks.

Strateegiline eristumine

Vertikaalne integratsioon üldiste tehisintellekti mudelite asemel

Figure AI on end strateegiliselt teistest ettevõtetest eristanud, lõpetades koostöö OpenAI-ga ja järgides vertikaalselt integreeritud strateegiat, arendades nii riist- kui ka tarkvara ettevõttesiseselt. Tegevjuht Brett Adcock selgitas, et üldised tehisintellekti mudelid ei ole kehastunud tehisintellekti – st füüsilistes robotites oleva tehisintellekti – nõuete täitmiseks piisavad. See otsus rõhutab ettevõtte lähenemisviisi, mille eesmärk on arendada robootika spetsiifilistele väljakutsetele kohandatud lahendusi, mitte tugineda üldistele tehisintellekti mudelitele.

Rakenduse orientatsioon

Keskenduge koduseks kasutamiseks

Kuigi paljud tööstusharu tegijad keskenduvad praegu tööstuslikele või töökoha robotitele, püüab Figure AI Helixiga strateegiliselt üllatavat lähenemisviisi, keskendudes kodurobootikale. Robotite võime täita igapäevaseid ülesandeid, nagu toidukaupade sorteerimine, külmkapi täitmine või mitmesuguste majapidamistarvete käsitsemine, on suunatud turule, mida teised tegijad peavad sisenemiseks sageli liiga keeruliseks.

Mitme roboti koordineerimine: järgmise põlvkonna robootika võti

Helix eristub teistest tehisintellektil põhinevatest robootikasüsteemidest oma kahesüsteemse arhitektuuri, ulatuslike juhtimisvõimaluste, märkimisväärse üldistusvõime ja mitme roboti koordineerimise poolest. Oma tõhusa treeningprotsessi, manustatud töötlemise ja strateegilise keskendumisega kodumajapidamiste rakendustele kujutab see endast olulist edasiminekut humanoidrobotite arendamisel. Samal ajal kui teised süsteemid, näiteks Google DeepMindi RT-2, järgivad sarnaseid lähenemisviise visuaalsete andmete ja häälkäskluste kombineerimisel, pakub Helix oma ainulaadse arhitektuuri ja integreeritud arenduslähenemisviisi kaudu eristavaid eeliseid, muutes selle järgmise põlvkonna tehisintellektil põhinevate robotite teerajajaks.

Oleme teie jaoks olemas - nõuanne - planeerimine - rakendamine - projektijuhtimine

☑️ VKE tugi strateegia, nõuannete, planeerimise ja rakendamise alal

☑️ digitaalse strateegia loomine või ümberpaigutamine ja digiteerimine

☑️ Rahvusvaheliste müügiprotsesside laiendamine ja optimeerimine

☑️ Globaalsed ja digitaalsed B2B kauplemisplatvormid

☑️ teerajaja ettevõtluse arendamine

Konrad Wolfenstein

Aitan teid hea meelega isikliku konsultandina.

Võite minuga ühendust võtta, täites alloleva kontaktvormi või helistage mulle lihtsalt telefonil +49 89 674 804 (München) .

Ootan meie ühist projekti.

Kirjutage mulle

➡️ videokõne päring 👩👱

Xpert.Digital - Konrad Wolfenstein

Xpert.digital on tööstuse keskus, mille fookus, digiteerimine, masinaehitus, logistika/intralogistics ja fotogalvaanilised ained.

Oma 360 ° ettevõtluse arendamise lahendusega toetame hästi tuntud ettevõtteid uuest äritegevusest pärast müüki.

Turuluure, hammastamine, turunduse automatiseerimine, sisu arendamine, PR, postkampaaniad, isikupärastatud sotsiaalmeedia ja plii turgutamine on osa meie digitaalsetest tööriistadest.

Lisateavet leiate aadressilt: www.xpert.digital - www.xpert.solar - www.xpert.plus

Ühendust võtma