ヒューマノイドロボットAIの図AIによるロボットAIシステム「ヘリックス」 - ビジョン言語アクション(VLA)モデル
Xpert プレリリース
言語の選択 📢
公開:2025年2月28日 /更新:2025年2月28日 - 著者: Konrad Wolfenstein
ヘリックス:ヒューマノイドロボットを新しいレベルに引き上げるAIシステム
ショートバージョン:ビジョン、言語、動き:ロボット工学のマイルストーンとしてのヘリックス
Helixは、図AIによって開発されたヒューマノイドロボットの革新的なAIシステムです。これは、視覚的な知覚、言語の理解、単一のシステムでの正確な運動制御を組み合わせたビジョン言語アクション(VLA)モデルです。ヘリックスは、世帯などの構造化されていない環境向けの柔軟なロボットシステムの開発において大きな進歩を示しています。事前のトレーニングなしで複雑なタスクを実行する能力により、人と機械の間の相互作用に革命をもたらす可能性があります。
に適し:
ヘリックススキル
- 35の動き軸を含むヒューマノイドロボットの上半身全体のリアルタイム制御
- 複雑なタスクの実行に関する音声入力と視覚情報の処理
- 特定のトレーニングなしの不明なオブジェクトの検出と取り扱い
- タスクの実行におけるいくつかのロボット間の協力
- 冷蔵庫の清算などの家庭用タスクの実行
技術的な詳細
2つの主要なコンポーネントで構成されています。
- 70億パラメーター(7〜9 Hz)のマルチモーダル言語モデル
- 8000万パラメーター(200 Hz)のあるムーブメントAI
- わずか500時間の監視トレーニングでトレーニング
- エネルギー効率の高い埋め込みGPUを実行します
最高の競争相手
- Google DeepMind:RT-2などのVLAモデルを開発しました
- メタ:高度なヒューマノイドロボットに取り組んでいます
- Apple:また、高度なAIヒューマノイドの開発のための競争において
- Openaai:フィギュアAIの元パートナー、現在AI開発の分野の競争相手
Googleディープマインド
RT-2(Robotics Transformer 2)で、Google DeepMindは画期的なビジョン言語アクション(VLA)モデルを提示しました。 RT-2を使用すると、ロボットは、インターネットのテキストと画像データから概念を学び、ロボットアクションに実装することにより、特定のトレーニングなしで新しいタスクを実行できます。テストでは、RT-2は、以前のモデルRT-1と比較して、新しいタスクのパフォーマンスが大幅に改善されたことを示しました。
に適し:
メタ
メタは、AI制御のヒューマノイドロボットの開発に強く投資しています。同社は、現実のラボ部門内に新しいチームを設立しました。これは、消費者向けのロボットの研究開発に焦点を当てています。 METAは、他のメーカーが使用できるAIシステム、センサー、ソフトウェアプラットフォームを開発する予定です。
りんご
Appleは、ヒューマノイドと非ヒューマノイドロボットの両方のデザインも研究しています。ただし、同社はまだ早期開発段階にあります。アナリストのMing-Chi Kuoは、2028年の早い時期に大量生産の可能性を予測しています。Appleは、特に人間とロボットの間の相互作用に焦点を当てています。
に適し:
OpenAI
図AIの元パートナーであるOpenaaiは、独自のロボット部門を構築し、現実世界の人工知能の具体化としてロボットを扱っています。同社は現在、ロボット工学のAI開発の分野でGoogle Deepmindなどと直接競合しています。
🎯🎯🎯 包括的なサービス パッケージにおける Xpert.Digital の 5 倍の広範な専門知識を活用してください | 研究開発、XR、PR、SEM
AI & XR 3D レンダリング マシン: 包括的なサービス パッケージ、R&D XR、PR & SEM における Xpert.Digital の 5 倍の専門知識 - 画像: Xpert.Digital
Xpert.Digital は、さまざまな業界について深い知識を持っています。 これにより、お客様の特定の市場セグメントの要件と課題に正確に合わせたオーダーメイドの戦略を開発することが可能になります。 継続的に市場動向を分析し、業界の発展をフォローすることで、当社は先見性を持って行動し、革新的なソリューションを提供することができます。 経験と知識を組み合わせることで付加価値を生み出し、お客様に決定的な競争上の優位性を提供します。
詳細については、こちらをご覧ください:
Helix:ロボットの他のAIシステムと比較した区別
革新的なVLAモデル:ヘリックスは、知覚、言語、動きを組み合わせます
図AIからのヘリックスの最新の導入は、ロボット工学からドゥゴーの風景の大きな進歩を示しています。この革新的なビジョン長アクション(VLA)モデルは、既存のシステムのいくつかの画期的なプロパティを通じて際立っており、HumanIDロボットの制御のための新しい標準を確立します。 Helixは、物理的ロボット工学の課題のために特別に設計された統合されたシステムで、視覚的な認識、言語の理解、および正確な動きの制御を組み合わせています。
ユニークなデュアルシステムアーキテクチャ
ヘリックスとロボットの他のAIシステムの最も重要な違いは、革新的な2成分アーキテクチャにあります。このデュアルシステム構造は、ロボットAIの基本的な問題を解決します。
システム1およびシステム2:補完的なインテリジェンス
従来のアプローチとは対照的に、Helixは2つの補完的なシステムを使用して、普遍性と速度の間の独自のバランスをとることができます。システム2(S2)は、7〜9 Hzの周波数で動作し、ロボットの分析「脳」として機能する70億パラメーターを持つマルチモーダル言語モデルです。視覚データと音声コマンドを処理し、環境を解釈し、どのアクションを実行する必要があるかを決定します。
システム1(S1)、8,000万パラメーターを備えた高速で反応性のある視覚運動制御ユニット。このコンポーネントは、S2によって提供されるセマンティック情報を、200 Hzの印象的な頻度で正確で連続的なロボットアクションに変換します。ロボットは高速ですが、普遍的ではありません」。ヘリックスは、その二重構造を通じてこの二分法を克服します。
このアーキテクチャは、Google DeepMinds RT-2などの他の既知のVLAモデルとは基本的に異なります。これは、視覚データと音声コマンドも組み合わせていますが、2つの匹敵する分割はありません。
に適し:
- Google AI Studio を備えた Google の Gemini プラットフォーム、Gemini Advanced および Google DeepMind を備えた Google Deep Research
包括的な制御スキル
35度の自由度を制御します
ヘリックスとのもう1つの区別は、35度の自由度を同時に調整する彼の能力です。この包括的な制御により、手首、胴体、頭、および高速での個々の指を含むヒューマノイド上半身全体を正確に制御できます。この制御能力は、既存のシステムのほとんどを超えており、高度な微細な運動能力を必要とする複雑な操作タスクを可能にします。
オブジェクトの生成と学習
特定のトレーニングなしのユニバーサルオブジェクト認識
ヘリックスの優れた品質とは、事前に特定の特性で訓練されていない場合、実質的にすべての小さな家庭用オブジェクトを認識して処理することができることです。この遠くの一般化能力により、システムは、さまざまな形状、サイズ、色、材料特性を持つ何千ものオブジェクトを処理できます。
すべての新しいタスクまたは新しいオブジェクトタイプのために新しくプログラムまたはトレーニングされなければならない他の多くのAIロボットシステムとは対照的に、Helixは異なる状況に適応し、自然な音声コマンドに反応することができます。これは、システムが単一のニューロンネットワークを使用して、オブジェクトを拾ったり、引き出しや冷蔵庫を使用したり、クロスロボット相互作用を使用したりするなど、すべての動作を学習するため、パラダイムシフトを表します。
マルチロボット調整
ユニークなコラボレーションスキル
Helixは、2つのロボットを同時に制御し、それらを協力できるようにする最初のVLAモデルです。この能力により、ロボットは複雑なタスクを一緒に解決できます。そこでは、動きを調整します。うなずきとアイコンタクトを通してロボット間のほとんどの人間を愛するコミュニケーションは、特に注目に値します。
この形式の調整は、従来のシステムと比較して大きな進歩を表します。このシステムでは、各ロボットは通常、個別に制御されるか、特定の役割のために特に訓練する必要があります。 Helixを使用すると、両方のロボットが個別の調整を必要とせずに同じモデルの重みを使用します。
トレーニング効率と実装
最小限のトレーニングニーズ、最大のパフォーマンス
もう1つの重要な違いは、トレーニングプロセスの顕著な効率性にあります。わずか500時間の高品質の望遠操作トレーニングデータで、Helixが開発されました。これは、数千時間の特定のデモを必要とする同等のアプローチよりもかなり少ないです。この効率は、システムの技術的な洗練度だけでなく、商業アプリケーションの経済的実現可能性を強調しています。
組み込み対応処理
強力な外部サーバーに依存する多くのロボットAIシステムとは異なり、ヘリックスはロボット内に埋め込まれたエネルギー効率の高いGPUで完全に実行されます。このオンボード処理により、外部算術リソースへの絶え間ない接続の必要性がなくなり、さまざまな環境でロボットの自律性と柔軟性を高めます。
戦略的差別化
一般的なAIモデルの代わりに垂直統合
図AIは、OpenAIとの協力を終了し、ハードウェアとソフトウェアの両方が内部で開発される垂直統合戦略を追求することにより、他の企業によって戦略的に発生しました。 CEOのBrett Adcockは、一般的なAIモデルは、「具体化されたAI」の要件を満たすのに十分ではないと述べました。つまり、物理ロボットのAIです。この決定は、一般的なAIモデルに依存するのではなく、ロボット工学の特定の課題のためのテーラー製ソリューションを開発するアプローチを強調しています。
アプリケーションオリエンテーション
家庭用使用に焦点を当てます
業界の多くの関係者は現在、産業または職場関連のロボットアプリケーションに焦点を当てていますが、Helixを持つFigure AIは、家庭用ロボット工学に焦点を当てた戦略的に驚くべきアプローチを追求しています。ロボットの能力、食べ物の並べ替え、冷蔵庫の握り、多種多様な家庭用品の取り扱いなどの日常的なアクティビティは、他の俳優が入場するには複雑すぎると考えられる市場を対象としています。
マルチロボット調整:次のロボット生成の鍵
デュアルシステムアーキテクチャにより、ヘリックスは、ロボット用の他のAIシステムを介してロボット用の他のAIシステムからはっきりと際立っています。効率的なトレーニングプロセス、組み込み処理、および家庭の治療に焦点を当てた戦略により、ヒューマノイドロボットの開発における大きな進歩を表しています。 Google DeepMinds RT-2などの他のシステムは、視覚データと音声コマンドの組み合わせに同様のアプローチを追求しますが、Helixは独自のアーキテクチャとその統合開発アプローチとの差別的な利点を提供し、次世代のAI制御ロボットの先駆者になります。
私たちはあなたのために - アドバイス - 計画 - 実施 - プロジェクト管理
☑️ 戦略、コンサルティング、計画、実行における中小企業のサポート
☑️ デジタル戦略の策定または再調整とデジタル化
☑️ 海外販売プロセスの拡大と最適化
☑️ グローバルおよびデジタル B2B 取引プラットフォーム
☑️ 先駆的な事業開発
あなたの個人的なアドバイザーとして喜んでお手伝いさせていただきます。
以下のお問い合わせフォームにご記入いただくか、 +49 89 89 674 804 (ミュンヘン)。
私たちの共同プロジェクトを楽しみにしています。
Xpert.Digital - Konrad Wolfenstein
Xpert.Digital は、デジタル化、機械工学、物流/イントラロジスティクス、太陽光発電に重点を置いた産業のハブです。
360°の事業開発ソリューションで、新規事業からアフターセールスまで有名企業をサポートします。
マーケット インテリジェンス、マーケティング、マーケティング オートメーション、コンテンツ開発、PR、メール キャンペーン、パーソナライズされたソーシャル メディア、リード ナーチャリングは、当社のデジタル ツールの一部です。
www.xpert.digital - www.xpert.solar - www.xpert.plusをご覧ください。