図AI社のヒューマノイドロボット向けロボットAIシステム「Helix」 – 視覚・言語・行動（VLA）モデル

Konrad Wolfenstein

1年前

図：AI社のヒューマノイドロボット向けロボットAIシステム「Helix」 – 視覚・言語・行動（VLA）モデル – 画像：Xpert.Digital

Helix: ヒューマノイドロボットを新たなレベルに引き上げるAIシステム

要約：視覚、言語、動き：ロボット工学におけるマイルストーンとしてのHelix

Helixは、Figure AIが開発したヒューマノイドロボット向けの革新的なAIシステムです。視覚、音声理解、そして精密な運動制御を単一のシステムに統合したVision-Language-Action（VLA）モデルです。Helixは、家庭などの非構造化環境向けの柔軟なロボットシステム開発において、大きな進歩を遂げています。事前のトレーニングなしに複雑なタスクを実行できる能力により、人間と機械のインタラクションに革命をもたらす可能性があります。.

これに関連して:

音声制御ロボット：Figure AIのHelixがすべてを変えます！産業、家庭、未来 - リアルタイムで理解、学習、実行。

ヘリックスの能力

35 軸の動きを含むヒューマノイドロボットの上半身全体をリアルタイムで制御します。
複雑なタスクを実行するための音声入力と視覚情報の処理
特別な訓練なしで未知の物体を認識し、取り扱う
タスク実行における複数のロボット間の連携
冷蔵庫の補充などの家事を行う

技術的な詳細

2 つの主要コンポーネントで構成されます。

70億パラメータ（7～9 Hz）のマルチモーダル言語モデル
8000万パラメータ（200Hz）のモーションAI

わずか500時間の監督付きトレーニングで訓練済み
エネルギー効率の高い組み込みGPUで動作

最大の競争相手

Google DeepMind: RT-2と同様のVLAモデルを開発中
メタ：高度なヒューマノイドロボットの開発
アップル：高度なAIヒューマノイドの開発競争にも参入
OpenAI: Figure AIの元パートナー、現在はAI開発分野の競合

Googleディープマインド

Google DeepMindは、画期的な視覚・言語・行動（VLA）モデルであるRT-2（Robotics Transformer 2）を発表しました。RT-2は、インターネット上のテキストや画像データから概念を学習し、それをロボットの動作に変換することで、特別な訓練なしにロボットが新しいタスクを実行できるようにします。テストでは、RT-2は前身のRT-1と比較して、新しいタスクにおけるパフォーマンスが大幅に向上していることが示されました。.

これに関連して:

Google Project Mariner: ブラウザ拡張機能としての実験的なAIエージェント - DeepMindテクノロジーによる自律ウェブナビゲーション

メタ

Metaは、AI搭載ヒューマノイドロボットの開発に多額の投資を行っています。同社は、Reality Labs部門内に、コンシューマー向けロボットの研究開発に特化した新チームを設立しました。Metaは、他のメーカーでも利用可能なAIシステム、センサー、ソフトウェアプラットフォームの開発を計画しています。.

りんご

Appleはヒューマノイド型と非ヒューマノイド型の両方のロボット設計を検討しています。しかし、同社はまだ開発の初期段階にあります。アナリストのミンチー・クオ氏は、量産は早くても2028年まで不可能だと予測しています。Appleは特に人間とロボットのインタラクションに注力しています。.

これに関連して:

Appleはロボット熱に取り憑かれているのか？求人情報からAppleのロボット攻勢が明らかに：この巨大テック企業は今、家電市場にも進出しているのか？

オープンAI

Figure AIの元パートナーであるOpenAIは、独自のロボット工学部門を構築し、現実世界における人工知能の具現化としてのロボットに焦点を当てています。同社は現在、ロボット工学向けAI開発の分野で、Google DeepMindなどと直接競合しています。.

🎯🎯🎯 Xpert.Digitalの5つの専門知識を1つの包括的なサービスパッケージで活用しましょう | BD、R&D、XR、PR、デジタル可視性の最適化

Xpert.Digitalの5つの専門知識を包括的サービスパッケージで活用 | R&D、XR、PR、デジタル可視性の最適化 - 画像: Xpert.Digital

Xpert.Digitalは、様々な業界にわたる深い知識を有しています。これにより、お客様の特定の市場セグメントのニーズと課題に的確に合致した、カスタマイズされた戦略を策定することができます。市場トレンドを継続的に分析し、業界の動向をモニタリングすることで、先を見越した行動を取り、革新的なソリューションを提供することができます。経験と専門知識を組み合わせることで付加価値が生まれ、お客様に決定的な競争優位性を提供します。.

詳細はこちら:

Xpert.Digital の 5 つの専門分野を 1 つのパッケージで活用できます。月額わずか 500 ユーロからご利用いただけます。

Helix: 他のロボット向けAIシステムとの差別化

革新的なVLAモデル：Helixは知覚、言語、動きを組み合わせる

Figure AIが最近発表したHelixは、ロボティクスAI分野における大きな進歩を象徴する製品です。この革新的なVision-Language-Action（VLA）モデルは、画期的な機能の数々によって既存のシステムとは一線を画し、ヒューマノイドロボットの制御における新たな基準を確立しています。Helixは、視覚認識、音声理解、そして精密な動作制御を単一のシステムに統合し、物理ロボティクスの課題に対処するために特別に設計されています。.

独自のデュアルシステムアーキテクチャ

Helixと他のロボット向けAIシステムとの最も大きな違いは、革新的な2コンポーネントアーキテクチャにあると言えるでしょう。このデュアルシステム構造は、ロボットAIにおける根本的な問題を解決します。.

システム1とシステム2：補完的な知能

従来のアプローチとは異なり、Helixは2つの補完的なシステムを組み合わせることで、汎用性と速度の独自のバランスを実現しています。システム2（S2）は、70億個のパラメータを持つマルチモーダル言語モデルで、7～9Hzの周波数で動作し、ロボットの分析的な「頭脳」として機能します。視覚データと音声コマンドを処理し、環境を解釈して、実行すべき動作を決定します。.

これを補完するのが、8000万個のパラメータを持つ高速で反応性の高い視覚運動制御ユニットであるシステム1（S1）です。このコンポーネントは、S2から提供される意味情報を、200Hzという驚異的な周波数で正確かつ連続的なロボット動作に変換します。図AIは、従来のアプローチが普遍性または速度の欠如のために失敗したことを説明しています。「VLM（Visual Large Language Model）の使用は普遍的ですが高速ではなく、ロボットに視覚運動戦略を使用することは高速ですが普遍的ではありません。」Helixは、その二重構造によってこの二律背反を克服します。.

このアーキテクチャは、視覚データと音声コマンドを組み合わせているものの、2 つの部分に同等の分割がない、Google DeepMind の RT-2 などの他のよく知られた VLA モデルとは根本的に異なります。.

これに関連して:

Google の Gemini プラットフォームと Google AI Studio、Google Deep Research と Gemini Advanced、そして Google DeepMind

包括的な制御機能

35自由度以上の制御

Helixのもう一つの際立った特徴は、35自由度を同時に制御できることです。この包括的な制御により、手首、胴体、頭部、そして個々の指を含むヒューマノイドの上半身全体を正確かつ高速に操作することが可能になります。この制御能力は既存のほとんどのシステムを凌駕し、高度な微細運動能力を必要とする複雑な操作タスクを可能にします。.

オブジェクトの一般化と学習

特別な訓練なしでの普遍的な物体認識

Helixの重要な特徴は、事前に特定の特性を学習させることなく、事実上あらゆる小型家庭用品を認識し、処理できることです。この幅広い汎用性により、システムは形状、サイズ、色、材質などが異なる数千もの物体を処理できます。.

新しいタスクや物体の種類ごとに再プログラミングや再トレーニングが必要な他の多くのAIロボットシステムとは異なり、Helixは様々な状況に適応し、自然言語による指示に応答できます。これはパラダイムシフトと言えるでしょう。Helixは、物体の持ち上げや置き、引き出しや冷蔵庫の利用、他のロボットとのインタラクションなど、あらゆる動作を単一のニューラルネットワークで学習し、タスク固有の微調整は一切不要です。.

複数ロボットの協調

ユニークなコラボレーションスキル

Helixは、2台のロボットを同時に制御し、協調動作を可能にする初のVLAモデルです。この機能により、ロボットは物体の受け渡しや動作の調整といった複雑なタスクを共同で解決できます。特に注目すべきは、うなずきやアイコンタクトといった、ロボット同士の人間に近いコミュニケーションです。.

この協調形態は、従来のシステムと比較して大きな進歩です。従来のシステムでは、各ロボットは個別に制御されるか、特定の役割に応じた特別なトレーニングが必要になります。Helixでは、両方のロボットが同じモデルの重量を使用するため、個別に調整する必要はありません。.

トレーニングの効率と実施

最小限のトレーニングで最大限のパフォーマンス

もう一つの重要な違いは、トレーニングプロセスの驚異的な効率性にあります。Helixは、わずか500時間の高品質な遠隔操作トレーニングデータを用いて開発されました。これは、数千時間にも及ぶ特定のデモンストレーションを必要とする類似のアプローチと比べて、大幅に少ない時間です。この効率性は、システムの高度な技術力だけでなく、商用アプリケーションにおける経済的な実現可能性も裏付けています。.

組み込み対応処理

強力な外部サーバーに依存する多くのロボットAIシステムとは異なり、Helixはロボットに内蔵された省電力GPUのみで動作します。このオンボード処理により、外部コンピューティングリソースへの常時接続が不要になり、ロボットはより自律的かつ柔軟な動作を様々な環境で実現します。.

戦略的差別化

汎用AIモデルの代わりに垂直統合

Figure AIは、OpenAIとの提携を解消し、ハードウェアとソフトウェアの両方を自社開発する垂直統合戦略を採用することで、他社との戦略的な差別化を図ってきた。CEOのブレット・アドコック氏は、汎用的なAIモデルでは、具現化されたAI、つまり物理的なロボットに組み込まれたAIの要件を満たすには不十分だと説明した。この決定は、汎用的なAIモデルに頼るのではなく、ロボット工学特有の課題に合わせたソリューションを開発するという同社の姿勢を明確に示している。.

アプリケーションオリエンテーション

家庭での使用に重点を置く

現在、多くの業界プレーヤーが産業用または職場用ロボットの用途に注力している中、Figure AIはHelixで戦略的に意外なアプローチを追求し、家庭用ロボットに焦点を当てています。食料品の仕分け、冷蔵庫の補充、様々な家庭用品の取り扱いといった日常的な作業をこなすロボットは、他のプレーヤーが参入するには複雑すぎると考える市場をターゲットにしています。.

複数ロボットの協調：次世代ロボットの鍵

Helixは、デュアルシステムアーキテクチャ、包括的な制御能力、卓越した汎化能力、そして複数ロボットの協調動作により、他のAIロボットシステムとは一線を画しています。効率的な学習プロセス、組み込み処理、そして家庭用アプリケーションへの戦略的重点により、Helixはヒューマノイドロボット開発における大きな進歩を象徴しています。Google DeepMindのRT-2など、他のシステムが視覚データと音声コマンドを組み合わせるという同様のアプローチを採用しているのに対し、Helixは独自のアーキテクチャと統合開発アプローチによって差別化を図り、次世代AI搭載ロボットの先駆者となっています。.

コンサルティング、計画、実装、プロジェクト管理など、あらゆる面でサポートいたします。