⭐️人工知能 (AI) - AI ブログ、ホットスポット、コンテンツハブ⭐️ロボティクス/ロボティクス⭐️ XPaper

言語の選択 📢

Google Gemini 2.0、The人工知能とロボット工学：Gemini Robotics and Gemini Robotics-er

公開：2025年3月20日 /更新：2025年3月20日 - 著者： Konrad Wolfenstein

Google Gemini 2.0、The人工知能とロボット工学：Gemini Robotics and Gemini Robotics-er-Creative Image：Xpert.Digital

DeepmindはGeminiを提示します：ロボット工学の次の時代が始まります

Gemini Robotics：Googleの人工知能とロボット工学の変革的合併

2025年3月12日に、Google Deepmindは、強力なGemini 2.0言語モデルと高度なロボット工学を組み合わせた印象的なテクノロジーであるGemini Roboticsの最新プロジェクトを発表しました。このイノベーションは、自然言語を理解し、複雑な物理的タスクを実行できるインテリジェントロボットシステムの開発における重要なマイルストーンです。

Google Deepmindは、2010年に設立され、2014年にGoogleに引き継がれた人工知能（AI）の大手研究会社です。短期の保管と人工記憶を備えたニューラルネットワークが特徴とする高度なAIテクノロジーの開発に焦点を当てています。 DeepMindは、ゲームの「GO」で人間のプレイヤーを守ることや、タンパク質構造を予測するシステムであるAlphaFoldの開発など、重要なブレークスルーを達成しました。 DeepMindのテクノロジーは、ロボット工学、薬、エネルギー効率、言語処理などの分野で使用されています。

Gemini Roboticsの技術的基盤

Gemini Roboticsは、すでに強力なGemini 2.0に基づいているモデル（VLA）モデルのプログレッシブビジョン長（VLA）モデルとして設計されています。中心的な革新は、システムがテキスト、画像、ビデオなどのデジタルデータを処理できるだけでなく、現実の世界で初めて物理的な行動を実行できることです。

このテクノロジーは、Gemini 2.0のマルチモーダル理解を使用し、決定的な新しいモダリティである物理的行動で拡張します。これにより、ロボットはまだ不可能な方法でデジタルと物理の世界を橋渡しすることができます。

に適し：

Google AI Studio を備えた Google の Gemini プラットフォーム、Gemini Advanced および Google DeepMind を備えた Google Deep Research

機能性と知覚スキル

Gemini Roboticsの技術的ブレークスルーは、カメラを介して周囲を知覚し、オブジェクトを認識し、空間的寸法をキャプチャする能力にあります。この情報は、正確な技術座標を持つ3D世界に変換されます。

システムもできます：

自然言語コマンドを理解し、物理的な行動に実装する
オブジェクト間の複雑な空間的関係を理解します
新しい、未知の状況に適応します
さまざまなロボットタイプを生成します

2つの相補モデル：Gemini RoboticsとGemini Robotics-ER

Google DeepMindは、ロボットAIのさまざまな側面に対処する1つだけでなく、2つの専門モデルを提示しました。

ジェミニロボット

メインモデルのGemini Roboticsは、Gemini 2.0の言語処理スキルと物理的制御を組み合わせています。ロボットは、自然に言語コマンドに反応し、複雑な環境を理解し、適応アクションを実行できます。

ジェミニロボット

2番目のモデルであるGemini Robotics-ER（これにより、彼は「具体化された推論」または「修正ロジック」を表しています）は、空間思考の改善に焦点を当てています。この能力は、動的な3次元環境で行動する必要があるロボットにとって重要です。

たとえば、Gemini Robotics-ERは、オブジェクトを最適に使用する方法を直感的に認識できます。コーヒーカップがモデルに表示されている場合、ハンドルのカップを持ち上げて安全な動きを計算するために、適切な2本指のハンドルを独立して選択できます。

実証されたスキルと実用的なアプリケーション

印象的なデモビデオでは、Google Deepmindが新しいAIモデルの実践的なスキルを示しています。ロボットシステムは、次のようなさまざまな複雑なタスクを実行できます。

折り紙と紙の折り畳み
口頭での指示に基づいてオブジェクトの並べ替えと整理
壊れやすいオブジェクトを正確に把握して動かします
etuiに眼鏡を慎重に挿入します
小さな物体をサイコロと操作します
ジッパーを一緒に閉じます
ヘッドフォンケーブルを包みます
バスケットボールダンキングなどの精密タスクの実行

ロボットが指示を受け取った後にこれらのタスクを自律的に実行することは特に注目に値します。システムは、オブジェクトを個別に検出し、それらを識別し、必要な個々のステップを導き出し、それに応じてロボットアームを制御します。

さらなる開発のための戦略的パートナーシップ

このテクノロジーの可能性を最大限に活用するために、Google DeepMindはロボティクス業界の大手企業と協力しています。

Apptronik、ヒューマノイドロボット「Apollo」を開発したテキサスのスタートアップ。これは、ボックスの持ち上げ、移動、積み重ねなどの物流や製造タスク用に設計されています。
皮肉なことにGoogleに買収され、後で再び販売された有名なロボティクス会社、ボストンダイナミクス
agilityロボット工学とアジャイルロボットジェミニロボティクスの開発とテストのための他のパートナーとして

この協力は、さまざまなロボットプラットフォームにテクノロジーを実装およびテストし、幅広い適用性を確保するためのGoogleの戦略を示しています。

に適し：

Gemini 2.0を使用したGoogle Deep Research-高度な研究機能の包括的な分析

ロボット工学の将来の意味

Deepmindのロボット工学ディレクターであるKanishka Raoは、記者会見で、ロボット工学の最大の課題の1つは、ロボットが通常既知のシナリオではうまく機能しますが、未知の状況では失敗することがあると述べました。 Gemini Roboticsはまさにこの問題を解決する必要があります。

に適し：

ヒューマノイドスタンディングアップコントロール：「ホスト」のヒューマノイドで起きることを学ぶ - 日常生活のロボットのブレークスルー

ロボットへの大規模な言語モデル（LLMS）の統合は成長傾向の一部であり、ジェミニのアプローチはこれの最も印象的な例の1つである可能性があります。スタンフォード大学のバイオエンジニアリング教授であり、OpenMindの創設者であるJan Liphardtは、これが「高度なロボットでの生成AIおよび大規模な言語モデルの使用の最初の例の1つである」と「本当にロボットヘルパーとロボットコンパニオンの開発の鍵」であると強調しています。

Nvidia CEOのJensen Huangはさらに進んでおり、ロボットを提供するために生成AIを使用することは、大規模な数兆米ドルの市場の可能性になる可能性があることを示しています。

GeminiとRobotics：インテリジェントシステムのターニングポイント？

印象的な進歩にもかかわらず、まだ課題があります。バークレー校のカリフォルニア大学ロボティクスの教授であるケン・ゴールドバーグは、AIシステムを「ロボット工学の分野でのエキサイティングな発展」と説明していますが、「万能ロボットが日常生活で使用できるようになる前に、まだやるべきことがたくさんある」と指摘しています。

Googleは、今後のGoogle I/O Conference周辺のこのテクノロジーの可能性についてさらに洞察を与える予定です。ロボット工学に長年関心を持っており、現在はGeminiを適切なソフトウェアコンポーネントにしているため、Googleはインテリジェントロボットの開発に関する新しい章を開くことができました。

言語からアクションへ：Googleはロボット工学で新しい標準を設定します

Gemini Roboticsを使用して、Google DeepmindはAIとRoboticsの融合に向けて重要な一歩を踏み出しました。自然言語を理解し、複雑な環境を認識し、物理的な行動を実行する能力は、将来ロボットが使用される方法に革命をもたらす可能性があります。

このテクノロジーは、純粋にデジタルAIアプリケーションから、物理世界に直接影響を与える可能性のあるシステムへの移行を示しています。これは一部のAI懐疑論者に懸念を引き起こす可能性がありますが、Google Deepmindの主な焦点は、より少ないトレーニングで複雑なタスクを管理できる適応的で有用なロボットシステムの開発にあります。

今後数年間は、このテクノロジーがどのように開発されているか、業界から日常生活まで、さまざまな分野でどのような実用的なアプリケーションを見つけるかを示します。

に適し：