Google Gemini 2.0，人工智能与机器人：Gemini Robotics 和 Gemini Robotics-ER

发布日期：2025年3月20日 / 更新日期：2025年3月20日 – 作者：Konrad Wolfenstein

Google Gemini 2.0，人工智能与机器人：Gemini Robotics 和 Gemini Robotics-ER – 创意图片：Xpert.Digital

DeepMind 推出 Gemini：机器人新时代的开启

Gemini Robotics：谷歌人工智能与机器人技术的变革性融合

2025年3月12日，谷歌DeepMind发布了其最新项目——Gemini Robotics，这项令人瞩目的技术将强大的Gemini 2.0语言模型与先进的机器人技术相结合。这项创新标志着智能机器人系统发展史上的一个重要里程碑，这些系统能够理解自然语言并执行复杂的物理任务。.

谷歌旗下的DeepMind是一家领先的人工智能（AI）研究公司，成立于2010年，并于2014年被谷歌收购。该公司专注于开发以短期存储和人工记忆神经网络为特征的先进人工智能技术。DeepMind已取得多项重大突破，包括在围棋比赛中击败人类棋手，以及开发用于预测蛋白质结构的AlphaFold系统。DeepMind的技术被应用于机器人、医疗、能源效率和自然语言处理等领域。.

双子座机器人公司的技术基础

Gemini Robotics 被设计成一个先进的视觉-语言-动作 (VLA) 模型，它是在功能强大的 Gemini 2.0 的基础上开发的。其关键创新之处在于，该系统不仅可以处理文本、图像或视频等数字数据，而且首次能够在现实世界中执行物理动作。.

这项技术充分利用了Gemini 2.0的多模态理解能力，并将其扩展到包含一个至关重要的新模态：物理动作。这使得机器人能够以前所未有的方式连接数字世界和物理世界。.

适合：

Google 的 Gemini 平台（含 Google AI Studio）、Google Deep Research（含 Gemini Advanced）和 Google DeepMind

功能和感知能力

Gemini Robotics 的技术突破在于其能够通过摄像头感知环境、识别物体并捕捉其空间尺寸。然后，这些信息会被转换成具有精确技术坐标的三维世界。.

该系统还可以：

理解自然语言指令并将其转化为物理动作
理解物体之间复杂的空间关系
适应新的、不熟悉的情况
适用于不同机器人类型

两种互补型模型：Gemini Robotics 和 Gemini Robotics-ER

谷歌DeepMind发布了两个专门针对机器人人工智能不同方面的模型。.

双子座机器人公司

Gemini Robotics 的主打产品结合了 Gemini 2.0 的语音处理能力和物理控制功能。它使机器人能够响应自然语言指令、理解复杂环境并执行自适应动作。.

Gemini Robotics-ER

第二款模型 Gemini Robotics-ER（其中 ER 代表“具身推理”）专注于提升空间推理能力。对于必须在动态三维环境中运行的机器人而言，这种能力至关重要。.

例如，Gemini Robotics-ER 能够直观地识别抓取物体的最佳方式。如果向模型展示一个咖啡杯，它可以自主选择合适的双指抓握方式来提起杯子的把手，并计算出安全的动作顺序。.

展现出的技能和实际应用

在令人印象深刻的演示视频中，谷歌DeepMind展示了其新型人工智能模型的实际应用能力。这些机器人系统可以执行各种复杂的任务，包括：

折叠折纸和纸张
根据口头指示对物品进行分类和整理。
精确抓取和移动易碎物品
小心地将眼镜放入眼镜盒
掷骰子和操作小物件
把拉链拉上
缠绕耳机线
执行诸如篮球扣篮之类的精准任务

尤其令人惊叹的是，这些机器人只需接收一条指令即可自主完成这些任务。系统能够独立识别物体，推导出必要的步骤，并据此控制机械臂。.

战略伙伴关系促进进一步发展

为了充分发挥这项技术的潜力，谷歌DeepMind正在与机器人行业的领先公司开展合作：

Apptronik 是一家位于德克萨斯州的初创公司，该公司开发了人形机器人“Apollo”，该机器人专为物流和制造任务而设计，例如搬运、移动和堆放箱子。
波士顿动力公司是一家著名的机器人公司，具有讽刺意味的是，它曾被谷歌收购，后来又被出售。
Agility Robotics 和 Agile Robots 作为 Gemini Robotics-ER 开发和测试的合作伙伴。

此次合作体现了谷歌的战略，即在各种机器人平台上实施和测试该技术，以确保其广泛适用性。.

适合：

使用 Gemini 2.0 进行 Google 深度研究——对高级研究功能的全面分析

对机器人技术未来发展的重要意义

DeepMind机器人技术总监卡尼什卡·拉奥在新闻发布会上解释说，机器人技术面临的最大挑战之一是，机器人通常在已知场景下表现良好，但在未知情况下却会失败。Gemini Robotics的目标正是解决这一问题。.

适合：

人形机器人站立控制：借助“HoST”技术，人形机器人能够学习站立——这是机器人应用于日常生活的一项突破。

将大型语言模型（LLM）集成到机器人领域是日益增长的趋势之一，而Gemini的方案可能是其中最令人印象深刻的例子之一。斯坦福大学生物工程教授、OpenMind创始人Jan Liphardt强调，这是“将生成式人工智能和大型语言模型应用于高级机器人的首批案例之一”，并且“可能真正成为实现机器人教师、机器人助手和机器人伙伴的关键”。.

英伟达首席执行官黄仁勋更进一步指出，利用生成式人工智能大规模部署机器人可能代表着数万亿美元的市场潜力。.