发布日期:2025年3月20日 / 更新日期:2025年3月20日 – 作者:Konrad Wolfenstein
DeepMind 推出 Gemini:机器人新时代的开启
Gemini Robotics:谷歌人工智能与机器人技术的变革性融合
2025年3月12日,谷歌DeepMind发布了其最新项目——Gemini Robotics,这项令人瞩目的技术将强大的Gemini 2.0语言模型与先进的机器人技术相结合。这项创新标志着智能机器人系统发展史上的一个重要里程碑,这些系统能够理解自然语言并执行复杂的物理任务。.
谷歌旗下的DeepMind是一家领先的人工智能(AI)研究公司,成立于2010年,并于2014年被谷歌收购。该公司专注于开发以短期存储和人工记忆神经网络为特征的先进人工智能技术。DeepMind已取得多项重大突破,包括在围棋比赛中击败人类棋手,以及开发用于预测蛋白质结构的AlphaFold系统。DeepMind的技术被应用于机器人、医疗、能源效率和自然语言处理等领域。.
双子座机器人公司的技术基础
Gemini Robotics 被设计成一个先进的视觉-语言-动作 (VLA) 模型,它是在功能强大的 Gemini 2.0 的基础上开发的。其关键创新之处在于,该系统不仅可以处理文本、图像或视频等数字数据,而且首次能够在现实世界中执行物理动作。.
这项技术充分利用了Gemini 2.0的多模态理解能力,并将其扩展到包含一个至关重要的新模态:物理动作。这使得机器人能够以前所未有的方式连接数字世界和物理世界。.
适合:
功能和感知能力
Gemini Robotics 的技术突破在于其能够通过摄像头感知环境、识别物体并捕捉其空间尺寸。然后,这些信息会被转换成具有精确技术坐标的三维世界。.
该系统还可以:
- 理解自然语言指令并将其转化为物理动作
- 理解物体之间复杂的空间关系
- 适应新的、不熟悉的情况
- 适用于不同机器人类型
两种互补型模型:Gemini Robotics 和 Gemini Robotics-ER
谷歌DeepMind发布了两个专门针对机器人人工智能不同方面的模型。.
双子座机器人公司
Gemini Robotics 的主打产品结合了 Gemini 2.0 的语音处理能力和物理控制功能。它使机器人能够响应自然语言指令、理解复杂环境并执行自适应动作。.
Gemini Robotics-ER
第二款模型 Gemini Robotics-ER(其中 ER 代表“具身推理”)专注于提升空间推理能力。对于必须在动态三维环境中运行的机器人而言,这种能力至关重要。.
例如,Gemini Robotics-ER 能够直观地识别抓取物体的最佳方式。如果向模型展示一个咖啡杯,它可以自主选择合适的双指抓握方式来提起杯子的把手,并计算出安全的动作顺序。.
展现出的技能和实际应用
在令人印象深刻的演示视频中,谷歌DeepMind展示了其新型人工智能模型的实际应用能力。这些机器人系统可以执行各种复杂的任务,包括:
- 折叠折纸和纸张
- 根据口头指示对物品进行分类和整理。
- 精确抓取和移动易碎物品
- 小心地将眼镜放入眼镜盒
- 掷骰子和操作小物件
- 把拉链拉上
- 缠绕耳机线
- 执行诸如篮球扣篮之类的精准任务
尤其令人惊叹的是,这些机器人只需接收一条指令即可自主完成这些任务。系统能够独立识别物体,推导出必要的步骤,并据此控制机械臂。.
战略伙伴关系促进进一步发展
为了充分发挥这项技术的潜力,谷歌DeepMind正在与机器人行业的领先公司开展合作:
- Apptronik 是一家位于德克萨斯州的初创公司,该公司开发了人形机器人“Apollo”,该机器人专为物流和制造任务而设计,例如搬运、移动和堆放箱子。
- 波士顿动力公司是一家著名的机器人公司,具有讽刺意味的是,它曾被谷歌收购,后来又被出售。
- Agility Robotics 和 Agile Robots 作为 Gemini Robotics-ER 开发和测试的合作伙伴。
此次合作体现了谷歌的战略,即在各种机器人平台上实施和测试该技术,以确保其广泛适用性。.
适合:
对机器人技术未来发展的重要意义
DeepMind机器人技术总监卡尼什卡·拉奥在新闻发布会上解释说,机器人技术面临的最大挑战之一是,机器人通常在已知场景下表现良好,但在未知情况下却会失败。Gemini Robotics的目标正是解决这一问题。.
适合:
将大型语言模型(LLM)集成到机器人领域是日益增长的趋势之一,而Gemini的方案可能是其中最令人印象深刻的例子之一。斯坦福大学生物工程教授、OpenMind创始人Jan Liphardt强调,这是“将生成式人工智能和大型语言模型应用于高级机器人的首批案例之一”,并且“可能真正成为实现机器人教师、机器人助手和机器人伙伴的关键”。.
英伟达首席执行官黄仁勋更进一步指出,利用生成式人工智能大规模部署机器人可能代表着数万亿美元的市场潜力。.
双子座计划与机器人技术:智能系统的转折点?
尽管取得了令人瞩目的进展,但挑战依然存在。加州大学伯克利分校机器人学教授肯·戈德堡将人工智能系统描述为“机器人领域令人兴奋的发展”,但他同时警告说,“在通用机器人能够投入日常使用之前,还有许多工作要做。”.
谷歌计划在即将召开的 Google I/O 开发者大会前后,进一步阐述这项技术的应用前景。凭借其对机器人技术的长期关注,以及如今 Gemini 作为合适的软件组件,谷歌有望开启智能机器人发展的新篇章。.
从语音到行动:谷歌在机器人领域树立新标杆。
凭借Gemini Robotics,谷歌DeepMind在人工智能与机器人技术的融合方面迈出了重要一步。它能够理解自然语言、感知复杂环境并执行物理动作,这可能会彻底改变未来机器人的使用方式。.
这项技术标志着人工智能应用从纯粹的数字应用向能够直接影响物理世界的系统过渡。虽然这可能会引起一些人工智能怀疑论者的担忧,但谷歌DeepMind的主要目标是开发能够以较少的训练处理复杂任务的自适应且实用的机器人系统。.
未来几年将展现这项技术的发展方向,以及它将在从工业到日常生活等各个领域找到哪些实际应用。.
适合:
您的全球营销和业务发展合作伙伴
☑️我们的业务语言是英语或德语
☑️ 新:用您的国家语言进行通信!
我很乐意作为个人顾问为您和我的团队提供服务。
您可以通过填写此处的联系表,或者直接致电+49 89 89 674 804 (慕尼黑)。我的电子邮件地址是: wolfenstein ∂ xpert.digital
我很期待我们的联合项目。















