发表于:2025年3月20日 /更新,发表于:2025年3月20日 - 作者: Konrad Wolfenstein
DeepMind呈现双子座:机器人技术的下一个时代开始
双子座机器人技术:Google的人工智能和机器人技术的变革合并
2025年3月12日,Google DeepMind介绍了其最新的项目Gemini Robotics,这是一项令人印象深刻的技术,将强大的Gemini 2.0语言模型与高级机器人技术相结合。这项创新标志着可以理解自然语言并执行复杂物理任务的智能机器人系统的开发中的重要里程碑。
Google DeepMind是一家领先的人工智能研究公司(AI),该公司成立于2010年,并于2014年由Google接管。它重点介绍了高级AI技术的开发,该技术的特征是具有短期存储和人工记忆的神经网络。 DeepMind取得了重大突破,包括在游戏“ GO”中捍卫人类玩家和Alphafold的发展,Alphafold是一种预测蛋白质结构的系统。 DeepMind的技术用于机器人技术,医学,能源效率和语言处理等领域。
双子座机器人技术的技术基础
Gemini Robotics被设计为模型(VLA)模型的渐进视觉长度,该模型基于已经强大的Gemini 2.0。中心创新是该系统不仅可以处理数字数据,例如文本,图像或视频,而且还可以首次在现实世界中执行身体动作。
该技术使用对Gemini 2.0的多模式理解,并以决定性的新模式扩展了它:物理动作。这使机器人能够以尚不可能的方式弥合数字世界和物理世界。
适合:
功能和感知技能
双子座机器人技术的技术突破在于它通过相机感知周围环境,识别物体并捕获其空间维度的能力。然后将这些信息转换为具有精确技术坐标的3D世界。
系统也可以:
- 了解自然语言命令并在身体动作中实施
- 了解对象之间复杂的空间关系
- 适应新的未知情况
- 生成不同的机器人类型
这两个互补模型:双子座机器人技术和双子座机器人技术
Google DeepMind不仅介绍了一个,而且还提出了两个专门模型,这些模型解决了机器人AI的不同方面。
双子座机器人技术
主型号Gemini机器人技术将Gemini 2.0的语言处理技能与身体控制结合在一起。它使机器人能够对自然语言命令做出反应,了解复杂的环境并执行自适应动作。
双子座机器人技术
第二个模型,双子座机器人(Gemini Robotics-er)(他代表“体现的推理”或“修改的逻辑”)着重于改进的空间思维。这种能力对于必须在动态三维环境中起作用的机器人至关重要。
例如,Gemini Robotics-ER可以直观地识别如何最好地使用对象。如果向型号显示咖啡杯,它可以独立选择合适的两指手柄来抬起手柄上的杯子并计算安全的运动。
展示技能和实际应用
在令人印象深刻的演示视频中,Google DeepMind展示了新的AI模型的实践技能。机器人系统可以执行各种复杂的任务,包括:
- 折纸和纸的褶皱
- 根据口头说明进行分类和组织对象
- 精确的抓地力和移动脆弱的物体
- 仔细插入镜头
- 骰子和操纵小物体
- 一起关闭拉链
- 包装耳机电缆
- 执行精确任务,例如篮球扣篮
特别值得注意的是,机器人在只收到指示后自动执行这些任务。系统独立检测对象,识别它们,得出必要的单个步骤并相应地控制机器人武器。
进一步发展的战略合作伙伴关系
为了打开这项技术的全部潜力,Google DeepMind与机器人行业的领先公司合作:
- Apptronik是一家开发了类人类机器人“ Apollo”的德克萨斯初创企业,该机器人专为物流和制造任务(例如提升,移动和堆叠)而设计
- 波士顿Dynamics,一家著名的机器人公司,讽刺地被Google购买并后来再次卖出
- 敏捷机器人和敏捷机器人作为Gemini Robotics-ER开发和测试的其他合作伙伴
该合作显示了Google在各种机器人平台上实施和测试技术的策略,以确保其广泛的适用性。
适合:
对机器人技术的未来的意义
DeepMind的机器人技术主任Kanishka Rao在新闻发布会上说,机器人技术中最大的挑战之一是机器人通常在已知的情况下运作良好,但在未知情况下失败。双子座机器人技术应准确解决这个问题。
适合:
大型语言模型(LLM)纳入机器人是一种增长趋势的一部分,双子座的方法可能是最令人印象深刻的例子之一。斯坦福大学生物工程教授,OpenMind的创始人Jan Liphardt强调,这是“在高级机器人上使用生成AI和大型语言模型的最早例子之一”,也是“真正是机器人帮助者和机器人伴侣开发的关键”。
NVIDIA首席执行官Jensen Huang走得更远,并表明使用生成AI提供机器人可能是大规模的数百万美元的市场潜力。
双子座和机器人技术:智能系统的转折点?
尽管取得了令人印象深刻的进展,但仍然存在挑战。加利福尼亚大学伯克利分校机器人技术教授肯·戈德堡(Ken Goldberg)将AI系统描述为“机器人领域的令人兴奋的发展”,但指出:“在全能机器人准备在日常生活中使用之前,还有很多事情要做”。
Google计划在即将举行的Google I/O会议上进一步了解这项技术的可能性。 Google凭借对机器人技术的多年感兴趣,现在以Gemini为合适的软件组件,可以在开发智能机器人的开发中开设新章节。
从语言到动作:Google设置了机器人技术的新标准
Google DeepMind借助Gemini Robotics迈出了重要的一步。理解自然语言,感知复杂环境并进行身体动作的能力可能会彻底改变机器人将来使用机器人的方式。
这项技术标志着从纯粹的数字AI应用程序过渡到可能直接影响物理世界的系统。尽管这可能会引起一些AI怀疑论者的关注,但Google DeepMind的主要重点是开发适应性和有用的机器人系统,这些机器人系统可以通过更少的培训来管理复杂的任务。
未来几年将显示这项技术的发展方式以及您将在不同领域(从行业到日常生活)中找到哪些实际应用。
适合:
您的全球营销和业务发展合作伙伴
☑️我们的业务语言是英语或德语
☑️ 新:用您的国家语言进行通信!
我很乐意作为个人顾问为您和我的团队提供服务。
您可以通过填写此处的联系表,或者直接致电+49 89 89 674 804 (慕尼黑)。我的电子邮件地址是: wolfenstein ∂ xpert.digital
我很期待我们的联合项目。