Figure AI 的机器人人工智能系统“Helix”用于人形机器人——一种视觉-语言-动作 (VLA) 模型

Konrad Wolfenstein

1年前

Figure AI 的“Helix”机器人人工智能系统，用于人形机器人——一种视觉-语言-动作 (VLA) 模型——图片来源：Xpert.Digital

Helix：将人形机器人提升到全新高度的人工智能系统

摘要：视觉、语言、运动：Helix 是机器人技术发展史上的一个里程碑

Helix是由Figure AI开发的一款创新型人形机器人AI系统。它采用视觉-语言-动作（VLA）模型，将视觉感知、语音理解和精确的运动控制集成于一体。Helix的出现标志着面向家庭等非结构化环境的灵活机器人系统发展取得了重大进展。凭借无需事先训练即可执行复杂任务的能力，Helix有望彻底改变人机交互方式。.

与此相关：

语音控制机器人：Figure AI 的 Helix 正在改变一切！工业、家庭、未来——实时理解、学习、执行。

Helix 的能力

对人形机器人的整个上半身进行实时控制，包括 35 个运动轴。
处理语音输入和视觉信息以执行复杂任务
无需专门训练即可识别和处理未知物体
多台机器人协作执行任务
做一些家务，比如往冰箱里放东西。

技术细节

由两个主要部分组成：

具有70亿个参数的多模态语言模型（7-9 Hz）
具有 8000 万个参数的运动 AI（200 Hz）

仅接受了500小时的监督培训
采用节能型嵌入式GPU运行

最大的竞争对手

谷歌DeepMind：正在开发与RT-2类似的VLA模型
元数据：致力于研发先进的人形机器人。
苹果：也在竞相开发先进的人工智能人形机器人
OpenAI：曾是 Figure AI 的合作伙伴，如今已成为人工智能开发领域的竞争对手。

谷歌DeepMind

谷歌DeepMind发布了RT-2（Robotics Transformer 2），这是一款突破性的视觉-语言-动作（VLA）模型。RT-2能够让机器人无需专门训练即可执行新任务，它通过学习互联网上的文本和图像数据中的概念，并将其转化为机器人动作。测试表明，RT-2在执行新任务时，其性能相比前代产品RT-1有了显著提升。.

与此相关：

Google Project Mariner：基于DeepMind技术的实验性AI代理，可作为浏览器扩展程序实现自主网页导航

元

Meta公司正大力投资研发人工智能驱动的人形机器人。该公司已在其Reality Labs部门内成立了一支新团队，专注于面向消费者的机器人研发。Meta计划开发人工智能系统、传感器和软件平台，这些产品也可供其他制造商使用。.

苹果

苹果公司也在探索人形和非人形机器人的设计。然而，该公司仍处于早期研发阶段。分析师郭明錤预测，最早也要到2028年才能实现量产。苹果尤其关注人机交互。.

与此相关：

苹果是否陷入了机器人热潮？招聘信息揭示了苹果的机器人攻势：这家科技巨头如今是否正进军家用电器市场？

OpenAI

OpenAI曾是Figure AI的合作伙伴，如今正在组建自己的机器人部门，专注于将机器人作为人工智能在现实世界中的体现。该公司目前在机器人人工智能开发领域与谷歌DeepMind等公司展开直接竞争。.

🎯🎯🎯 Xpert.Digital 提供五大领域的综合服务，助您轻松实现目标 | 业务拓展、研发、体验式研究、公关及数字曝光优化

利用 Xpert.Digital 五大领域的专业知识，享受全面的服务套餐 | 研发、XR、公关和数字曝光优化 - 图片：Xpert.Digital

Xpert.Digital 拥有跨行业的深厚知识。这使我们能够制定量身定制的策略，精准契合您特定细分市场的需求和挑战。通过持续分析市场趋势和监测行业发展动态，我们能够积极主动地提供创新解决方案。丰富的经验和专业的知识相结合，能够创造附加值，并为我们的客户带来决定性的竞争优势。.

更多信息请点击这里：

只需每月 500 欧元起，即可享受 Xpert.Digital 五大专业领域的服务。

Helix：与其他机器人人工智能系统相比的差异化优势

创新型VLA模型：Helix融合了感知、语言和运动。

Figure AI 近期推出的 Helix 标志着机器人人工智能领域的一项重大突破。这款创新的视觉-语言-动作 (VLA) 模型凭借多项突破性功能，在现有系统中脱颖而出，为控制人形机器人树立了新的标杆。Helix 将视觉感知、语音理解和精确运动控制集成于一体，专为应对物理机器人领域的挑战而设计。.

独特的双系统架构

Helix 与其他机器人人工智能系统最显著的区别或许在于其创新的双组件架构。这种双系统结构解决了机器人人工智能领域的一个根本性问题。.

系统 1 和系统 2：互补智能

与传统方法不同，Helix 采用两个互补的系统，共同实现了通用性和速度之间的独特平衡。系统 2 (S2) 是一个拥有 70 亿个参数的多模态语言模型，运行频率为 7-9 Hz，作为机器人的分析“大脑”。它处理视觉数据和语音指令，解读环境，并决定执行哪些动作。.

与此相辅相成的是系统 1 (S1)，它是一个快速响应的视觉运动控制单元，拥有 8000 万个参数。该组件将 S2 提供的语义信息转化为精确、连续的机器人动作，频率高达 200 Hz。Figure AI 解释说，以往的方法之所以失败，要么是因为缺乏通用性，要么是因为速度不够快：“使用视觉大型语言模型 (VLM) 具有通用性，但速度不够快；而使用视觉运动策略进行机器人控制速度很快，但缺乏通用性。” Helix 通过其双重结构克服了这一难题。.

这种架构与谷歌DeepMind的RT-2等其他知名VLA模型有着根本的不同，RT-2也结合了视觉数据和语音命令，但没有类似的两部分划分。.

与此相关：

Google 的 Gemini 平台（含 Google AI Studio）、Google Deep Research（含 Gemini Advanced）和 Google DeepMind

综合控制能力

控制超过 35 个自由度

Helix的另一大显著特点是能够同时协调35个自由度。这种全面的控制能力使得对整个人形机器人上半身（包括手腕、躯干、头部和手指）进行精确、高速的操控成为可能。这种控制能力超越了大多数现有系统，能够完成需要高度精细运动技能的复杂操作任务。.

对象泛化和学习

无需专门训练即可进行通用物体识别

Helix 的一个关键特性是它无需事先训练即可识别和处理几乎所有小型家用物品。这种广泛的通用性使系统能够处理成千上万种形状、尺寸、颜色和材质各异的物品。.

与其他许多需要针对每项新任务或物体类型重新编程或训练的AI机器人系统不同，Helix能够适应不同的情况并响应自然语言指令。这代表着一种范式转变，因为该系统使用单个神经网络即可学习所有行为——例如拾取和放置物体、使用抽屉和冰箱以及与其他机器人交互——而无需针对特定任务进行微调。.

多机器人协调

独特的协作技能

Helix是首款能够同时控制两台机器人并使其协作的VLA型号。这项功能使机器人能够共同完成涉及传递物体和协调运动的复杂任务。尤其值得一提的是，机器人之间能够通过点头和眼神交流进行近乎人类式的沟通。.

这种协调方式相比传统系统有了显著进步，传统系统中每个机器人通常需要单独控制，或者需要针对特定角色进行专门训练。而Helix系统则不同，两个机器人使用相同的模型权重，无需单独调整。.

培训效率和实施

培训要求低，性能最高

另一个关键区别在于其卓越的训练效率。Helix 仅使用了 500 小时的高质量远程操作训练数据就开发完成，远低于其他类似方法通常需要的数千小时专门演示。这种高效性不仅凸显了系统的技术先进性，也证明了其在商业应用中的经济可行性。.

嵌入式处理能力

与许多依赖强大外部服务器的机器人人工智能系统不同，Helix 完全依靠机器人内部嵌入式、节能型 GPU 运行。这种板载处理方式无需持续连接外部计算资源，使机器人能够在不同环境中更加自主灵活。.

战略差异化

采用垂直整合而非通用人工智能模型

Figure AI 通过终止与 OpenAI 的合作，并采取垂直整合战略，自主研发硬件和软件，从而在战略上与其他公司形成差异化。首席执行官 Brett Adcock 解释说，通用人工智能模型不足以满足具身人工智能（即实体机器人中的人工智能）的需求。这一决定凸显了公司致力于为机器人技术的特定挑战开发定制解决方案，而非依赖通用人工智能模型的策略。.

应用导向

重点关注家庭用途

目前，许多业内企业都将目光投向工业或工作场所机器人应用领域，而Figure AI却另辟蹊径，凭借Helix机器人，将目光投向了家用机器人市场。这些机器人能够执行诸如整理杂货、补充冰箱库存或搬运各种家居用品等日常任务，瞄准了其他企业通常认为过于复杂而难以进入的市场。.

多机器人协同：下一代机器人技术的关键

Helix凭借其双系统架构、全面的控制能力、卓越的泛化能力和多机器人协同工作能力，在众多人工智能机器人系统中脱颖而出。其高效的训练流程、嵌入式处理能力以及对家庭应用的战略性关注，代表了人形机器人发展领域的重大进步。虽然其他系统，例如谷歌DeepMind的RT-2，也采用了类似的视觉数据与语音指令相结合的方法，但Helix凭借其独特的架构和集成开发模式，展现出差异化优势，使其成为下一代人工智能机器人的先驱。.

我们为您提供以下服务：咨询、规划、实施、项目管理

☑️ 为中小企业提供战略、咨询、规划和实施方面的支持

☑️ 制定或调整数字化战略和数字化

☑️ 拓展和优化国际销售流程

☑️ 全球及数字化 B2B 交易平台

☑️ 先锋业务发展

Konrad Wolfenstein

我很乐意担任您的私人顾问。.

您可以通过填写下面的联系表格与我联系，或者直接拨打 +49 7348 4088 965 。

我期待着我们的合作项目。.

请给我写信

➡️ 视频通话请求 👩👱

Xpert.Digital - Konrad Wolfenstein

Xpert.Digital 是一个专注于数字化、机械工程、物流/内部物流和光伏领域的行业中心。.

凭借我们的 360° 业务发展解决方案，我们为知名企业提供从新业务拓展到售后服务的全方位支持。.

市场情报、社交媒体营销、营销自动化、内容开发、公关、邮件营销活动、个性化社交媒体和潜在客户培养是我们数字工具的一部分。.

您可以在以下网站找到更多信息： www.xpert.digital - www.xpert.solar - www.xpert.plus

保持联系

Helix：将人形机器人提升到全新高度的人工智能系统

摘要：视觉、语言、运动：Helix 是机器人技术发展史上的一个里程碑

Helix 的能力

技术细节

最大的竞争对手

谷歌DeepMind

元

苹果

OpenAI

🎯🎯🎯 Xpert.Digital 提供五大领域的综合服务，助您轻松实现目标 | 业务拓展、研发、体验式研究、公关及数字曝光优化

Helix：与其他机器人人工智能系统相比的差异化优势

创新型VLA模型：Helix融合了感知、语言和运动。

独特的双系统架构

系统 1 和系统 2：互补智能

综合控制能力

控制超过 35 个自由度

对象泛化和学习

无需专门训练即可进行通用物体识别

多机器人协调

独特的协作技能

培训效率和实施

培训要求低，性能最高

嵌入式处理能力

战略差异化

采用垂直整合而非通用人工智能模型

应用导向

重点关注家庭用途

多机器人协同：下一代机器人技术的关键

☑️ 为中小企业提供战略、咨询、规划和实施方面的支持

☑️ 制定或调整数字化战略和数字化

☑️ 拓展和优化国际销售流程

☑️ 全球及数字化 B2B 交易平台

☑️ 先锋业务发展

其他主题