Helix:将类人形机器人提升到新级别的AI系统
简短版本:视觉,语言,运动:螺旋作为机器人技术的里程碑
Helix是图AI开发的人形机器人的创新AI系统。这是一个视觉语言动作(VLA)模型,结合了视觉感知,对语言的理解和精确的电动机控制在单个系统中。 Helix标志着为非结构化环境(例如家庭)开发灵活机器人系统的发展。它具有在没有事先培训的情况下执行复杂任务的能力,它可能会彻底改变人与机器之间的相互作用。
适合:
螺旋技巧
- 对人形机器人的整个上身的实时控制,包括35个运动轴
- 处理复杂任务的语音输入和视觉信息
- 没有特定培训的未知物体检测和处理
- 在执行任务时,几个机器人之间的合作
- 执行家庭任务,例如清理冰箱
技术细节
由两个主要组成部分组成:
- 具有70亿参数(7-9 Hz)的多模式模型
- 具有8000万参数的运动AI(200 Hz)
- 只有500小时的监视培训训练
- 运行在富含能的嵌入式GPU上
最伟大的竞争对手
- Google DeepMind:开发的VLA模型,例如RT-2
- 元:在高级类人机器人上工作
- 苹果:也在开发高级AI人类人的竞赛中
- OpenAAI:图AI的前合伙人,现在是AI开发领域的竞争对手
谷歌深度思维
Google DeepMind借助RT-2(机器人变压器2),提出了开创性的视觉语言动作(VLA)模型。 RT-2使机器人能够通过从Internet的文本和图像数据中学习概念并将其实施到机器人动作的情况下执行新任务。在测试中,与先前的RT-1相比,RT-2在新任务中显示出明显提高的性能。
适合:
元
Meta在开发AI控制的人形机器人的开发方面投入了大力投资。该公司在其现实实验室部门建立了一个新团队,该团队的重点是为消费者提供机器人的研发。 META计划开发其他制造商也可以使用的AI系统,传感器和软件平台。
苹果
苹果还研究类人形和非人类机器人的机器人设计。但是,该公司仍处于早期发展阶段。分析师Ming-Chi Kuo预测2028年最早可能的批量生产。苹果特别关注人类与机器人之间的相互作用。
适合:
开放人工智能
图AI的前合伙人Openaai建立了自己的机器人部门,并与机器人打交道,作为现实世界中人工智能的体现。该公司现在直接与Google DeepMind和其他机器人技术领域的其他领域竞争。
🎯🎯🎯 受益于 Xpert.Digital 全面服务包中广泛的五重专业知识 | 研发、XR、PR 和 SEM
Xpert.Digital 对各个行业都有深入的了解。 这使我们能够制定量身定制的策略,专门针对您特定细分市场的要求和挑战。 通过不断分析市场趋势并跟踪行业发展,我们可以前瞻性地采取行动并提供创新的解决方案。 通过经验和知识的结合,我们创造附加值并为客户提供决定性的竞争优势。
更多相关信息请点击这里:
螺旋:与机器人其他AI系统相比
创新VLA模型:螺旋结合了感知,语言和运动
通过图AI的螺旋螺旋的最新介绍标志着机器人技术到Do-Go的景观取得了重大进展。这种创新的视觉长度动作(VLA)模型通过现有系统的几种开创性特性而脱颖而出,并为控制人体机器人的控制建立了新的标准。 Helix结合了视觉感知,对语言的理解和精确的运动控制在集成系统中,该系统是专门针对物理机器人技术的挑战而设计的。
独特的双系统体系结构
Helix和其他机器人AI系统之间最重要的差异在于其创新的两部分体系结构。这种双重系统结构解决了机器人AI的基本问题。
系统1和系统2:互补智能
与常规方法相反,Helix使用了两个互补系统,这些系统共同达到了普遍性和速度之间的独特平衡。 System 2(S2)是一种多模式模型,具有70亿个参数,其频率为7-9 Hz,并充当机器人的分析“大脑”。它处理视觉数据和语音命令,解释环境并决定应执行哪些操作。
系统1(S1),一个具有8000万参数的快速,反应性视觉控制单元。该组件将S2提供的语义信息转化为精确的连续机器人动作,以200 Hz的频率为200 Hz。机器人很快,但不是通用”。螺旋通过其双重结构克服了这种二分法。
这种体系结构从根本上不同于其他已知的VLA模型,例如Google DeepMinds RT-2,该模型也结合了视觉数据和语音命令,但没有两个类别的划分。
适合:
全面的控制技能
控制超过35度的自由度
与Helix的另一个区别是他能够同时协调35度自由度。这种综合控制可以精确控制整个类人形上半身,包括手腕,躯干,头部和单个手指高速。这种控制能力超过了大多数现有系统,并允许需要高度精细运动技能的复杂操纵任务。
对象产生和学习
未经特定培训的通用对象识别
螺旋的出色质量是能够识别和处理几乎每个小型家庭物体而不经过其特定属性培训的能力。这种远距离的概括能力使系统能够处理具有不同形状,尺寸,颜色和材料属性的数千个对象。
与必须针对每个新任务或新对象类型进行新编程或培训的许多其他AI机器人系统相反,Helix可以适应不同的情况并对自然语音命令做出反应。这代表了一个范式转移,因为系统使用单个神经元网络来学习所有行为,例如使用抽屉和冰箱以及交叉 - 动物交互的对象进行拾取和采用对象,而没有任务特定的微调。
多机器人协调
独特的协作技巧
Helix是第一个能够同时控制两个机器人并使它们一起工作的VLA模型。这种能力使机器人可以将复杂的任务求解,在这些任务中足够并协调其运动。通过点头和眼神交流之间的机器人之间几乎可以进行人类的沟通,这一点尤其显着。
与常规系统相比,这种协调形式代表了重大进展,在该系统中,每个机器人通常单独控制或必须专门针对某些角色进行训练。使用Helix,两个机器人都使用相同的型号权重,而无需进行单个调整。
培训效率和实施
最小的培训需求,最高表现
另一个重要的差异在于训练过程的显着效率。开发了仅500个小时的高质量,远摄的训练数据,螺旋的螺旋却大大低于通常需要数千个小时的特定演示的可比方法。这种效率不仅强调了系统的技术成熟,而且还强调了其对商业应用的经济可行性。
具有嵌入式功能的处理
与许多依赖强大外部服务器的机器人AI系统不同,Helix完全在机器人内的嵌入式,节能的GPU上运行。这种机上处理消除了与外部算术资源不断连接的需求,并使机器人在各种环境中更加自主和灵活。
战略差异化
垂直集成而不是通用AI模型
图AI通过结束与OpenAI的合作并采用垂直集成的策略,从而在内部开发了硬件和软件,从而从其他公司开始战略性。首席执行官布雷特·阿德科克(Brett Adcock)表示,通用AI模型不足以满足“体现AI”的要求,即AI在物理机器人中。该决定强调了针对机器人技术的特定挑战而不是依靠一般AI模型开发量身定制的解决方案的方法。
应用方向
专注于家庭用途
尽管该行业的许多参与者目前都专注于工业或工作场所相关的机器人应用程序,但与Helix的图AI正在采用一种战略性的令人惊讶的方法,专注于家用机器人技术。机器人的能力,日常活动,例如分类食物,冰箱的抓地力或处理各种家居用品的目的是针对一个市场,通常被认为太复杂了,无法进入其他参与者。
多机器人协调:下一代机器人一代的关键
凭借其双层系统体系结构,Helix通过其他AI系统通过机器人的其他AI系统清楚地从其他AI系统中脱颖而出。凭借其有效的训练过程,嵌入式的处理和对家庭治疗的战略关注,它代表了人形机器人的发展中的重大进展。尽管其他系统(例如Google DeepMinds RT-2)采用类似的方法来结合视觉数据和语音命令,但Helix用其独特的体系结构及其集成的开发方法提供了与众不同的优势,这使其成为下一代AI控制的机器人的先驱。
我们随时为您服务 - 建议 - 规划 - 实施 - 项目管理
☑️ 为中小企业提供战略、咨询、规划和实施方面的支持
☑️ 创建或调整数字战略和数字化
☑️国际销售流程的扩展和优化
☑️ 全球数字 B2B 交易平台
☑️ 开拓业务发展
我很乐意担任您的个人顾问。
您可以通过填写下面的联系表与我联系,或者直接致电+49 89 89 674 804 (慕尼黑) 。
我很期待我们的联合项目。
Xpert.Digital - 康拉德德军总部
Xpert.Digital 是一个专注于数字化、机械工程、物流/内部物流和光伏的工业中心。
凭借我们的360°业务发展解决方案,我们为知名企业提供从新业务到售后的支持。
市场情报、营销、营销自动化、内容开发、公关、邮件活动、个性化社交媒体和潜在客户培育是我们数字工具的一部分。
您可以通过以下网址了解更多信息: www.xpert.digital - www.xpert.solar - www.xpert.plus