从文字到梦想世界:这家初创企业可以让您通过自己的想象力徒步旅行
在梦中散步?这个AI使它成为可能 - 您可以自己测试
人工智能世界迈向了三维未来。由著名的斯坦福大学研究员Fei-Fei Li创立的Ki初创世界实验室,开发了一种令人兴奋的技术,该技术从简单的文本描述或2D图像中生成交互式3D环境。这项创新使用户可以使用Meta Quest 3或Apple Vision Pro等VR眼镜将自己沉浸在完全人为创建的3D世界中。
“ Lofi Worlds”应用令人印象深刻地展示了这项技术的潜力。用户可以将自己沉浸在雄伟的高山背景前的一个虚构的瑞士山村中,穿越令人印象深刻的蒸汽朋克城市,戴着艺术表和尖锐的塔楼,或者穿过充满荧光巨型蘑菇的童话林。这些世界范围从照片现实主义的代表到美妙的梦想景观到艺术风格的环境,甚至扩大了著名的画作,例如爱德华·霍珀(Edward Hopper)的“夜鹰”(Nighthawks),以扩大其他维度。
技术背后的有远见者
Fei-Fei Li,通常被称为“ AI的教母”,是人工智能的先驱,对计算机视觉的发展具有出色的优点。它以图像数据集的开发而闻名,这被认为是现代AI革命的三个支柱之一。作为斯坦福大学的红杉教授,并以斯坦福大学为中心的AI研究所的联合创始人,她为空间情报世界带来了独特的专业知识。
李坚信,AI的下一个主要发展步骤是空间智能 - 理解空间并与三个维度环境互动的能力。这种能力将使AI系统不将世界视为二维,静态图像,而是将世界视为动态的,步入式现实。
技术基础和创新
世界实验室技术的核心是3D高斯分裂,这是一种创新的渲染技术,它通过微型,空间布置的颜色粒子组装三维环境。这种方法创建了类似于艺术作品的图像,因为单个颜色仅从总体角度来看是假风景。
Lofi Worlds的革命创新是,这些飞溅不是静态的,而是可以动态反应。他们在风中轻轻移动,模拟叶子的沙沙作响,或者在触摸它们时开始挥舞着,就好像他们还活着一样。 Spark Technology成为了这种互动性,这是一个专门由世界实验室开发的Web应用程序的3D渲染器。
Spark使用webGL2进行高斯夹板的渲染,并且与广泛的3D图形库三库兼容。这种组合确保了广泛的设备兼容性,并使应用程序不仅可以在VR眼镜上使用,还可以在智能手机和台式计算机上使用。
Webxr:网络与虚拟现实之间的桥梁
Webxr Technology(一种开放的Web API)使LOFI Worlds的可及性成为可能,它使沉浸式体验直接在浏览器中可用。 WebXR代表扩展现实,并支持虚拟现实和增强现实,而无需特殊应用程序下载。
这项技术彻底改变了提供沉浸式内容的方式,因为它在Web和VR之间创建了无缝的接口。开发人员可以创建在从移动设备到高端VR耳机的各种设备上使用的XR应用程序。在编程工作最小化的同时,该范围最大化。
虚拟现实硬件和手工跟踪
Meta Quest 3和Apple Vision Pro代表了最新一代的自给自足的VR眼镜,可以在没有外部计算机的情况下执行复杂的3D应用程序。这些设备具有集成的手跟踪技术,使用户可以用手直接与虚拟对象进行交互。
手动跟踪通过相机和传感器实时捕获双手的位置,深度,速度和对齐方式。分析此数据并将其转换为手部运动的虚拟表示,然后将其集成到3D环境中。该技术使得无需物理控制器就可以抓住,操纵或投掷对象。
人工智能和空间情报
世界实验室追求了开发所谓的“大世界模型”系统的雄心勃勃的目标,这些系统可以理解和产生持久,步入式和几何纠正的3D环境。这些模型应该使AI可以将世界和人们视为空间和身体上的经验。
空间智能是能够想象空间并与对象互动的能力 - 这种能力将感知与动作结合在一起。例如,当人们在桌子上看到玻璃杯时,大脑立即处理其几何形状,位置和与其他物体的关系。这种空间意识至关重要,即AI可以真正理解现实世界并与之互动。
挑战和局限性
尽管取得了令人印象深刻的进展,但该技术仍具有重大限制。 3D世界中的行动自由是非常有限的 - 几个虚拟仪表,用户达到了看不见的限制,破坏了连续的3D世界的幻想。另外,分辨率相对较低,并且图像通常不集中。
从最初的角度走得太远的任何人都会发现高斯碎片中的黑暗空间,这会影响沉浸式。这些问题是新技术的早期发育阶段的典型特征,预计将通过算法的进一步发展和可用的计算能力进行修复。
🗒️ Xpert.Digital:扩展和增强现实领域的先驱
🗒️寻找合适的元界机构和规划办公室,例如咨询公司 - 搜索和搜索咨询和规划的十大技巧
更多相关信息请点击这里:
世界实验室:启动将单词转换为照片现实的3D环境
应用领域和未来展望
AI生成的3D世界的可能用途是多种多样的。在电影行业中,可以在不精心设计的背景或计算机图形团队的情况下创建复杂的场景和环境。建筑师可以在步入式3D模型中介绍他们的设计,而游戏开发人员可以在创纪录的时间内产生新世界。
在教育领域,全新的身临其境学习经验的新机会开放。历史时间可能发生在历史上准确的3D重建中,而生物学课程可以在详细的细胞结构或生态系统中进行。医学可以通过在虚拟环境中进行手术干预措施从技术中受益,或者在人工产生的景观中进行。
渲染技术和视觉质量
使用的3D高斯拆分技术比传统的多边形模型具有多个优点。该过程不使用固体几何结构,而是基于动态点云,这些云灵活地适应了光线和透视。这使得最优质的表面结构可重现为原始的最佳细节。
分裂技术引起的印象派外观让人联想到19世纪法国印象派主义者的绘画风格。与克劳德·莫奈(Claude Monet)的绘画一样,单个颜色点仅从距离到连贯的图片形成。该属性为人工产生的世界具有特殊的美学品质。
市场地位和投资
尽管发展的早期阶段,但世界实验室已经收集了2.3亿美元的风险资本。投资者包括Andreessen Horowitz,New Enterprise Associates以及AMD,Intel和Nvidia等技术集团等著名风险资本公司。这些大量投资强调了该行业对空间AI技术的潜力的信任。
这家由20名成员组成的公司正在努力到2025年将这项技术推向市场,并从根本上彻底改变了创建3D内容。愿景是开发一种生成的AI,该AI基于文本描述或单个图像创建完整,可访问的3D环境。
社会和文化影响
AI生成的3D世界的发展可能会产生深远的社会影响。一方面,它民主化了高质量3D内容的创建,因为不需要3D建模或动画方面的特殊知识。另一方面,她提出了有关真实性和人类创造力价值的疑问。
在娱乐行业中,可以发展出新的讲故事形式,其中观众不仅是被动的消费者,而且还成为故事的积极参与者。沉浸式体验可能从根本上改变了对媒体和娱乐的传统理解。
技术挑战和解决方案
大世界模型的发展代表了重大的技术挑战。从视频和语言数据中处理数百万个令牌需要创新的存储管理和计算方法。世界实验室使用诸如环形适应的高级技术来长时间训练,并逐渐将上下文规模从4,000个令牌增加到一百万个令牌。
生成世界的质量在很大程度上取决于基础AI模型的训练质量。训练数据的多样性和广泛程度越多,生成的3D环境就越逼真和详细。挑战是收集和处理足够高质量的3D数据。
与传统3D创建方法的比较
传统的3D建模需要专门的软件,例如Blender或Maya以及3D设计的多年经验。该过程是耗时的,需要详细了解几何,纹理和照明。另一方面,可以根据简单的文本说明或参考图像在几分钟或数小时内创建AI生成的3D世界。
效率的提高可能会彻底改变3D行业,类似于文本生成器影响写作行业。专业的3D艺术家可以将自己的角色从手动创建转变为AI生成内容的策划和完善。
前景和未来发展
AI生成的3D世界的未来有望令人兴奋。随着技术的进一步发展,生成环境的质量,详细和互动性得到不断改进。与其他AI系统(例如语音模型和机器人技术)的集成可以打开全新的应用领域。
在医学上,AI控制的智能传感器可以通过监测诊所工作人员的卫生或使用手术仪器来改善患者护理。自主机器人运输医疗供应,铅的现实外科医生和患有严重瘫痪机器人武器的患者的未来,可以实现自己的想法。
世界实验室和类似公司的发展表明,我们正处于空间情报的新时代的开始。计算机和机器人具有结论和与三维世界相互作用的能力。这些数字系统可能成为我们努力了解和改善世界的努力中值得信赖的合作伙伴。
世界实验室技术不仅仅是一项技术创新,它是通往物理世界和数字世界之间界限的未来的窗口。随着空间智能的每一个进展,我们都会更接近一个世界,在该世界中,AI不仅可以处理信息,而且还了解房间,创建并与之互动。
我们随时为您服务 - 建议 - 规划 - 实施 - 项目管理
☑️ 为中小企业提供战略、咨询、规划和实施方面的支持
☑️ 创建或调整数字战略和数字化
☑️国际销售流程的扩展和优化
☑️ 全球数字 B2B 交易平台
☑️ 开拓业务发展
我很乐意担任您的个人顾问。
您可以通过填写下面的联系表与我联系,或者直接致电+49 89 89 674 804 (慕尼黑) 。
我很期待我们的联合项目。
Xpert.Digital - 康拉德德军总部
Xpert.Digital 是一个专注于数字化、机械工程、物流/内部物流和光伏的工业中心。
凭借我们的360°业务发展解决方案,我们为知名企业提供从新业务到售后的支持。
市场情报、营销、营销自动化、内容开发、公关、邮件活动、个性化社交媒体和潜在客户培育是我们数字工具的一部分。
您可以通过以下网址了解更多信息: www.xpert.digital - www.xpert.solar - www.xpert.plus