发布于:2025年7月30日 /更新,发表于:2025年7月30日 – 作者: Konrad Wolfenstein
这是阿里巴巴的新Wunder-ki Wan2.2:免费,比比赛更强大,每个人都可以使用
中国对Sora von Openaai的视频回应:这个新的AI在电影院质量中生成视频 – 也是免费的
这家中国技术公司阿里巴巴(Alibaba)于2025年7月29日发布了其开源视频模型的有趣新版本,并因此从根本上改变了人工智能的景观以用于视频制作。这项创新技术代表了世界上第一个实施了专家(MOE)体系结构的开源视频模型,并均为专业电影制作和商业上可用的硬件使用。
适合:
通过MOE建筑的技术革命
WAN2.2首次引入了视频虔诚模型中的Experts体系结构,这是一个重大的技术突破。这种创新的体系结构与双重专家系统一起使用,该系统将视频构化过程分为两个专业阶段。第一个专家专注于噪声抑制的早期阶段,并确定场景的基本布局,而第二专家则接管了后期阶段,并完善了细节和纹理。
该系统总共有270亿个参数,但每个推论步骤仅激活140亿个参数,这将计算工作减少多达50%而不会影响质量。效率的提高使高质量的视频能够产生,而计算成本保持恒定,同时又扩大了整体模型容量。
电影美学和电影控制
WAN2.2的出色功能是电影美学控制系统,它使用户能够对各种视觉维度进行精确的控制。该模型经过精心策划的美学数据训练,其中包含用于照明,组成,对比度,颜色,摄像头,图像尺寸,焦距,焦距和其他电影参数的详细标签。
该功能基于一个受电影启发的提示系统,该系统将关键尺寸(例如照明,照明,构图和着色)分类。结果,WAN2.2可以在生成过程中精确解释和实施用户的美学意图,从而可以创建具有可自定义的电影偏好的视频。
扩展训练数据和复杂的运动产生
与前身WAN2.1相比,训练数据集大大扩展:图像数据增加了65.6%,视频数据增加了83.2%。这种大规模的数据扩展大大提高了模型的概括技巧,并在几个维度(例如运动,语义和美学)上提高了创造性多样性。
该模型显示出复杂运动的生产的显着改善,包括活泼的面部表情,动态手势和复杂的运动运动。此外,它还提供了改进的命令符合性和遵守物理定律的现实表示形式,从而导致更自然和令人信服的视频序列。
有效的硬件使用和可访问性
WAN2.2提供了涵盖不同要求和硬件配置的三种不同模型变体:
- WAN2.2-T2V-A14B:具有270亿参数(140亿个活动)的文本对视频模型,该型号生成具有720p分辨率和16FPS的视频。
- WAN2.2-I2V-A14B:具有相同体系结构的图片到视频模型,用于将静态图像转换为视频。
- WAN2.2-TI2V-5B:一个紧凑的50亿参数模型,将文本对视频和图像到视频函数都结合在统一框架中。
紧凑型TI2V-5B型号是一个特殊的突破,因为它可以在不到9分钟的时间内在单个消费者GPU(例如RTX 4090)中生成5秒的720p视频。这种速度使其成为最快的720p@24FPS型号之一,并启用工业应用程序和学术研究和从技术中受益。
高级VAE架构用于优化压缩
TI2V 5B模型基于高效的3D VAE架构,其压缩率为4×16×16,将总信息压缩率提高到64。随着额外的贴平层,TI2V-5B的总压缩率甚至可确保4×32×32的总压缩率,从而确保了具有高质量的视频恢复需求。
这项高级压缩技术使该模型能够在一个统一的框架中支持文本对视频和图像到视频任务,该框架涵盖了学术研究和实际应用。
基准性能和市场位置
WAN2.2在新的WAN Bench 2.0评估套件的帮助下对领先的商业AI视频视频模型进行了测试,包括Sora,Kling 2.0和Hailuo 02。结果表明,WAN2.2在大多数类别中实现了最先进的表现,并超过了其高级竞争者。
在直接排名比较中,WAN2.2-T2V-A14B在六个中央基准维度中的四个中获得了第一名,包括美学质量和运动动力学。这种表演确立了WAN2.2作为高分辨率视频生成的新开源市场领导者。
开源可用性和集成
WAN2.2可作为Apache 2.0许可证下的完全开源软件提供,可以通过拥抱面,GitHub和ModelsCope下载。这些模型已经集成到Comfyui和扩散器等流行框架中,这些框架可以在现有工作流中无缝使用。
Hugging Face Space可用于TI2V 5B型号的直接使用,这意味着用户可以立即尝试该技术而无需执行复杂的安装。这种可访问性使访问访问状态 - 艺术型视频生成技术,并促进整个开发人员社区的创新。
中国的战略AI进攻
WAN2.2的出版是一种更广泛的中国开源AI战略的一部分,该战略已经通过DeepSeek等模型引起了国际关注。该策略遵循中国官方数字化计划,该计划自2018年以来一直在促进开源合作作为国家资源,并提供了在AI基础设施中进行大量国家投资。
阿里巴巴已经在拥抱面孔和Modelscope上录制了超过540万个WAN模型的下载,这强调了国际对中国开源AI解决方案的强烈需求。该公司计划在云计算和AI基础设施上进一步投资约520亿美元,以巩固其在这个快速增长的市场中的地位。
适合:
WAN2.2在AI视频上提供了突破:专业级别的开源
WAN2.2代表了AI视频构化的转折点,因为它提供了可以与商业解决方案竞争的专有模型。电影质量,高效的硬件使用和完整的开源可用性将模型作为内容制造商,电影制片人和开发商的一种有吸引力的替代品的结合。
该出版物可能会加剧AI视频生成领域的竞争,并可能导致其他公司采取类似的开源策略。 WAN2.2具有运行消费硬件并提供专业成果的能力,有可能使视频制作民主化并打开新的创意机会。
通过将先进技术与开放的发展哲学相结合,阿里巴巴与WAN2.2建立了AI视频生成的新标准,并确立了中国作为全球AI创新的主要力量。在未来几年中,这一开发的遥远影响将改变创建和制作视频的方式。
适合:
您的AI转换,AI集成和AI平台行业专家
☑️我们的业务语言是英语或德语
☑️ 新:用您的国家语言进行通信!
我很乐意作为个人顾问为您和我的团队提供服务。
您可以通过填写此处的联系表,或者直接致电+49 89 89 674 804 (慕尼黑)。我的电子邮件地址是: wolfenstein ∂ xpert.digital
我很期待我们的联合项目。