商业创新者 - Xpert.Digital - Konrad Wolfenstein

Available in 27 languages 📢

中国视频 AI 攻势：阿里巴巴欲凭借 Wan 2.2 超越西方，并将一切开源

发布日期：2025年7月30日 / 更新日期：2025年7月30日 – 作者：Konrad Wolfenstein

中国人工智能攻势：阿里巴巴凭借WAN 2.2旨在超越西方，并致力于将所有内容开源——图片来源：Xpert.Digital

这是阿里巴巴推出的全新奇迹 AI Wan2.2：免费、比竞争对手更强大，而且人人可用。

中国推出了视频版的 OpenAI Sora：这款新型人工智能可以生成影院级视频——而且是免费的。

2025年7月29日，中国科技公司阿里巴巴发布了WAN2.2，这是其开源视频生成模型的一个激动人心的新版本，从根本上改变了人工智能在视频制作领域的应用格局。这项创新技术是全球首个采用混合专家（MoE）架构的开源视频生成模型，既适用于专业电影制作，也适用于现成硬件。.

适合：

阿里巴巴在AI和云计算人工通用情报（AGI）上投资超过500亿美元，起着核心作用

通过教育部架构实现技术革命

Wan2.2首次将混合专家架构引入视频扩散模型，这代表着一项重大的技术突破。这种创新架构采用双专家系统，将视频生成过程分为两个专门的阶段。第一个专家专注于降噪的早期阶段并确定基本场景布局，而第二个专家则处理后期阶段，细化细节和纹理。.

该系统共有270亿个参数，但每次推理步骤仅激活140亿个参数，从而在不影响质量的前提下，将计算量降低高达50%。这种效率的提升使得在保持计算成本不变的情况下生成高质量视频成为可能，同时还能扩展模型的整体容量。.

电影美学与电影控制

Wan2.2 的一个突出特点是其电影级美学控制系统，使用户能够精确控制各种视觉维度。该模型基于精心整理的美学数据进行训练，这些数据包括光照、构图、对比度、色调、摄像机角度、图像尺寸、焦距和其他电影参数的详细标签。.

此功能基于电影级的提示系统，该系统对光照、照明、构图和色彩等关键维度进行分类。这使得 Wan2.2 能够在生成过程中精准地解读并实现用户的审美意图，从而创建具有可定制电影风格的视频。.

高级训练数据和复杂运动生成

与前代版本 Wan2.1 相比，训练数据集得到了显著扩展：图像数据增加了 65.6%，视频数据增加了 83.2%。如此大规模的数据扩展极大地提升了模型的泛化能力，并在运动、语义和美学等多个维度上增强了创作多样性。.

该模型在生成复杂动作方面展现出显著的改进，包括逼真的面部表情、动态的手势和精细的运动动作。此外，它还能提供更逼真的渲染效果，更好地响应指令并遵循物理定律，从而生成更自然、更令人信服的视频序列。.

高效的硬件利用率和可访问性

Wan2.2 提供三种不同的型号，以满足不同的需求和硬件配置：

Wan2.2-T2V-A14B：一种具有 270 亿个参数（140 亿个活动参数）的文本转视频模型，可生成 720p 分辨率和 16fps 的视频。.
Wan2.2-I2V-A14B：一种采用相同架构的图像转视频模型，用于将静态图像转换为视频。.
Wan2.2-TI2V-5B：一个紧凑的 50 亿参数模型，在一个统一的框架中结合了文本转视频和图像转视频功能。.

紧凑型 TI2V-5B 型号代表着一项重大突破，因为它可以在 RTX 4090 等单个消费级 GPU 上，在不到 9 分钟的时间内生成 5 秒的 720p 视频。这一速度使其成为目前最快的 720p@24fps 型号之一，使工业应用和学术研究都能从中受益。.

先进的阿联酋架构，用于优化压缩

TI2V-5B 模型基于高效的 3D VAE 架构，压缩比为 4×16×16，整体信息压缩率提高到 64。通过额外的修补层，TI2V-5B 的整体压缩比甚至达到 4×32×32，确保以最小的存储需求实现高质量的视频重建。.

这种先进的压缩技术使该模型能够在单一的统一框架内原生支持文本到视频和图像到视频的任务，涵盖学术研究和实际应用。.

基准性能和市场地位

我们使用全新的 Wan-Bench 2.0 评估套件，将 Wan2.2 与包括 Sora、KLING 2.0 和 Hailuo 02 在内的领先商业 AI 视频生成模型进行了对比测试。结果表明，Wan2.2 在大多数类别中均达到了最先进的性能，并超越了其高端竞争对手。.

在直接排名对比中，Wan2.2-T2V-A14B 在六项关键基准测试指标中的四项均位列第一，其中包括美学质量和动态效果这两项至关重要的指标。这一成就确立了 Wan2.2 在高分辨率视频生成领域作为开源市场新领导者的地位。.

开源可用性和集成

Wan2.2 是一款完全开源的软件，采用 Apache 2.0 许可证，可从 Hugging Face、GitHub 和 ModelScope 下载。该模型已集成到 ComfyUI 和 Diffusers 等常用框架中，可与现有工作流程无缝衔接。.

TI2V-5B 型号配备了即用型 Hugging Face Space，用户无需复杂的安装即可立即体验这项技术。这种便捷性让更多人能够使用尖端的视频生成技术，并促进了开发者社区的创新。.

中国的人工智能战略攻势

Wan2.2的发布是中国更广泛的开源人工智能战略的一部分，该战略已凭借DeepSeek等模型引起了国际关注。这一战略与中国官方的数字化规划相契合，该规划自2018年以来一直将开源协作作为一项国家资源进行推广，并计划对人工智能基础设施进行大规模政府投资。.

阿里巴巴旗下的广域网模型在Hugging Face和ModelScope上的下载量已超过540万次，凸显了国际社会对中国开源人工智能解决方案的强劲需求。该公司计划进一步投资约520亿美元用于云计算和人工智能基础设施建设，以巩固其在这个快速增长的市场中的地位。.

适合：

B2B采购：供应链，贸易，市场和AI支持的采购

Wan2.2 为 AI 视频带来了突破：专业级的开源。

Wan2.2 代表了人工智能视频生成领域的一个转折点，它提供了首个开源替代方案，可以与付费的专有模型相媲美，并能与商业解决方案相抗衡。凭借电影级画质、高效的硬件利用率和完全开源的特性，该模型对全球内容创作者、电影制作人和开发者来说极具吸引力。.

此次发布可能会加剧人工智能视频生成领域的竞争，并可能鼓励其他公司采取类似的开源策略。Wan2.2 能够在消费级硬件上运行并提供专业级效果，因此有望普及视频制作，并开启新的创作可能。.

阿里巴巴将先进技术与开放的开发理念相结合，凭借WAN2.2为AI视频生成树立了新标杆，并巩固了中国在全球AI创新领域的领先地位。这一发展意义深远，将在未来几年从根本上改变视频的创作和制作方式。.

适合：

您的AI转换，AI集成和AI平台行业专家

☑️我们的业务语言是英语或德语

☑️ 新：用您的国家语言进行通信！

Konrad Wolfenstein

我很乐意作为个人顾问为您和我的团队提供服务。

您可以通过填写此处的联系表，或者直接致电+49 89 89 674 804 （慕尼黑）。我的电子邮件地址是： wolfenstein ∂ xpert.digital