Sélection de voix 📢


Big Video Ki Offensive de la Chine: avec WAN 2.2 Alibaba veut dépasser l'Occident – et fait tout ce qui est open source

Publié le: 30 juillet 2025 / mise à jour du: 30 juillet 2025 – Auteur: Konrad Wolfenstein

L'offensive de l'IA de la Chine: avec WAN 2.2 Alibaba veut dépasser l'Occident – et fait tout ce qui est open source

Offensive de l'IA de la Chine: avec WAN 2.2, Alibaba veut dépasser l'Occident – et fait toute l'Open source – Image: Xpert.Digital

C'est le nouveau Wunder-Ki Wan2.2 d'Alibaba: gratuit, plus puissant que la compétition et disponible pour tout le monde

Réponse vidéo de la Chine à Sora von Openaai: cette nouvelle IA génère des vidéos en qualité du cinéma – et est également gratuite

La société de technologie chinoise Alibaba a publié une nouvelle version intéressante de son modèle vidéo open source le 29 juillet 2025 avec WAN2.2 et a donc fondamentalement changé le paysage de l'intelligence artificielle pour la production vidéo. Cette technologie innovante représente le premier modèle vidéo vidéo open source au monde qui a implémenté une architecture de mélange d'Experts (MOE) et a été conçu pour les deux productions professionnelles et pour une utilisation sur le matériel disponible dans le commerce.

Convient à:

Révolution technologique à travers l'architecture MOE

Pour la première fois, WAN2.2 introduit une architecture de mélange d'Experts dans les modèles de dévotion vidéo, qui est une percée technologique significative. Cette architecture innovante fonctionne avec un système à double expert qui divise le processus de vidéoogénéisation en deux phases spécialisées. Le premier expert se concentre sur les premières phases de la suppression du bruit et détermine la disposition de base de la scène, tandis que le deuxième expert reprend les phases ultérieures et affine les détails et les textures.

Le système a un total de 27 milliards de paramètres, mais n'active que 14 milliards de paramètres par étape d'inférence, ce qui réduit l'effort informatique jusqu'à 50% sans affecter la qualité. Cette augmentation de l'efficacité permet de générer des vidéos de haute qualité, tandis que les coûts informatiques restent constants et en même temps que la capacité globale du modèle est élargie.

Esthétique du film et contrôle cinématographique

Une caractéristique exceptionnelle de WAN2.2 est le système de contrôle esthétique cinématographique, qui permet aux utilisateurs d'effectuer un contrôle précis sur diverses dimensions visuelles. Le modèle a été formé avec des données esthétiques soigneusement organisées qui contiennent des étiquettes détaillées pour l'éclairage, la composition, le contraste, la couleur, la plaque de cuisson de la caméra, la taille de l'image, la distance focale et d'autres paramètres cinématographiques.

Cette fonctionnalité est basée sur un système invite inspiré cinématiquement qui catégorise les dimensions clés telles que l'éclairage, l'éclairage, la composition et la coloration. En conséquence, WAN2.2 peut interpréter et implémenter avec précision les intentions esthétiques des utilisateurs pendant le processus de génération, ce qui permet la création de vidéos avec des préférences cinématographiques personnalisables.

Données de formation prolongées et génération de mouvements complexes

Par rapport au prédécesseur WAN2.1, l'ensemble de données de formation a été considérablement élargi: 65,6% de données d'image en plus et 83,2% de données vidéo en plus. Cette expansion massive des données améliore considérablement les compétences de généralisation du modèle et augmente la diversité créative dans plusieurs dimensions telles que le mouvement, la sémantique et l'esthétique.

Le modèle montre des améliorations significatives dans la production de mouvements complexes, notamment des expressions faciales animées, des gestes de la main dynamiques et des mouvements sportifs compliqués. En outre, il fournit des représentations réalistes avec une meilleure conformité et une conformité des commandes aux lois physiques, ce qui conduit à des séquences vidéo plus naturelles et convaincantes.

Utilisation efficace du matériel et accessibilité

WAN2.2 propose trois variantes de modèle différentes qui couvrent différentes exigences et configurations matérielles:

  • WAN2.2-T2V-A14B: un modèle de texte à vidéo avec 27 milliards de paramètres (14 milliards actifs), qui génère des vidéos avec une résolution 720p et 16fps.
  • WAN2.2-I2V-A14B: un modèle d'image à vidéo avec la même architecture pour la conversion d'images statiques en vidéos.
  • WAN2.2-TI2V-5B: un modèle de paramètre compact de 5 milliards qui combine à la fois des fonctions de texte à vidéo et d'image à vidéo dans un cadre uniforme.

Le modèle compact TI2V-5B est une percée spéciale, car elle peut générer des vidéos 720p de 5 secondes en moins de 9 minutes sur un seul GPU consommateur comme le RTX 4090. Cette vitesse en fait l'un des modèles 720p @ 24fps les plus rapides et permet à la fois des applications industrielles et une recherche académique pour bénéficier de la technologie.

Architecture VAE avancée pour une compression optimisée

Le modèle TI2V 5B est basé sur une architecture 3D très efficace avec un rapport de compression de 4 × 16 × 16, ce qui augmente le taux de compression total des informations à 64. Avec une couche supplémentaire de patchification, le rapport de compression total de Ti2V-5B atteint même 4 × 32 × 32, qui assure une reconstruction vidéo de qualité supérieure avec des conditions de mémoire minimales.

Cette technologie de compression avancée permet au modèle de prendre en charge les tâches de texte à vidéo et d'image à vidéo dans un cadre uniforme unique, qui couvre à la fois la recherche académique et les applications pratiques.

Performance de référence et position du marché

WAN2.2 a été testé contre les principaux modèles vidéo commerciaux commerciaux avec l'aide de la nouvelle suite d'évaluation WAN-Bench 2.0, y compris Sora, Kling 2.0 et Hailuo 02. Les résultats montrent que WAN2.2 atteint des performances de pointe dans la majorité des catégories et dépasse ses concurrents de haut niveau.

En comparaison directe, WAN2.2-T2V-A14B a obtenu la première place dans quatre des six dimensions de référence centrale, y compris la qualité esthétique et la dynamique de mouvement. Cette performance établit WAN2.2 en tant que nouveau leader du marché open source dans la vidéoogénéisation haute résolution.

Disponibilité et intégration open source

WAN2.2 est disponible en tant que logiciel entièrement open source sous la licence Apache 2.0 et peut être téléchargé via Hugging Face, GitHub et Modelcope. Les modèles ont déjà été intégrés dans des cadres populaires tels que Comfyui et Diffuseurs, ce qui permet une utilisation transparente dans les flux de travail existants.

Un espace facial étreint est disponible pour une utilisation directe pour le modèle TI2V 5B, ce qui signifie que les utilisateurs peuvent essayer la technologie immédiatement sans avoir à effectuer des installations complexes. Cette accessibilité démocratise l'accès à la technologie de la vidéoogénéisation de l'état -art et favorise l'innovation dans toute la communauté des développeurs.

Offensive stratégique de l'IA de la Chine

La publication de WAN2.2 fait partie d'une stratégie d'IA open source chinoise plus large qui a déjà attiré l'attention internationale avec des modèles comme Deepseek. Cette stratégie suit le plan officiel de numérisation chinoise, qui promouvait la collaboration open source en tant que ressource nationale depuis 2018 et prévoit des investissements étatiques massifs dans les infrastructures de l'IA.

Alibaba a déjà enregistré plus de 5,4 millions de téléchargements de ses modèles WAN sur Hugging Face and Modelscope, qui souligne une forte demande internationale de solutions d'IA open source chinoises. La société prévoit de nouveaux investissements d'environ 52 milliards de dollars de cloud computing et d'infrastructure d'IA pour consolider sa position sur ce marché en croissance rapide.

Convient à:

WAN2.2 fournit une percée sur les vidéos AI: Open source au niveau professionnel

WAN2.2 représente un tournant dans la vidéoogenisation de l'IA car il offre la première alternative open source à payer, des modèles propriétaires qui peuvent rivaliser avec des solutions commerciales. La combinaison de la qualité cinématographique, de l'utilisation efficace du matériel et de la disponibilité open source complète positionne le modèle comme une alternative attrayante pour les fabricants de contenu, les cinéastes et les développeurs du monde entier.

La publication est susceptible d'intensifier la concurrence dans le domaine de la vidéoogénéisation de l'IA et pourrait amener d'autres entreprises à poursuivre des stratégies open source similaires. Avec sa capacité à fonctionner sur le matériel de consommation et à fournir des résultats professionnels, WAN2.2 a le potentiel de démocratiser la production vidéo et d'ouvrir de nouvelles opportunités créatives.

Grâce à la combinaison de la technologie avancée avec une philosophie de développement ouverte, Alibaba avec WAN2.2 établit de nouvelles normes dans la vidéoogénisation de l'IA et établit la Chine comme une force principale dans l'innovation mondiale de l'IA. Les effets de grande échelle de ce développement changeront la façon dont les vidéos sont créées et produites, dans les années à venir.

Convient à:

 

Votre transformation d'IA, l'intégration de l'IA et l'expert de l'industrie de la plate-forme d'IA

☑️ Notre langue commerciale est l'anglais ou l'allemand

☑️ NOUVEAU : Correspondance dans votre langue nationale !

 

Pionnier numérique – Konrad Wolfenstein

Konrad Wolfenstein

Je serais heureux de vous servir, vous et mon équipe, en tant que conseiller personnel.

Vous pouvez me contacter en remplissant le formulaire de contact ou simplement m'appeler au +49 89 89 674 804 (Munich) . Mon adresse e-mail est : wolfenstein xpert.digital

J'attends avec impatience notre projet commun.

 

 

☑️ Accompagnement des PME en stratégie, conseil, planification et mise en œuvre

Création ou réalignement de la stratégie de l'IA

☑️ Développement commercial pionnier


⭐️ Intelligence artificielle (ki) blog, hotspot et hub de contenu ⭐️ Xpaper