Publié le : 30 juillet 2025 / Mis à jour le : 30 juillet 2025 – Auteur : Konrad Wolfenstein

L'offensive majeure de la Chine en matière d'IA : avec Wan 2.2, Alibaba ambitionne de surpasser l'Occident et mise tout sur l'open source. – Image : Xpert.Digital
Voici la nouvelle merveille d'Alibaba, AI Wan2.2 : gratuite, plus puissante que la concurrence et accessible à tous
La réponse chinoise à Sora d'OpenAI en matière de vidéo : cette nouvelle IA génère des vidéos de qualité cinématographique – et elle est gratuite
Le 29 juillet 2025, la société technologique chinoise Alibaba a lancé Wan2.2, une nouvelle version prometteuse de son modèle de génération vidéo open source, révolutionnant ainsi le paysage de l'intelligence artificielle appliquée à la production vidéo. Cette technologie innovante est la première au monde à implémenter une architecture de type « Mixture of Experts » (MoE), conçue aussi bien pour la production cinématographique professionnelle que pour une utilisation sur du matériel standard.
En lien avec ceci :
- Alibaba investit plus de 50 milliards de dollars américains dans l'IA et le cloud computing – l'intelligence artificielle générale (IAG) y joue un rôle central

Révolution technologique à travers l'architecture du ministère de l'Éducation
Wan2.2 introduit pour la première fois une architecture à double expertise dans les modèles de diffusion vidéo, ce qui représente une avancée technologique majeure. Cette architecture novatrice utilise un système expert dual qui divise le processus de génération vidéo en deux phases spécialisées. Le premier expert se concentre sur les premières étapes de réduction du bruit et détermine la structure de base de la scène, tandis que le second expert prend en charge les étapes suivantes, en affinant les détails et les textures.
Le système comporte 27 milliards de paramètres, mais n'en active que 14 milliards par étape d'inférence, réduisant ainsi la charge de calcul jusqu'à 50 % sans compromettre la qualité. Ce gain d'efficacité permet de générer des vidéos de haute qualité tout en maintenant les coûts de calcul constants et en augmentant simultanément la capacité globale du modèle.
Esthétique cinématographique et contrôle du cinéma
L'un des atouts majeurs de Wan2.2 réside dans son système de contrôle esthétique cinématographique, qui permet aux utilisateurs d'exercer une maîtrise précise sur diverses dimensions visuelles. Le modèle a été entraîné sur des données esthétiques soigneusement sélectionnées, incluant des étiquettes détaillées pour l'éclairage, la composition, le contraste, la teinte, l'angle de prise de vue, la taille de l'image, la focale et d'autres paramètres cinématographiques.
Cette fonctionnalité repose sur un système d'invites inspiré du cinéma, qui catégorise des dimensions clés telles que l'éclairage, la composition et la couleur. Wan2.2 peut ainsi interpréter et mettre en œuvre avec précision les intentions esthétiques de l'utilisateur lors de la génération, permettant la création de vidéos aux préférences cinématographiques personnalisables.
Données d'entraînement avancées et génération de mouvements complexes
Comparé à son prédécesseur, Wan2.1, l'ensemble de données d'entraînement a été considérablement enrichi : 65,6 % de données d'images supplémentaires et 83,2 % de données vidéo supplémentaires. Cet enrichissement massif améliore sensiblement les capacités de généralisation du modèle et accroît la diversité créative sur de multiples dimensions telles que le mouvement, la sémantique et l'esthétique.
Le modèle présente des améliorations significatives dans la génération de mouvements complexes, notamment des expressions faciales réalistes, des gestes de la main dynamiques et des mouvements athlétiques précis. De plus, il offre des rendus réalistes avec une meilleure obéissance aux commandes et un respect accru des lois physiques, pour des séquences vidéo plus naturelles et convaincantes.
Utilisation et accessibilité efficaces du matériel
Wan2.2 propose trois variantes de modèles différentes qui couvrent différentes exigences et configurations matérielles :
- Wan2.2-T2V-A14B : Un modèle de texte en vidéo avec 27 milliards de paramètres (14 milliards actifs) qui génère des vidéos à une résolution de 720p et 16 images par seconde.
- Wan2.2-I2V-A14B : Un modèle image-vidéo avec la même architecture pour convertir des images statiques en vidéos.
- Wan2.2-TI2V-5B : Un modèle compact de 5 milliards de paramètres qui combine les fonctions de conversion de texte en vidéo et d'image en vidéo dans un cadre unifié.
Le modèle compact TI2V-5B représente une avancée majeure, car il peut générer des vidéos 720p de 5 secondes en moins de 9 minutes sur une seule carte graphique grand public telle que la RTX 4090. Cette vitesse en fait l'un des modèles 720p à 24 images par seconde les plus rapides du marché, permettant ainsi aux applications industrielles et à la recherche académique de tirer parti de cette technologie.
Architecture UAE avancée pour une compression optimisée
Le modèle TI2V-5B est basé sur une architecture VAE 3D très efficace avec un taux de compression de 4×16×16, ce qui porte le taux de compression global des informations à 64. Avec une couche de patch supplémentaire, le taux de compression global du TI2V-5B atteint même 4×32×32, garantissant une reconstruction vidéo de haute qualité avec des besoins de stockage minimaux.
Cette technologie de compression avancée permet au modèle de prendre en charge nativement les tâches de conversion de texte en vidéo et d'image en vidéo dans un cadre unique et unifié, couvrant à la fois la recherche académique et les applications pratiques.
Performance de référence et position sur le marché
Wan2.2 a été testé face aux principaux modèles commerciaux de génération vidéo par IA, notamment Sora, KLING 2.0 et Hailuo 02, à l'aide de la nouvelle suite d'évaluation Wan-Bench 2.0. Les résultats montrent que Wan2.2 atteint des performances de pointe dans la majorité des catégories et surpasse ses concurrents les plus performants.
Lors de comparaisons directes, Wan2.2-T2V-A14B s'est hissé à la première place dans quatre des six critères d'évaluation clés, notamment en matière de qualité esthétique et de dynamique de mouvement. Cette performance confirme la position de Wan2.2 comme nouveau leader du marché open source pour la génération vidéo haute résolution.
Disponibilité et intégration des logiciels libres
Wan2.2 est disponible en tant que logiciel libre sous licence Apache 2.0 et peut être téléchargé depuis Hugging Face, GitHub et ModelScope. Les modèles sont déjà intégrés à des frameworks populaires tels que ComfyUI et Diffusers, permettant une utilisation fluide dans les flux de travail existants.
Le modèle TI2V-5B intègre un espace de capture de visage prêt à l'emploi, permettant aux utilisateurs de tester immédiatement la technologie sans installation complexe. Cette accessibilité démocratise l'accès à une technologie de pointe en matière de génération vidéo et favorise l'innovation au sein de la communauté des développeurs.
L'offensive stratégique chinoise en matière d'IA
Le lancement de Wan2.2 s'inscrit dans une stratégie chinoise plus vaste en matière d'IA open source, qui a déjà suscité un intérêt international grâce à des modèles comme DeepSeek. Cette stratégie est en phase avec le plan de numérisation officiel de la Chine, qui promeut la collaboration open source comme une ressource nationale depuis 2018 et prévoit des investissements publics massifs dans l'infrastructure d'IA.
Alibaba a déjà enregistré plus de 5,4 millions de téléchargements de ses modèles open source sur Hugging Face et ModelScope, ce qui souligne la forte demande internationale pour les solutions d'IA open source chinoises. L'entreprise prévoit d'investir environ 52 milliards de dollars supplémentaires dans le cloud computing et l'infrastructure d'IA afin de consolider sa position sur ce marché en pleine expansion.
En lien avec ceci :
Wan2.2 représente une avancée majeure dans le domaine de la vidéo IA : un logiciel libre à un niveau professionnel
Wan2.2 représente un tournant dans la génération vidéo par IA, offrant la première alternative open source aux modèles propriétaires payants, capable de rivaliser avec les solutions commerciales. L'alliance d'une qualité cinématographique, d'une utilisation efficace du matériel et d'une accessibilité totale en open source positionne ce modèle comme une alternative attrayante pour les créateurs de contenu, les cinéastes et les développeurs du monde entier.
Cette publication devrait intensifier la concurrence dans le domaine de la génération vidéo par IA et inciter d'autres entreprises à adopter des stratégies open source similaires. Grâce à sa capacité à fonctionner sur du matériel grand public et à fournir des résultats professionnels, Wan2.2 a le potentiel de démocratiser la production vidéo et d'ouvrir de nouvelles perspectives créatives.
En associant une technologie de pointe à une philosophie de développement ouverte, Alibaba établit de nouvelles normes en matière de génération vidéo par IA avec Wan 2.2 et positionne la Chine comme un acteur majeur de l'innovation mondiale dans ce domaine. Les implications profondes de cette avancée transformeront en profondeur la création et la production vidéo dans les années à venir.
En lien avec ceci :
Votre expert en transformation IA, intégration IA et plateformes IA
☑️ Notre langue de travail est l'anglais ou l'allemand
☑️ NOUVEAU : Correspondance dans votre langue maternelle !
Mon équipe et moi-même sommes heureux de pouvoir vous accompagner en tant que conseiller personnel.
Vous pouvez me contacter en remplissant le formulaire de contact ici ou m'appeler au +49 89 89 674 804 ( Munich) . Mon adresse e-mail est : [email protected]
J'attends avec impatience notre projet commun.



