Pubblicato il: 30 luglio 2025 / Aggiornamento dal: 30 luglio 2025 – Autore: Konrad Wolfenstein
Offensiva della Big AI della Cina: con Wan 2.2 Alibaba vuole superare l'Occidente – e fa tutta l'open source – Immagine: Xpert.Digital
Questo è il nuovo Wunder-Ki Wan2.2 di Alibaba: gratuito, più potente della concorrenza e disponibile per tutti
La risposta video in Cina a Sora von Openaai: questa nuova AI genera video di qualità del cinema – ed è anche gratuita
La società tecnologica cinese Alibaba ha pubblicato un'interessante nuova versione del suo modello di video open source il 29 luglio 2025 con Wan2.2 e quindi ha quindi cambiato fondamentalmente il panorama dell'intelligenza artificiale per la produzione video. Questa tecnologia innovativa rappresenta il primo modello di video open source al mondo che ha implementato un'architettura di mixture-of-Experts (MOE) ed è stata progettata sia per produzioni cinematografiche professionali sia per l'uso su hardware disponibile in commercio.
Adatto a:
- Alibaba investe oltre $ 50 miliardi in AI e Cloud Computing – Artificial General Intelligence (AGI) svolge un ruolo centrale
Rivoluzione tecnologica attraverso l'architettura MOE
Per la prima volta, Wan2.2 introduce un'architettura di esperti in modelli devozionali video, che è una svolta tecnologica significativa. Questa architettura innovativa funziona con un sistema a doppio esperto che divide il processo di videogoogenizzazione in due fasi specializzate. Il primo esperto si concentra sulle prime fasi della soppressione del rumore e determina il layout di base della scena, mentre il secondo esperto prende le fasi successive e perfeziona i dettagli e le trame.
Il sistema ha un totale di 27 miliardi di parametri, ma attiva solo 14 miliardi di parametri per fase di inferenza, il che riduce lo sforzo di calcolo fino al 50 percento senza influire sulla qualità. Questo aumento dell'efficienza consente di generare video di alta qualità, mentre i costi di elaborazione rimangono costanti e allo stesso tempo la capacità complessiva del modello viene ampliata.
Film Aesthetics e Cinematic Control
Una caratteristica eccezionale di Wan2.2 è il sistema di controllo estetico cinematografico, che consente agli utenti di eseguire un controllo preciso su varie dimensioni visive. Il modello è stato addestrato con dati estetici attentamente curati che contengono etichette dettagliate per illuminazione, composizione, contrasto, colore, piano cottura della fotocamera, dimensioni dell'immagine, lunghezza focale e altri parametri cinematografici.
Questa funzionalità si basa su un sistema rapido ispirato cinematografico che classifica le dimensioni chiave come illuminazione, illuminazione, composizione e colorazione. Di conseguenza, Wan2.2 può interpretare e implementare con precisione le intenzioni estetiche degli utenti durante il processo di generazione, che consente la creazione di video con preferenze cinematografiche personalizzabili.
Dati di addestramento esteso e generazione complessa di movimento
Rispetto al predecessore Wan2.1, il set di dati di addestramento è stato significativamente ampliato: il 65,6 per cento di dati di immagine in più e l'83,2 per cento in più di dati video. Questa massiccia espansione dei dati migliora significativamente le capacità di generalizzazione del modello e aumenta la diversità creativa in diverse dimensioni come movimento, semantica ed estetica.
Il modello mostra miglioramenti significativi nella produzione di movimenti complessi, tra cui espressioni facciali vivaci, gesti delle mani dinamiche e complicati movimenti sportivi. Inoltre, fornisce rappresentazioni realistiche con una migliore conformità al comando e la conformità alle leggi fisiche, che porta a sequenze video più naturali e convincenti.
Uso e accessibilità hardware efficiente
Wan2.2 offre tre diverse varianti del modello che coprono diversi requisiti e configurazioni hardware:
- WAN2.2-T2V-A14B: un modello text-to-video con 27 miliardi di parametri (14 miliardi di attivi), che genera video con risoluzione 720p e 16fps.
- WAN2.2-I2V-A14B: un modello da immagine a video con la stessa architettura per la conversione di immagini statiche in video.
- WAN2.2-TI2V-5B: un modello di parametro da 5 miliardi compatti che combina funzioni di testo a video e immagine a video in un framework uniforme.
Il modello TI2V-5B compatto è una svolta speciale, poiché può generare video 720p da 5 secondi in meno di 9 minuti su una singola GPU di consumo come la RTX 4090. Questa velocità lo rende uno dei modelli 720p@24fps più veloci e consente sia le applicazioni industriali che la ricerca accademica per beneficiare della tecnologia.
Architettura VAE avanzata per compressione ottimizzata
Il modello TI2V 5B si basa su un'architettura VAE 3D altamente efficiente con un rapporto di compressione di 4 × 16 × 16, che aumenta il tasso di compressione delle informazioni totali a 64. Con un ulteriore livello di patchificazione, il rapporto di compressione totale di TI2V-5B raggiunge persino 4 × 32 × 32, che seguono una ricostruzione video di alta qualità.
Questa tecnologia di compressione avanzata consente al modello di supportare sia le attività di testo a video che da immagine a video in un unico framework uniforme, che copre sia la ricerca accademica che le applicazioni pratiche.
Performance di riferimento e posizione di mercato
Wan2.2 è stato testato rispetto ai principali modelli video commerciali di intelligenza artificiale con l'aiuto della nuova suite di valutazione Wan-Bench 2.0, tra cui Sora, Kling 2.0 e Hailuo 02. I risultati mostrano che Wan2.2 ottiene le prestazioni all'avanguardia nella maggioranza delle categorie e supera i suoi concorrenti di alto livello.
Nel confronto diretto della classifica, Wan2.2-T2V-A14B si è assicurato il primo posto in quattro delle sei dimensioni del benchmark centrale, tra cui la qualità estetica e le dinamiche di movimento. Questa performance stabilisce Wan2.2 come un nuovo leader del mercato open source nella videogoogenizzazione ad alta risoluzione.
Disponibilità e integrazione open source
Wan2.2 è disponibile come software completamente open source con la licenza Apache 2.0 e può essere scaricato tramite abbraccio, GitHub e ModelScope. I modelli sono già stati integrati in framework popolari come Comfyui e diffusori, che consentono un uso senza soluzione di continuità nei flussi di lavoro esistenti.
Abbracciare lo spazio facciale è disponibile per l'uso diretto per il modello TI2V 5B, il che significa che gli utenti possono provare immediatamente la tecnologia senza dover effettuare installazioni complesse. Questa accessibilità democratizza l'accesso alla tecnologia di videogoogenizzazione statale -art e promuove l'innovazione in tutta la comunità degli sviluppatori.
Offensiva strategica dell'IA della Cina
La pubblicazione di Wan2.2 fa parte di una più ampia strategia di intelligenza artificiale cinese che ha già attirato l'attenzione internazionale con modelli come DeepSeek. Questa strategia segue il piano ufficiale di digitalizzazione cinese, che ha promosso la collaborazione open source come risorsa nazionale dal 2018 e prevede enormi investimenti statali nelle infrastrutture di intelligenza artificiale.
Alibaba ha già registrato oltre 5,4 milioni di download dei suoi modelli WAN su abbracci e ModelScope, che sottolinea una forte domanda internazionale di soluzioni cinesi open source. La società sta pianificando ulteriori investimenti di circa $ 52 miliardi nel cloud computing e nell'infrastruttura di intelligenza artificiale per consolidare la propria posizione in questo mercato in rapida crescita.
Adatto a:
Wan2.2 fornisce una svolta sui video AI: open source a livello professionale
Wan2.2 rappresenta una svolta nella videoogenizzazione dell'IA perché offre la prima alternativa open source da pagare, modelli proprietari che possono competere con soluzioni commerciali. La combinazione di qualità cinematografica, uso di hardware efficiente e disponibilità completa di disponibilità open source il modello come alternativa attraente per produttori di contenuti, cineasti e sviluppatori in tutto il mondo.
È probabile che la pubblicazione intensifichi la concorrenza nel campo della videogoogenizzazione dell'IA e potrebbe indurre altre società a perseguire strategie open source simili. Con la sua capacità di correre su hardware dei consumatori e fornire risultati professionali, Wan2.2 ha il potenziale per democratizzare la produzione video e aprire nuove opportunità creative.
Attraverso la combinazione di tecnologia avanzata con la filosofia di sviluppo aperto, Alibaba con Wan2.2 stabilisce nuovi standard nella videoogenizzazione dell'IA e stabilisce la Cina come una forza leader nell'innovazione globale dell'IA. Gli effetti di distanza di questo sviluppo cambieranno il modo in cui i video vengono creati e prodotti, nei prossimi anni.
Adatto a:
La tua trasformazione AI, l'integrazione dell'IA ed esperto del settore della piattaforma AI
☑️ La nostra lingua commerciale è l'inglese o il tedesco
☑️ NOVITÀ: corrispondenza nella tua lingua nazionale!
Sarei felice di servire te e il mio team come consulente personale.
Potete contattarmi compilando il modulo di contatto o semplicemente chiamandomi al numero +49 89 89 674 804 (Monaco) . Il mio indirizzo email è: wolfenstein ∂ xpert.digital
Non vedo l'ora di iniziare il nostro progetto comune.