La grande offensiva cinese sull'intelligenza artificiale nei video: con Wan 2.2, Alibaba punta a superare l'Occidente e rende tutto open source

Konrad Wolfenstein

10 mesi fa

La grande offensiva cinese sull'intelligenza artificiale: con Wan 2.2, Alibaba punta a superare l'Occidente e rende tutto open source – Immagine: Xpert.Digital

Ecco la nuova meraviglia AI Wan2.2 di Alibaba: gratuita, più potente della concorrenza e disponibile a tutti

La risposta video cinese a Sora di OpenAI: questa nuova intelligenza artificiale genera video di qualità cinematografica, ed è gratuita

Il 29 luglio 2025, l'azienda tecnologica cinese Alibaba ha rilasciato Wan2.2, una nuova entusiasmante versione del suo modello di generazione video open source, che ha rivoluzionato il panorama dell'intelligenza artificiale per la produzione video. Questa tecnologia innovativa rappresenta il primo modello di generazione video open source al mondo a implementare un'architettura Mixture-of-Experts (MoE), progettata sia per la produzione cinematografica professionale che per l'utilizzo su hardware standard.

Correlato a questo:

Alibaba investe oltre 50 miliardi di dollari nell'intelligenza artificiale e nel cloud computing: l'intelligenza artificiale generale (AGI) svolge un ruolo centrale

Rivoluzione tecnologica attraverso l'architettura MoE

WAN2.2 introduce per la prima volta un'architettura mista di esperti nei modelli di diffusione video, rappresentando una significativa svolta tecnologica. Questa architettura innovativa impiega un doppio sistema esperto che suddivide il processo di generazione video in due fasi specializzate. Il primo esperto si concentra sulle fasi iniziali della riduzione del rumore e determina il layout di base della scena, mentre il secondo esperto gestisce le fasi successive, perfezionando dettagli e texture.

Il sistema ha un totale di 27 miliardi di parametri, ma ne attiva solo 14 miliardi per ogni fase di inferenza, riducendo lo sforzo computazionale fino al 50% senza compromettere la qualità. Questo aumento di efficienza consente di generare video di alta qualità mantenendo costanti i costi computazionali e ampliando contemporaneamente la capacità complessiva del modello.

Estetica del film e controllo cinematografico

Una caratteristica distintiva di Wan2.2 è il suo sistema di controllo estetico cinematografico, che consente agli utenti di esercitare un controllo preciso su diverse dimensioni visive. Il modello è stato addestrato su dati estetici accuratamente selezionati, tra cui etichette dettagliate per illuminazione, composizione, contrasto, tonalità, angolazione della telecamera, dimensioni dell'immagine, lunghezza focale e altri parametri cinematografici.

Questa funzionalità si basa su un sistema di prompt di ispirazione cinematografica che categorizza dimensioni chiave come illuminazione, composizione e colore. Ciò consente a Wan2.2 di interpretare e implementare con precisione le intenzioni estetiche dell'utente durante il processo di generazione, consentendo la creazione di video con preferenze cinematografiche personalizzabili.

Dati di formazione avanzati e generazione di movimenti complessi

Rispetto al suo predecessore, Wan2.1, il set di dati di training è stato notevolmente ampliato: il 65,6% in più di dati immagine e l'83,2% in più di dati video. Questa massiccia espansione dei dati migliora considerevolmente le capacità di generalizzazione del modello e aumenta la diversità creativa in più dimensioni come movimento, semantica ed estetica.

Il modello mostra miglioramenti significativi nella generazione di movimenti complessi, tra cui espressioni facciali realistiche, gesti dinamici delle mani e movimenti atletici complessi. Inoltre, offre rendering realistici con una migliore obbedienza ai comandi e aderenza alle leggi fisiche, con conseguenti sequenze video più naturali e convincenti.

Utilizzo efficiente dell'hardware e accessibilità

Wan2.2 offre tre diverse varianti di modello che soddisfano requisiti e configurazioni hardware differenti:

Wan2.2-T2V-A14B: un modello text-to-video con 27 miliardi di parametri (14 miliardi attivi) che genera video con risoluzione 720p e 16 fps.
Wan2.2-I2V-A14B: un modello da immagine a video con la stessa architettura per convertire immagini statiche in video.
Wan2.2-TI2V-5B: un modello compatto da 5 miliardi di parametri che combina le funzioni di conversione da testo a video e da immagine a video in un framework unificato.

Il modello compatto TI2V-5B rappresenta una svolta significativa, in quanto è in grado di generare video 720p da 5 secondi in meno di 9 minuti su una singola GPU consumer come la RTX 4090. Questa velocità lo rende uno dei modelli 720p@24fps più veloci disponibili, consentendo sia alle applicazioni industriali che alla ricerca accademica di trarre vantaggio da questa tecnologia.

Architettura UAE avanzata per una compressione ottimizzata

Il modello TI2V-5B si basa su un'architettura 3D VAE altamente efficiente con un rapporto di compressione di 4×16×16, che aumenta il tasso di compressione complessivo delle informazioni a 64. Con un ulteriore livello di patching, il rapporto di compressione complessivo del TI2V-5B raggiunge addirittura 4×32×32, garantendo una ricostruzione video di alta qualità con requisiti di archiviazione minimi.

Questa tecnologia di compressione avanzata consente al modello di supportare in modo nativo sia le attività di conversione da testo a video sia quelle di conversione da immagine a video in un unico framework unificato, che copre sia la ricerca accademica sia le applicazioni pratiche.

Performance di riferimento e posizione di mercato

Wan2.2 è stato testato con i principali modelli commerciali di generazione video basata su intelligenza artificiale, tra cui Sora, KLING 2.0 e Hailuo 02, utilizzando la nuova suite di valutazione Wan-Bench 2.0. I risultati mostrano che Wan2.2 raggiunge prestazioni all'avanguardia nella maggior parte delle categorie e supera i suoi concorrenti di alto livello.

Nei confronti diretti, Wan2.2-T2V-A14B si è aggiudicato il primo posto in quattro delle sei dimensioni chiave del benchmark, tra cui le aree critiche della qualità estetica e della dinamica del movimento. Questo risultato conferma Wan2.2 come il nuovo leader del mercato open source nella generazione di video ad alta risoluzione.

Disponibilità e integrazione open source

Wan2.2 è disponibile come software completamente open source con licenza Apache 2.0 e può essere scaricato da Hugging Face, GitHub e ModelScope. I modelli sono già integrati in framework diffusi come ComfyUI e Diffusers, consentendone un utilizzo ottimale nei flussi di lavoro esistenti.

Il modello TI2V-5B è dotato di un Hugging Face Space pronto all'uso, che consente agli utenti di provare immediatamente la tecnologia senza complesse installazioni. Questa accessibilità democratizza l'accesso a tecnologie di generazione video all'avanguardia e promuove l'innovazione nella comunità degli sviluppatori.

L'offensiva strategica cinese contro l'intelligenza artificiale

Il rilascio di Wan2.2 fa parte di una più ampia strategia cinese di intelligenza artificiale open source, che ha già attirato l'attenzione internazionale con modelli come DeepSeek. Questa strategia è in linea con il piano ufficiale di digitalizzazione della Cina, che dal 2018 promuove la collaborazione open source come risorsa nazionale e prevede ingenti investimenti governativi nelle infrastrutture di intelligenza artificiale.

Alibaba ha già registrato oltre 5,4 milioni di download dei suoi modelli WAN su Hugging Face e ModelScope, a dimostrazione della forte domanda internazionale di soluzioni di intelligenza artificiale open source cinesi. L'azienda prevede ulteriori investimenti per circa 52 miliardi di dollari in infrastrutture di cloud computing e intelligenza artificiale per consolidare la propria posizione in questo mercato in rapida crescita.

Correlato a questo:

Approvvigionamento B2B: catene di fornitura, commercio, mercati e sourcing basato sull'intelligenza artificiale

Wan2.2 segna una svolta nei video di intelligenza artificiale: open source a livello professionale

WAN2.2 rappresenta una svolta nella generazione di video basati sull'intelligenza artificiale, offrendo la prima alternativa open source ai modelli proprietari a pagamento in grado di competere con le soluzioni commerciali. La combinazione di qualità cinematografica, utilizzo efficiente dell'hardware e completa disponibilità open source posiziona il modello come un'alternativa interessante per creatori di contenuti, registi e sviluppatori di tutto il mondo.

È probabile che il rilascio intensifichi la concorrenza nel campo della generazione video basata sull'intelligenza artificiale e potrebbe incoraggiare altre aziende a perseguire strategie open source simili. Grazie alla sua capacità di funzionare su hardware consumer e di fornire risultati professionali, Wan2.2 ha il potenziale per democratizzare la produzione video e sbloccare nuove possibilità creative.

Combinando tecnologie avanzate con una filosofia di sviluppo aperta, Alibaba sta definendo nuovi standard nella generazione di video AI con Wan2.2 e affermando la Cina come forza trainante nell'innovazione globale dell'IA. L'impatto di vasta portata di questo sviluppo cambierà radicalmente il modo in cui i video vengono creati e prodotti nei prossimi anni.

Correlato a questo:

Il tuo esperto del settore della trasformazione dell'IA, dell'integrazione dell'IA e della piattaforma di IA

☑️ La nostra lingua aziendale è l'inglese o il tedesco

☑️ NOVITÀ: Corrispondenza nella tua lingua madre!

Konrad Wolfenstein

Io e il mio team saremo lieti di essere a tua disposizione come tuo consulente personale.

Puoi contattarmi compilando il modulo di contatto qui semplicemente chiamandomi al numero +49 7348 4088 965. Il mio indirizzo email è wolfenstein@xpert.digital:o

Non vedo l'ora di iniziare il nostro progetto comune.

La grande offensiva cinese sull'intelligenza artificiale nei video: con Wan 2.2, Alibaba punta a superare l'Occidente e rende tutto open source

Ecco la nuova meraviglia AI Wan2.2 di Alibaba: gratuita, più potente della concorrenza e disponibile a tutti

La risposta video cinese a Sora di OpenAI: questa nuova intelligenza artificiale genera video di qualità cinematografica, ed è gratuita

Rivoluzione tecnologica attraverso l'architettura MoE

Estetica del film e controllo cinematografico

Dati di formazione avanzati e generazione di movimenti complessi

Utilizzo efficiente dell'hardware e accessibilità

Architettura UAE avanzata per una compressione ottimizzata

Performance di riferimento e posizione di mercato

Disponibilità e integrazione open source

L'offensiva strategica cinese contro l'intelligenza artificiale

Wan2.2 segna una svolta nei video di intelligenza artificiale: open source a livello professionale

Il tuo esperto del settore della trasformazione dell'IA, dell'integrazione dell'IA e della piattaforma di IA

☑️ La nostra lingua aziendale è l'inglese o il tedesco

☑️ NOVITÀ: Corrispondenza nella tua lingua madre!

☑️ Supporto alle PMI in strategia, consulenza, pianificazione e implementazione

☑️ Creazione o riallineamento della strategia di IA

☑️ Sviluppo aziendale pionieristico