Икона веб-сајта Xpert.Digital

Велика кинеска офанзива вештачке интелигенције у видео снимцима: Са Wan 2.2, Alibaba има за циљ да претекне Запад – и све чини отвореним кодом

Велика кинеска офанзива вештачке интелигенције: Са Wan 2.2, Alibaba има за циљ да претекне Запад – и све чини отвореним кодом

Велика кинеска офанзива вештачке интелигенције: Са Wan 2.2, Alibaba има за циљ да претекне Запад – и све чини отвореним кодом – Слика: Xpert.Digital

Ово је Алибабино ново чудо, AI Wan2.2: Бесплатно, моћније од конкуренције и доступно свима

Кинески видео одговор на OpenAI-јеву Сору: Ова нова вештачка интелигенција генерише видео записе биоскопског квалитета – и бесплатна је

Кинеска технолошка компанија Alibaba је 29. јула 2025. године објавила Wan2.2, узбудљиву нову верзију свог модела генерисања видеа отвореног кода, фундаментално мењајући пејзаж вештачке интелигенције за видео продукцију. Ова иновативна технологија представља први модел генерисања видеа отвореног кода на свету који имплементира архитектуру мешавине стручњака (MoE), дизајнирану како за професионалну филмску продукцију, тако и за употребу на стандардном хардверу.

У вези са овим:

Технолошка револуција кроз архитектуру Министарства просвете

Wan2.2 први пут уводи архитектуру мешавине стручњака у моделе видео дифузије, што представља значајан технолошки пробој. Ова иновативна архитектура користи двоструки експертски систем који дели процес генерисања видеа у две специјализоване фазе. Први стручњак се фокусира на ране фазе смањења шума и одређује основни распоред сцене, док други стручњак обрађује касније фазе, усавршавајући детаље и текстуре.

Систем има укупно 27 милијарди параметара, али активира само 14 милијарди параметара по кораку закључивања, смањујући рачунарски напор до 50 процената без угрожавања квалитета. Ово повећање ефикасности омогућава генерисање висококвалитетних видео записа уз константне рачунарске трошкове и истовремено проширивање укупног капацитета модела.

Филмска естетика и кинематографска контрола

Издвојена карактеристика Wan2.2 је његов систем кинематографске естетске контроле, који омогућава корисницима да врше прецизну контролу над различитим визуелним димензијама. Модел је трениран на пажљиво одабраним естетским подацима, укључујући детаљне ознаке за осветљење, композицију, контраст, нијансу, угао камере, величину слике, жижну даљину и друге кинематографске параметре.

Ова функционалност је заснована на кинематографски инспирисаном систему подстицаја који категоризује кључне димензије као што су осветљење, илуминација, композиција и боја. Ово омогућава Wan2.2 да прецизно интерпретира и имплементира естетске намере корисника током процеса генерисања, омогућавајући креирање видео записа са прилагодљивим кинематографским преференцијама.

Напредни подаци за обуку и генерисање сложених покрета

У поређењу са својим претходником, Wan2.1, скуп података за обуку је значајно проширен: 65,6 процената више података о сликама и 83,2 процента више података о видео записима. Ово масовно проширење података значајно побољшава могућности генерализације модела и повећава креативну разноликост у више димензија као што су кретање, семантика и естетика.

Модел показује значајна побољшања у генерисању сложених покрета, укључујући реалистичне изразе лица, динамичне гестове руку и сложене атлетске покрете. Поред тога, пружа реалистичне приказе са побољшаном послушношћу командама и поштовањем физичких закона, што резултира природнијим и убедљивијим видео секвенцама.

Ефикасно коришћење и приступачност хардвера

Wan2.2 нуди три различите варијанте модела које покривају различите захтеве и хардверске конфигурације:

  • Wan2.2-T2V-A14B: Модел за претварање текста у видео са 27 милијарди параметара (14 милијарди активних) који генерише видео записе у резолуцији 720p и 16fps.
  • Wan2.2-I2V-A14B: Модел претварања слике у видео са истом архитектуром за претварање статичних слика у видео записе.
  • Wan2.2-TI2V-5B: Компактни модел са 5 милијарди параметара који комбинује функције претварања текста у видео и слике у видео у јединственом оквиру.

Компактни модел TI2V-5B представља значајан пробој, јер може да генерише 5-секундне 720p видео записе за мање од 9 минута на једној потрошачкој графичкој картици као што је RTX 4090. Ова брзина га чини једним од најбржих 720p@24fps модела, омогућавајући и индустријским применама и академским истраживањима да имају користи од ове технологије.

Напредна УАЕ архитектура за оптимизовану компресију

Модел TI2V-5B је базиран на високо ефикасној 3D VAE архитектури са степеном компресије од 4×16×16, повећавајући укупну стопу компресије информација на 64. Са додатним слојем закрпавања, укупни степен компресије TI2V-5B достиже чак 4×32×32, обезбеђујући висококвалитетну реконструкцију видеа са минималним захтевима за складиштење.

Ова напредна технологија компресије омогућава моделу да изворно подржи задатке претварања текста у видео и слике у видео у једном, обједињеном оквиру, покривајући и академска истраживања и практичне примене.

Референтни учинак и тржишна позиција

Wan2.2 је тестиран у односу на водеће комерцијалне моделе за генерисање видеа помоћу вештачке интелигенције, укључујући Sora, KLING 2.0 и Hailuo 02, користећи нови Wan-Bench 2.0 пакет за евалуацију. Резултати показују да Wan2.2 постиже најсавременије перформансе у већини категорија и надмашује своје конкуренте високог нивоа.

У директним поређењима рангирања, Wan2.2-T2V-A14B је обезбедио прво место у четири од шест кључних димензија бенчмарка, укључујући критична подручја естетског квалитета и динамике покрета. Ово достигнуће успоставља Wan2.2 као новог лидера на тржишту отвореног кода у генерисању видеа високе резолуције.

Доступност и интеграција отвореног кода

Wan2.2 је доступан као потпуно софтвер отвореног кода под Apache 2.0 лиценцом и може се преузети са Hugging Face, GitHub и ModelScope. Модели су већ интегрисани у популарне фрејмворке као што су ComfyUI и Diffusers, што омогућава беспрекорну употребу у постојећим радним процесима.

Модел TI2V-5B има спреман за употребу Hugging Face Space, омогућавајући корисницима да одмах испробају технологију без сложених инсталација. Ова приступачност демократизује приступ најсавременијој технологији за генерисање видеа и подстиче иновације у заједници програмера.

Кинеска стратешка офанзива вештачке интелигенције

Објављивање Wan2.2 је део шире кинеске стратегије отвореног кода за вештачку интелигенцију која је већ привукла међународну пажњу моделима попут DeepSeek-а. Ова стратегија је у складу са званичним планом дигитализације Кине, који промовише сарадњу отвореног кода као национални ресурс од 2018. године и предвиђа огромна владина улагања у инфраструктуру вештачке интелигенције.

Алибаба је већ забележила преко 5,4 милиона преузимања својих WAN модела на Hugging Face и ModelScope, што истиче снажну међународну потражњу за кинеским решењима отвореног кода за вештачку интелигенцију. Компанија планира даља улагања од приближно 52 милијарде долара у рачунарство у облаку и инфраструктуру вештачке интелигенције како би учврстила своју позицију на овом брзо растућем тржишту.

У вези са овим:

Wan2.2 доноси пробој у AI видео записима: Отворени код на професионалном нивоу

Wan2.2 представља прекретницу у генерисању вештачке интелигенције видеа, нудећи прву алтернативу отвореног кода плаћеним, власничким моделима која може да се такмичи са комерцијалним решењима. Комбинација кинематографског квалитета, ефикасног коришћења хардвера и потпуне доступности отвореног кода позиционира модел као атрактивну алтернативу за креаторе садржаја, филмске ствараоце и програмере широм света.

Ово објављивање ће вероватно појачати конкуренцију у области генерисања видеа помоћу вештачке интелигенције и могло би подстаћи друге компаније да следе сличне стратегије отвореног кода. Са својом способношћу да ради на потрошачком хардверу и да пружи професионалне резултате, Wan2.2 има потенцијал да демократизује видео продукцију и откључа нове креативне могућности.

Комбиновањем напредне технологије са филозофијом отвореног развоја, Alibaba поставља нове стандарде у генерисању вештачке интелигенције (AI) видеа са Wan2.2 и успоставља Кину као водећу силу у глобалним AI иновацијама. Далекосежни утицај овог развоја ће фундаментално променити начин на који се видео снимци креирају и производе у наредним годинама.

У вези са овим:

 

Ваш стручњак за трансформацију вештачке интелигенције, интеграцију вештачке интелигенције и индустрију платформи за вештачку интелигенцију

☑️ Наш пословни језик је енглески или немачки

☑️ НОВО: Преписка на вашем матерњем језику!

 

Konrad Wolfenstein

Ја и мој тим смо срећни што вам можемо бити на располагању као ваш лични саветник.

Можете ме контактирати попуњавањем контакт форме овде wolfenstein@xpert.digital:или ме једноставно позовите на +49 7348 4088 965. Моја имејл адреса је

Радујем се нашем заједничком пројекту.

 

 

☑️ Подршка малим и средњим предузећима у стратегији, консултацијама, планирању и имплементацији

☑️ Креирање или преусмеравање стратегије вештачке интелигенције

☑️ Пионирски развој пословања

Напустите мобилну верзију