WAN 2.2와 함께 중국의 큰 비디오 AI 공격 🤖🚀 west the West를 추월하고 모든 것을 오픈 소스

출판 : 2025 년 7 월 30 일 / 업데이트 : 2025 년 7 월 30 일 – 저자 : Konrad Wolfenstein

중국의 큰 AI 공격 : WAN 2.2와 함께 Alibaba는 서쪽 – 추월하고 싶어하고 모든 오픈 소스 – 이미지 : Xpert.Digital

이것은 Alibaba의 새로운 Wunder-Ki Wan2.2 : 무료, 경쟁보다 강력하며 모든 사람이 이용할 수 있습니다.

Sora von Openaai에 대한 중국의 비디오 응답 :이 새로운 AI는 영화 품질로 비디오를 생성하며 무료입니다 –

중국 기술 회사 인 Alibaba는 2025 년 7 월 29 일에 WAN2.2와 함께 오픈 소스 비디오 모델의 흥미로운 새로운 버전을 발표하여 비디오 제작을위한 인공 지능의 환경을 근본적으로 변경했습니다. 이 혁신적인 기술은 MOE (Mix-of-Experts) 아키텍처를 구현 한 세계 최초의 오픈 소스 비디오 비디오 모델을 대표하며 전문 영화 제작 및 상업적으로 이용 가능한 하드웨어에 사용하도록 설계되었습니다.

적합:

ALIBABA는 AI 및 클라우드 컴퓨팅에 500 억 달러 이상을 투자합니다 – 인공 일반 정보 (AGI)는 중심적인 역할을합니다.

MOE 아키텍처를 통한 기술 혁명

WAN2.2는 처음으로 비디오 헌신적 인 모델에서 믹스 엔터 아키텍처를 소개합니다. 이는 중요한 기술 혁신입니다. 이 혁신적인 아키텍처는 비디오 생성 프로세스를 두 개의 특수 단계로 나누는 이중 전문가 시스템과 함께 작동합니다. 첫 번째 전문가는 노이즈 억제의 초기 단계에 중점을두고 장면의 기본 레이아웃을 결정하는 반면, 두 번째 전문가는 이후 단계를 인수하고 세부 사항과 질감을 개선합니다.

이 시스템은 총 270 억 개의 매개 변수를 가지고 있지만 추론 단계 당 140 억 매개 변수 만 활성화하여 품질에 영향을 미치지 않고 컴퓨팅 노력을 최대 50 % 줄입니다. 이러한 효율성이 증가하면 고품질 비디오가 생성 될 수 있으며 컴퓨팅 비용은 일정하게 유지되며 동시에 전체 모델 용량이 확장됩니다.

영화 미학 및 영화 제어

WAN2.2의 뛰어난 특징은 영화 적 미학 제어 시스템으로, 사용자가 다양한 시각적 차원을 정확하게 제어 할 수 있습니다. 이 모델은 조명, 구성, 대비, 색상, 카메라 호브, 이미지 크기, 초점 길이 및 기타 영화 매개 변수를위한 세부적인 레이블을 포함하는 신중하게 선별 된 미적 데이터로 교육을 받았습니다.

이 기능은 조명, 조명, 구성 및 채색과 같은 주요 차원을 분류하는 영화 적으로 영감을 얻은 프롬프트 시스템을 기반으로합니다. 결과적으로 WAN2.2는 Generation 프로세스 중에 사용자의 미학적 의도를 정확하게 해석하고 구현할 수 있으며,이를 통해 사용자 정의 가능한 영화 적 선호도로 비디오를 생성 할 수 있습니다.

확장 된 교육 데이터 및 복잡한 이동 생성

전임자 WAN2.1과 비교할 때 교육 데이터 세트는 65.6 % 더 많은 이미지 데이터와 83.2 % 더 많은 비디오 데이터를 확장했습니다. 이 대규모 데이터 확장은 모델의 일반화 기술을 크게 향상시키고 운동, 의미론 및 미학과 같은 여러 차원에서 창의적 다양성을 증가시킵니다.

이 모델은 활기찬 얼굴 표정, 역동적 인 손 제스처 및 복잡한 스포츠 운동을 포함하여 복잡한 움직임의 생산이 크게 향상되었습니다. 또한 명령 준수가 향상되고 물리 법칙 준수를 통해 현실적인 표현을 제공하여보다 자연스럽고 설득력있는 비디오 시퀀스로 이어집니다.

효율적인 하드웨어 사용 및 접근성

WAN2.2는 다양한 요구 사항과 하드웨어 구성을 포괄하는 세 가지 모델 변형을 제공합니다.

WAN2.2-T2V-A14B : 720p 해상도와 16fps의 비디오를 생성하는 270 억 매개 변수 (140 억 개의 활성)의 텍스트-비디오 모델.
WAN2.2-I2V-A14B : 정적 이미지를 비디오로 변환하기위한 아키텍처와 동일한 아키텍처를 가진 그림 대 비디오 모델.
WAN2.2-TI2V-5B : 텍스트-비디오와 이미지-비디오 기능을 모두 균일 한 프레임 워크에서 결합하는 소형 50 억 매개 변수 모델.

Compact TI2V-5B 모델은 RTX 4090과 같은 단일 소비자 GPU에서 9 분 안에 5 초 안에 5 초 720p 비디오를 생성 할 수 있기 때문에 특별한 획기적인 혁신입니다.이 속도는 24fps@24FPS 모델을 사용하여 가장 빠른 720p@24FPS 모델 중 하나이며 기술의 혜택을 제공합니다.

최적화 된 압축을위한 고급 VAE 아키텍처

TI2V 5B 모델은 4 × 16 × 16의 압축 비율을 갖는 고효율 3D VAE 아키텍처를 기반으로하며, 총 정보 압축 속도를 64로 증가시킵니다. 추가 패치 레이어를 사용하면 TI2V-5B의 총 압축 비율이 4 × 32 × 32에 도달하여 최소 수량의 메모리 요구 사항에 도달합니다.

이 고급 압축 기술을 통해 모델은 학술 연구와 실제 응용 프로그램을 모두 다루는 단일 균일 한 프레임 워크에서 텍스트 간 비디오 및 이미지 간 비디오 작업을 모두 지원할 수 있습니다.

벤치 마크 성능 및 시장 위치

WAN2.2는 Sora, Kling 2.0 및 Hailuo 02를 포함한 새로운 WAN-Bench 2.0 평가 제품군의 도움으로 주요 상업용 AI 비디오 비디오 모델에 대해 테스트되었습니다. 결과는 WAN2.2가 대부분의 범주에서 최첨단 성능을 달성하고 고수정 경쟁 업체를 초과 함을 보여줍니다.

직접 순위 비교에서 WAN2.2-T2V-A14B는 미적 품질 및 모션 역학을 포함하여 6 개의 중앙 벤치 마크 차원 중 4 개에서 1 위를 차지했습니다. 이 성능은 WAN2.2를 고해상도화물 생성의 새로운 오픈 소스 시장 리더로 설정합니다.

오픈 소스 가용성 및 통합

WAN2.2는 Apache 2.0 라이센스에 따라 완전히 오픈 소스 소프트웨어로 제공되며 Hugging Face, Github 및 Modelscope를 통해 다운로드 할 수 있습니다. 이 모델은 이미 Comfyui 및 Diffusers와 같은 인기있는 프레임 워크에 이미 통합되어 기존 워크 플로우에 원활하게 사용할 수 있습니다.

Hugging Face Space는 TI2V 5B 모델에 직접 사용할 수 있습니다. 즉, 사용자는 복잡한 설치를 수행하지 않고도 즉시 기술을 시험해 볼 수 있습니다. 이 접근성은 -At -At -Art Viceognization 기술에 대한 접근성을 민주화하고 전체 개발자 커뮤니티의 혁신을 촉진합니다.

중국의 전략적 AI 공격

WAN2.2의 출판은 DeepSeek와 같은 모델로 이미 국제적인 관심을 끌고있는 더 넓은 중국 오픈 소스 AI 전략의 일부입니다. 이 전략은 2018 년부터 국가 자원으로 오픈 소스 협업을 홍보하고 AI 인프라에 대한 대규모 주 투자를 제공하는 공식 중국 디지털화 계획을 따릅니다.

Alibaba는 이미 중국 오픈 소스 AI 솔루션에 대한 강력한 국제 수요를 강조하는 Hugging Face and Modelscope에 대한 WAN 모델의 540 만 개 이상의 다운로드를 이미 녹음했습니다. 이 회사는이 빠르게 성장하는 시장에서 위치를 통합하기 위해 클라우드 컴퓨팅 및 AI 인프라에서 약 520 억 달러의 추가 투자를 계획하고 있습니다.

적합:

B2B 조달 : 공급망, 무역, 시장 및 AI 지원 소싱

WAN2.2

WAN2.2는 상용 솔루션과 경쟁 할 수있는 최초의 오픈 소스 대안을 지불 할 최초의 오픈 소스 대안을 제공하기 때문에 AI 비디오 발생의 전환점을 나타냅니다. 영화 적 품질, 효율적인 하드웨어 사용 및 완전한 오픈 소스 가용성의 조합은이 모델을 전 세계 콘텐츠 제조업체, 영화 제작자 및 개발자에게 매력적인 대안으로 위치시킵니다.

이 간행물은 AI 화폐화 분야의 경쟁을 강화하고 다른 회사들이 유사한 오픈 소스 전략을 추구 할 수 있습니다. WAN2.2는 소비자 하드웨어를 실행하고 전문적인 결과를 제공 할 수있는 능력으로 비디오 제작을 민주화하고 새로운 창의적인 기회를 열 가능성이 있습니다.

Alibaba는 Alibaba와 함께 고급 기술과 개방형 개발 철학의 조합을 통해 AI 비디오 생성의 새로운 표준을 설정하고 세계 AI 혁신의 주요 힘으로 중국을 설립합니다. 이 개발의 먼 영향은 향후 몇 년 동안 비디오가 만들어지고 제작되는 방식이 바뀔 것입니다.

적합:

AI 변환, AI 통합 및 AI 플랫폼 산업 전문가

✔️ 우리의 비즈니스 언어는 영어 또는 독일어입니다.

✔️ 새로운 기능: 자국어로 된 통신!

콘라드 울펜슈타인

나는 귀하와 우리 팀에 개인 고문으로 봉사하게 되어 기쁘게 생각합니다.

문의 양식을 작성하여 연락하시거나 +49 89 89 674 804 (뮌헨) 로 전화해 주세요 . 내 이메일 주소는: Wolfenstein ∂ xpert.digital

나는 우리의 공동 프로젝트를 기대하고 있습니다.

중국의 큰 비디오 KI 공격 : WAN 2.2 ALIBABA와 함께 – 을 추월하고 싶어합니다.