중국의 대규모 AI 비디오 공세 🤖🚀 알리바바는 Wan 2.2를 통해 서방을 추월하고 모든 것을 오픈 소스로 공개하려 합니다. 🌏🔓

게시일: 2025년 7월 30일 / 업데이트일: 2025년 7월 30일 – 저자: Konrad Wolfenstein

중국의 대대적인 AI 공세: 알리바바는 Wan 2.2를 통해 서방을 제치고 AI 기술을 선도하려 하며, 모든 기술을 오픈소스로 공개하고 있다 – 이미지: Xpert.Digital

알리바바의 새로운 AI 혁신, 완2.2가 바로 그것입니다. 무료이며, 경쟁사보다 강력하고, 누구나 이용할 수 있습니다

중국이 오픈AI의 소라에 대한 영상 답변으로 내놓은 새로운 AI: 이 새로운 AI는 영화 수준의 영상을 제작하며, 무료입니다

2025년 7월 29일, 중국 기술 기업 알리바바는 오픈 소스 비디오 생성 모델의 혁신적인 새 버전인 Wan2.2를 출시하여 비디오 제작을 위한 인공지능 분야의 판도를 근본적으로 바꾸어 놓았습니다. 이 혁신적인 기술은 전문가 혼합(Mixture-of-Experts, MoE) 아키텍처를 구현한 세계 최초의 오픈 소스 비디오 생성 모델로, 전문 영화 제작은 물론 일반 하드웨어에서도 사용할 수 있도록 설계되었습니다.

적합:

ALIBABA는 AI에 500 억 달러 이상을 투자하고 클라우드 컴퓨팅 대상 일반 정보 (AGI)는 중심적인 역할을합니다.

MoE 아키텍처를 통한 기술 혁명

Wan2.2는 비디오 확산 모델에 최초로 전문가 혼합 아키텍처를 도입하여 중요한 기술적 혁신을 이루었습니다. 이 혁신적인 아키텍처는 비디오 생성 과정을 두 단계로 나누는 이중 전문가 시스템을 활용합니다. 첫 번째 전문가는 초기 단계의 노이즈 감소와 기본 장면 구성을 담당하고, 두 번째 전문가는 후기 단계에서 세부 묘사와 질감을 다듬습니다.

이 시스템은 총 270억 개의 파라미터를 가지고 있지만, 추론 단계당 140억 개의 파라미터만 활성화하여 품질 저하 없이 계산량을 최대 50%까지 줄입니다. 이러한 효율성 향상 덕분에 계산 비용을 일정하게 유지하면서 고품질 비디오를 생성하는 동시에 모델의 전체 용량을 확장할 수 있습니다.

영화 미학과 영화적 통제

Wan2.2의 두드러진 특징은 사용자가 다양한 시각적 요소를 정밀하게 제어할 수 있는 영화적 미학 제어 시스템입니다. 이 모델은 조명, 구도, 대비, 색조, 카메라 각도, 이미지 크기, 초점 거리 및 기타 영화적 매개변수에 대한 상세한 레이블을 포함하여 신중하게 선별된 미학 데이터를 기반으로 학습되었습니다.

이 기능은 조명, 채도, 구도, 색상과 같은 핵심 요소를 분류하는 영화적 영감을 받은 프롬프트 시스템을 기반으로 합니다. 이를 통해 Wan2.2는 영상 제작 과정에서 사용자의 미적 의도를 정확하게 해석하고 구현하여, 사용자가 원하는 영화적 분위기를 맞춤 설정할 수 있는 영상을 제작할 수 있도록 합니다.

고급 훈련 데이터 및 복잡한 동작 생성

이전 버전인 Wan2.1과 비교하여 학습 데이터 세트가 크게 확장되었습니다. 이미지 데이터는 65.6%, 비디오 데이터는 83.2% 증가했습니다. 이러한 대규모 데이터 확장은 모델의 일반화 능력을 크게 향상시키고 움직임, 의미, 미적 요소 등 다양한 측면에서 창의적인 다양성을 증대시킵니다.

이 모델은 실감나는 얼굴 표정, 역동적인 손동작, 정교한 운동 동작 등 복잡한 움직임을 생성하는 데 있어 상당한 개선을 보여줍니다. 또한, 향상된 명령 준수 및 물리 법칙 준수를 통해 사실적인 렌더링을 제공하여 더욱 자연스럽고 설득력 있는 비디오 시퀀스를 구현합니다.

효율적인 하드웨어 활용 및 접근성

WAN 2.2는 다양한 요구 사항과 하드웨어 구성을 충족하는 세 가지 모델 변형을 제공합니다

Wan2.2-T2V-A14B: 270억 개의 파라미터(활성 파라미터 140억 개)를 가진 텍스트-비디오 변환 모델로, 720p 해상도와 초당 16프레임의 비디오를 생성합니다.
Wan2.2-I2V-A14B: 정지 이미지를 비디오로 변환하는 데 사용되는 동일한 아키텍처를 가진 이미지-비디오 변환 모델입니다.
Wan2.2-TI2V-5B: 텍스트를 비디오로 변환하는 기능과 이미지를 비디오로 변환하는 기능을 통합 프레임워크에 결합한 50억 개 파라미터의 소형 모델입니다.

소형 TI2V-5B 모델은 RTX 4090과 같은 소비자용 GPU 하나로 9분 이내에 5초 분량의 720p 영상을 생성할 수 있어 획기적인 발전을 이루었습니다. 이러한 속도는 현재 시판되는 720p@24fps 모델 중 가장 빠른 속도를 자랑하며, 산업 현장과 학술 연구 분야 모두에서 이 기술의 이점을 누릴 수 있게 해줍니다.

최적화된 압축을 위한 고급 UAE 아키텍처

TI2V-5B 모델은 4×16×16의 압축률을 갖는 고효율 3D VAE 아키텍처를 기반으로 하며, 전체 정보 압축률을 64까지 향상시킵니다. 추가 패칭 레이어를 적용하면 TI2V-5B의 전체 압축률은 4×32×32까지 도달하여 최소한의 저장 공간으로 고품질 비디오 복원을 보장합니다.

이 고급 압축 기술 덕분에 해당 모델은 학술 연구와 실제 응용 분야 모두를 아우르는 단일 통합 프레임워크에서 텍스트를 비디오로 변환하는 작업과 이미지를 비디오로 변환하는 작업을 기본적으로 지원할 수 있습니다.

벤치마크 성과 및 시장 지위

Wan2.2는 새로운 Wan-Bench 2.0 평가 도구를 사용하여 Sora, KLING 2.0, Hailuo 02 등 주요 상용 AI 비디오 생성 모델과 비교 테스트를 거쳤습니다. 테스트 결과, Wan2.2는 대부분의 항목에서 최첨단 성능을 달성하며 상위 경쟁 모델들을 능가하는 것으로 나타났습니다.

직접적인 순위 비교에서 Wan2.2-T2V-A14B는 미적 품질과 모션 다이내믹스를 포함한 6가지 핵심 벤치마크 항목 중 4개에서 1위를 차지했습니다. 이러한 성과는 Wan2.2를 고해상도 비디오 생성 분야의 새로운 오픈 소스 시장 선두 주자로 자리매김하게 했습니다.

오픈소스의 가용성 및 통합

Wan2.2는 Apache 2.0 라이선스 하에 완전한 오픈 소스 소프트웨어로 제공되며 Hugging Face, GitHub 및 ModelScope에서 다운로드할 수 있습니다. 이 모델들은 이미 ComfyUI 및 Diffusers와 같은 인기 프레임워크에 통합되어 있어 기존 워크플로에서 원활하게 사용할 수 있습니다.

TI2V-5B 모델은 바로 사용 가능한 허깅 페이스 스페이스(Hugging Face Space)를 제공하여 복잡한 설치 과정 없이 사용자가 즉시 기술을 체험해 볼 수 있도록 합니다. 이러한 접근성은 최첨단 비디오 생성 기술에 대한 접근성을 민주화하고 개발자 커뮤니티 전반에 걸쳐 혁신을 촉진합니다.

중국의 전략적 AI 공세

Wan2.2의 출시는 DeepSeek과 같은 모델로 이미 국제적인 주목을 받은 중국의 광범위한 오픈소스 AI 전략의 일환입니다. 이 전략은 2018년부터 오픈소스 협업을 국가 자원으로 장려하고 AI 인프라에 대한 대규모 정부 투자를 구상하는 중국의 공식 디지털화 계획과 맥을 같이합니다.

알리바바는 허깅페이스와 모델스코프에서 자사의 WAN 모델이 이미 540만 건 이상의 다운로드를 기록하며, 중국산 오픈소스 AI 솔루션에 대한 강력한 국제적 수요를 입증했습니다. 알리바바는 이 급성장하는 시장에서의 입지를 강화하기 위해 클라우드 컴퓨팅 및 AI 인프라에 약 520억 달러를 추가 투자할 계획입니다.

적합:

B2B 조달 : 공급망, 무역, 시장 및 AI 지원 소싱

Wan2.2는 AI 비디오 분야에 획기적인 발전을 가져왔습니다: 전문가 수준의 오픈 소스 솔루션입니다

Wan2.2는 AI 비디오 생성에 있어 획기적인 전환점을 제시하며, 유료 독점 모델을 대체할 수 있는 최초의 오픈 소스 대안으로서 상용 솔루션과 경쟁할 수 있습니다. 영화 같은 화질, 효율적인 하드웨어 활용, 그리고 완전한 오픈 소스 접근성을 갖춘 이 모델은 전 세계 콘텐츠 제작자, 영화 제작자 및 개발자들에게 매력적인 대안으로 자리매김하고 있습니다.

이번 출시로 AI 기반 비디오 제작 분야의 경쟁이 더욱 치열해질 것으로 예상되며, 다른 기업들도 유사한 오픈 소스 전략을 추구하도록 장려할 수 있습니다. 소비자용 하드웨어에서 실행되고 전문가 수준의 결과물을 제공하는 Wan2.2는 비디오 제작을 민주화하고 새로운 창의적 가능성을 열어줄 잠재력을 지니고 있습니다.

알리바바는 첨단 기술과 개방형 개발 철학을 결합하여 완2.2(Wan2.2)를 통해 AI 영상 제작에 새로운 기준을 제시하고, 중국을 글로벌 AI 혁신의 선두 주자로 자리매김하게 하고 있습니다. 이러한 발전은 향후 영상 제작 방식에 근본적인 변화를 가져올 것입니다.

적합:

AI 변환, AI 통합 및 AI 플랫폼 산업 전문가

✔️ 우리의 비즈니스 언어는 영어 또는 독일어입니다.

✔️ 새로운 기능: 자국어로 된 통신!

Konrad Wolfenstein

나는 귀하와 우리 팀에 개인 고문으로 봉사하게 되어 기쁘게 생각합니다.

문의 양식을 작성하여 연락하시거나 +49 89 89 674 804 (뮌헨) 로 전화해 주세요 . 내 이메일 주소는: Wolfenstein ∂ xpert.digital

나는 우리의 공동 프로젝트를 기대하고 있습니다.

중국의 대대적인 비디오 AI 공세: 알리바바는 Wan 2.2를 통해 서구 시장을 제치고 앞서나가려 하며, 모든 기능을 오픈 소스로 공개하고 있다