公開:2025年7月30日 /更新:2025年7月30日 – 著者: Konrad Wolfenstein
これは、アリババの新しいwunder-ki wan2.2:無料で、競争よりも強力で、誰でも利用可能です
Sora von Openaaiに対する中国のビデオ応答:この新しいAIは、映画品質のビデオを生成し – 無料でもあります
中国のテクノロジー企業Alibabaは、2025年7月29日にWAN2.2を使用して、オープンソースビデオモデルの興味深い新しいバージョンを公開し、したがって、ビデオ生産のために人工知能の風景を根本的に変えました。この革新的なテクノロジーは、世界初のオープンソースビデオビデオモデルを表しています。これは、専門家(MOE)アーキテクチャを実装し、プロの映画制作の両方と市販のハードウェアで使用するために設計されています。
に適し:
Moe Architectureによる技術革命
WAN2.2は初めて、ビデオ祈りのモデルにエクスペルの混合アーキテクチャを導入します。これは、重要な技術的ブレークスルーです。この革新的なアーキテクチャは、ビデオ発生プロセスを2つの特殊なフェーズに分割するデュアルエキスパートシステムで機能します。最初の専門家はノイズ抑制の初期段階に焦点を当て、シーンの基本的なレイアウトを決定しますが、2番目の専門家は後の段階を引き継ぎ、詳細とテクスチャを改良します。
このシステムには合計270億のパラメーターがありますが、推論ステップごとに140億パラメーターしかアクティブになりません。これにより、品質に影響を与えることなく、コンピューティングの取り組みが最大50%減少します。この効率の向上により、高品質のビデオが生成できますが、コンピューティングコストは一定のままであり、モデル全体の容量が拡大します。
フィルムの美学と映画の制御
WAN2.2の優れた機能は、映画の美的制御システムであり、ユーザーがさまざまな視覚的寸法を正確に制御できるようにします。このモデルは、照明、構成、コントラスト、色、カメラのホブ、画像サイズ、焦点距離、その他の映画のパラメーターの詳細なラベルを含む慎重にキュレーションされた美的データで訓練されました。
この機能は、照明、照明、組成、着色などの重要な次元を分類する映画的にインスピレーションを受けたプロンプトシステムに基づいています。その結果、WAN2.2は、生成プロセス中にユーザーの美的意図を正確に解釈および実装できます。これにより、カスタマイズ可能な映画の好みを持つビデオの作成が可能になります。
拡張トレーニングデータと複雑な移動生成
前身のWAN2.1と比較して、トレーニングデータセットは大幅に拡張されました。画像データは65.6%、83.2%のビデオデータが増えました。この大規模なデータの拡大により、モデルの一般化スキルが大幅に向上し、動き、セマンティクス、美学などのいくつかの次元で創造的な多様性が向上します。
このモデルは、活気のある表情、動的な手のジェスチャー、複雑なスポーツ運動など、複雑な動きの生産の大幅な改善を示しています。さらに、コマンドコンプライアンスの改善と物理的法則へのコンプライアンスを備えた現実的な表現を提供し、より自然で説得力のあるビデオシーケンスにつながります。
効率的なハードウェアの使用とアクセシビリティ
WAN2.2は、異なる要件とハードウェア構成をカバーする3つの異なるモデルバリアントを提供します。
- WAN2.2.2-T2V-A14B:720p解像度と16FPSのビデオを生成する270億パラメーター(140億のアクティブ)を持つテキストからビデオへのモデル。
- WAN2.2-I2V-A14B:静的画像をビデオに変換するための同じアーキテクチャを備えたビデオ間モデル。
- WAN2.2-TI2V-5B:均一なフレームワークでテキスト間および画像間機能の両方を組み合わせた50億個のパラメーターモデル。
コンパクトTI2V-5Bモデルは、RTX 4090のような単一の消費者GPUで9分以内に5秒720pビデオを生成できるため、特別なブレークスルーです。
最適化された圧縮のための高度なVAEアーキテクチャ
TI2V 5Bモデルは、圧縮比が4×16×16の圧縮率を持つ非常に効率的な3D VAEアーキテクチャに基づいており、総情報圧縮率を64に増加させます。追加のパッチ化層では、TI2V-5Bの総圧縮比が4×32×32に達します。
この高度な圧縮テクノロジーにより、モデルは、学術研究と実用的なアプリケーションの両方をカバーする単一の均一なフレームワークで、テキスト間およびビデオ間タスクの両方をサポートできます。
ベンチマークのパフォーマンスと市場の位置
WAN2.2は、Sora、Kling 2.0、Hailuo 02を含む新しいWAN-Bench 2.0評価スイートの助けを借りて、主要な商用AIビデオモデルに対してテストされました。その結果は、WAN2.2がカテゴリの大部分で最先端のパフォーマンスを達成し、高レベルの競合他社を超えていることを示しています。
直接ランキングの比較では、WAN2.2.2-T2V-A14Bは、美的品質とモーションダイナミクスを含む6つの中央ベンチマークディメンションのうち4つで1位を獲得しました。このパフォーマンスは、高解像度のビデオ発生における新しいオープンソース市場リーダーとしてWAN2.2を確立します。
オープンソースの可用性と統合
WAN2.2は、Apache 2.0ライセンスの下で完全にオープンソースソフトウェアとして利用でき、Hugging Face、Github、Modelscopeからダウンロードできます。このモデルは、ComfyuiやDiffusersなどの一般的なフレームワークに既に統合されており、既存のワークフローでシームレスな使用を可能にします。
Face Spaceを抱きしめると、TI2V 5Bモデルに直接使用できます。つまり、ユーザーは複雑なインストールを実行することなく、すぐにテクノロジーを試すことができます。このアクセシビリティは、州-ARTのビデオ発電技術へのアクセスを民主化し、開発者コミュニティ全体のイノベーションを促進します。
中国の戦略的AI攻撃
WAN2.2の出版は、Deepseekのようなモデルですでに国際的な注目を集めている中国のオープンソースAI戦略の一部です。この戦略は、2018年以来、オープンソースのコラボレーションを国家リソースとして促進しており、AIインフラストラクチャへの大規模な州投資を提供している中国の公式デジタル化計画に従っています。
Alibabaは、中国のオープンソースAIソリューションに対する強力な国際的な需要を強調しているFaceとModelscopeを抱きしめるWANモデルの540万件以上のダウンロードをすでに記録しています。同社は、この急速に成長している市場での地位を統合するために、クラウドコンピューティングとAIインフラストラクチャの約520億ドルのさらなる投資を計画しています。
に適し:
WAN2.2はAIビデオでブレークスルーを提供します:プロフェッショナルレベルのオープンソース
WAN2.2は、AIビデオジェネーションのターニングポイントを表しています。これは、商用ソリューションと競合できる最初のオープンソースの代替品である独自のモデルを提供するためです。映画の品質、効率的なハードウェアの使用、完全なオープンソースの可用性の組み合わせは、世界中のコンテンツメーカー、映画製作者、開発者にとって魅力的な代替品としてモデルを位置付けています。
この出版物は、AIビデオジェネーション化の分野での競争を強化する可能性が高く、他の企業が同様のオープンソース戦略を追求する可能性があります。消費者ハードウェアを実行し、専門的な結果を提供する能力により、WAN2.2はビデオ制作を民主化し、新しい創造的な機会を開く可能性があります。
高度な技術とオープンな発達哲学の組み合わせを通じて、Alibaba with WAN2.2はAI Video -Jogenizationに新しい基準を設定し、グローバルなAIイノベーションの主要な力として中国を確立します。この開発のはるかに届く効果は、今後数年間でビデオの作成と作成の方法を変えます。
に適し:
AIの変革、AI統合、AIプラットフォーム業界の専門家
☑️ 私たちのビジネス言語は英語またはドイツ語です
☑️ NEW: 母国語での通信!
喜んで個人アドバイザーとしてあなたと私のチームにお役に立ちたいと思っています。
お問い合わせフォームにご記入 +49 89 89 674 804 (ミュンヘン)までお電話ください。私のメールアドレスは: wolfenstein ∂ xpert.digital
私たちの共同プロジェクトを楽しみにしています。