推奨パラメータ

resolution

1280x720, 854x480

vae

Wan2.2-VAE

バージョンのハイライト

wan2.2_t2v_high_noise_14B_fp8_scaled

クリエイタースポンサー

Wan Video

注意: Civitaiには他のWan Videoファイルもホストされています - これらは重複している可能性がありますが、このモデルカードは主にCivitaiジェネレーターでWan Videoが使用するファイルをホストするためのものです。

これらのファイルはComfyUIリパックであり、元のファイルはDiffusersのマルチパートsafetensors形式はこちらで見つけられます。

Wan2.2は、当社のビジュアル生成モデルの主要なアップグレードであり、現在オープンソース化されており、より強力な機能、優れたパフォーマンス、そして卓越した視覚品質を提供します。Wan2.2では以下の技術革新を取り入れることに重点を置いています:

👍 MoEアーキテクチャ: Wan2.2はビデオ拡散モデルにMixture-of-Experts(MoE)アーキテクチャを導入しました。タイムステップ間で拡散除去処理を専門的かつ強力なエキスパートモデルで分離することで、同じ計算コストのまま全体のモデル容量を拡大しています。

💪🏻 データスケーリング: Wan2.1と比較して、Wan2.2ははるかに大規模なデータで訓練されており、画像は+65.6%、ビデオは+83.2%増加しています。この拡大により、動き、意味論、美学など複数の次元でモデルの汎用性が大幅に向上し、すべてのオープンおよびクローズドソースモデルの中でトップの性能を達成しています。

🎬 映画的美学: Wan2.2は、照明、構図、色彩に関する詳細なラベル付けがされた特別に厳選された美学データを組み込んでいます。これにより、より精密で制御可能な映画スタイルの生成が可能となり、カスタマイズ可能な美学の好みに合わせたビデオ制作が容易になります。

🚀 高効率ハイビジョンハイブリッドTI2V: Wan2.2は、高度なWan2.2-VAEを使用した5Bモデルをオープンソース化しました。このモデルは16×16×4の圧縮率を達成し、720P、24fpsのテキストからビデオ及び画像からビデオの生成をサポートし、4090のような一般消費者向けGPUでも動作可能です。現在利用可能な中でも最速の720P@24fpsモデルの一つであり、産業および学術分野の両方のニーズに応えられます。

Wan2.2-T2V-A14B

T2V-A14Bモデルは、480Pと720Pの両解像度で5秒のビデオ生成をサポートしています。Mixture-of-Experts(MoE)アーキテクチャを採用し、優れたビデオ生成品質を提供します。新ベンチマークWan-Bench 2.0において、多くの主要評価指標で商用モデルを上回りました。

Wan2.2-I2V-A14B

I2V-A14Bモデルは画像からビデオへの生成用に設計されており、480Pと720Pの両解像度をサポートしています。Mixture-of-Experts(MoE)アーキテクチャにより、不自然なカメラ動作が減少した安定したビデオ合成を実現し、多様なスタイル化されたシーンのサポートも強化されています。

Wan2.2-TI2V-5B

TI2V-5Bモデルは先進的なWan2.2-VAEを用いて構築されており、16×16×4の圧縮率を達成しています。このモデルは720P、24fpsでのテキストからビデオおよび画像からビデオ生成をサポートし、4090のような単一の一般消費者向けGPUで動作可能です。最速の720P@24fpsモデルの一つであり、産業用途と学術研究の両方に適しています。

GitHub: https://github.com/Wan-Video/Wan2.2

元のHuggingFaceリポジトリ: https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/tree/main/split_files/diffusion_models

前の画像
Plagion - v1.0
次の画像
フォトリアリスティックなストリート写真 - J^p^N - 日本

モデル詳細

モデルタイプ

Checkpoint

ベースモデル

Wan Video 2.2 T2V-A14B

モデルバージョン

t2v_high_noise_14B

モデルハッシュ

cad711ae21

作成者

ディスカッション

コメントを残すには log in してください。