暖かい吊り下げ天井照明の下、居心地の良いカフェのブース席に座る男性に白く洗練されたロボットがコーヒーを提供している様子を、自然なスマートフォン撮影で捉えた画像。
緑色の壁紙とカーペットの床がある寮の部屋で、デスクランプに照らされながら90年代のビンテージPCでコードを入力する大学生の懐かしい1990年代の写真。
全身黒いマントを着た謎の人物が、蒸気の漏れるパイプや電線が見える高層ビルに囲まれた薄暗い裏路地に立ち、サイバーパンクでやや不気味な雰囲気を醸し出している。
雨の降る昼間にヤシの木が道路沿いに並ぶ濡れた熱帯高速道路を走る車内からの眺め。
雨と風が強い日に郊外住宅街を走る車の内部からの眺め。アメリカ風の家々が通りに沿って並んでいる。
白いピンストライプのスーツとサングラスを着用し、近くにヤシの木、背景にモダンなマイアミの高層ビルがあり、低いカメラアングルから撮影された男性。
アフロヘアとサングラスを着用し、ピンクスーツをまとったアフリカ系アメリカ人男性がマイアミの夜の通りに立っており、背景にはヤシの木とネオンに照らされた高層ビルが低いアングルで見えます。
デニムショーツとクロップトップを着た若い女性たちのグループが、マイアミのヤシの木の近くで夜を楽しんでいる様子。ネオンライトとモダンな高層ビルに照らされている

推奨パラメータ

resolution

1280x720, 854x480

vae

Wan2.2-VAE - advanced

ヒント

Wan2.2はMixture-of-Experts(MoE)アーキテクチャを取り入れ、タイムステップごとのノイズ除去を分離し、計算負荷を増やさずに容量を向上させています。

トレーニングデータは画像+65.6%、動画+83.2%に拡張され、動き、セマンティクス、美学における汎化性能が向上しました。

細かいラベル付きの特別にキュレーションされた美学データにより、精密で制御可能なシネマティックスタイルの生成が可能です。

Wan2.2-VAEは16×16×4の圧縮率を達成し、Nvidia 4090などの消費者向けGPUで720P@24fpsの効率的な動画生成をサポートします。

バージョンのハイライト

Wan 2.2 5B のオンサイト生成用

Wan Video

注意: Civitaiに他のWan Videoファイルもホストされていますが、これらは重複の可能性があります。本モデルカードは主にCivitai Generatorで使用されるWan Videoのファイルをホストするためのものです。

これらのファイルはComfyUI再パッケージ版であり、元のファイルはDiffusersのマルチパートsafetensors形式でこちらにあります。

Wan2.2はビジュアル生成モデルの大幅なアップグレードで、オープンソース化され、より強力な機能、優れた性能、そして高品質なビジュアルを提供します。Wan2.2では以下の技術革新に重点を置いています:

👍 MoEアーキテクチャ: Wan2.2は、Mixture-of-Experts(MoE)アーキテクチャを動画ディフュージョンモデルに導入しました。異なるタイムステップにおけるノイズ除去処理を専門化された強力なエキスパートモデルに分割することで、計算コストを維持しつつ全体のモデル容量を拡大します。

💪🏻 データ拡張: Wan2.1と比較して、Wan2.2は画像+65.6%、動画+83.2%の大幅に拡張されたデータで訓練されています。この拡張により、動き、セマンティクス、美学など複数の次元でのモデルの汎化性能が著しく向上し、オープンソースおよびクローズドソースモデルの中で最高水準の性能を実現しています。

🎬 シネマティックな美学: Wan2.2は、照明、構図、色彩の細かいラベル付き特別キュレーションされた美学データを組み込んでいます。これにより、より精密で制御可能なシネマティックスタイルの生成が可能となり、カスタマイズ可能な美学の好みに応じた動画作成を促進します。

🚀 効率的な高解像度ハイブリッドTI2V: Wan2.2は、圧縮率16×16×4を達成した進化したWan2.2-VAEで構築された5Bモデルをオープンソース化しています。このモデルは720P・24fpsのテキストから動画および画像から動画の生成に対応し、4090などの一般消費者向けGPUでも動作可能です。これは現行でも最速クラスの720P@24fpsモデルの一つで、産業界と学術界のニーズを同時に満たします。

Wan2.2-T2V-A14B

T2V-A14Bモデルは、480Pおよび720P解像度で5秒の動画生成をサポートします。Mixture-of-Experts(MoE)アーキテクチャで構築され、高品質な動画生成を実現。新ベンチマークWan-Bench 2.0では、主要な評価指標の多くで商用モデルを凌駕しています。

Wan2.2-I2V-A14B

I2V-A14Bモデルは画像から動画生成を目的としており、480Pおよび720P解像度に対応。Mixture-of-Experts(MoE)アーキテクチャにより、不自然なカメラ動作が減少し、より安定した動画合成を実現。多様なスタイライズされたシーンサポートも向上しています。

Wan2.2-TI2V-5B

TI2V-5Bモデルは、圧縮率16×16×4を実現した先進的なWan2.2-VAEで構築されています。このモデルは720P・24fpsのテキスト動画および画像動画生成に対応し、4090のような単一の一般消費者向けGPU上で動作します。最速クラスの720P@24fpsモデルの一つであり、産業用途と学術研究のニーズを満たします。

GitHub: https://github.com/Wan-Video/Wan2.2

元のHuggingFaceリポジトリ: https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/tree/main/split_files/diffusion_models

前の画像
印象派 - Flux
次の画像
Vibrantly Sharp style - Vibrantly Sharp style v.3

モデル詳細

モデルタイプ

Checkpoint

ベースモデル

Wan Video 2.2 TI2V-5B

モデルバージョン

5B Text-Image-to-Video

モデルハッシュ

33fc2f5384

作成者

ディスカッション

コメントを残すには log in してください。