暖かい吊り下げ天井照明の下、居心地の良いカフェのブース席に座る男性に白く洗練されたロボットがコーヒーを提供している様子を、自然なスマートフォン撮影で捉えた画像。
緑色の壁紙とカーペットの床がある寮の部屋で、デスクランプに照らされながら90年代のビンテージPCでコードを入力する大学生の懐かしい1990年代の写真。
全身黒いマントを着た謎の人物が、蒸気の漏れるパイプや電線が見える高層ビルに囲まれた薄暗い裏路地に立ち、サイバーパンクでやや不気味な雰囲気を醸し出している。
雨の降る昼間にヤシの木が道路沿いに並ぶ濡れた熱帯高速道路を走る車内からの眺め。
雨と風が強い日に郊外住宅街を走る車の内部からの眺め。アメリカ風の家々が通りに沿って並んでいる。
白いピンストライプのスーツとサングラスを着用し、近くにヤシの木、背景にモダンなマイアミの高層ビルがあり、低いカメラアングルから撮影された男性。
アフロヘアとサングラスを着用し、ピンクスーツをまとったアフリカ系アメリカ人男性がマイアミの夜の通りに立っており、背景にはヤシの木とネオンに照らされた高層ビルが低いアングルで見えます。
デニムショーツとクロップトップを着た若い女性たちのグループが、マイアミのヤシの木の近くで夜を楽しんでいる様子。ネオンライトとモダンな高層ビルに照らされている

推奨パラメータ

resolution

720x480, 720x720

vae

Wan2.2-VAE - advanced

ヒント

Wan2.2はWan2.1と比較して+65.6%多い画像および+83.2%多い動画という大規模データセットの恩恵を受けています。

Mixture-of-Experts (MoE)アーキテクチャの使用により計算コストを維持しつつモデル容量を増やすことが可能です。

このモデルは特に画像から動画生成において非現実的なカメラ移動を減らし、安定した動画合成をサポートします。

バージョンのハイライト

画像から動画への現地生成用Wan 2.2 14B

クリエイタースポンサー

公式のWan2.2 GitHubリポジトリでソースコードとアップデートをご覧ください。

HuggingFaceからWan2.2モデルのComfyUIリパックをダウンロードできます。

元のDiffusersマルチパートsafetensorsファイルはWan-AI HuggingFaceリポジトリで入手可能です。

Wan Video

注意: Civitaiにホストされている他のWan Videoファイルもありますが、これらは重複の可能性があり、このモデルカードは主にCivitai GeneratorでWan Videoが使用するファイルをホストするためのものです。

これらのファイルはComfyUIリパックで、元のファイルはDiffusersのマルチパートsafetensors形式で入手できます。

Wan2.2は、私たちの視覚生成モデルの大幅なアップグレード版で、オープンソース化され、より強力な能力、優れたパフォーマンス、そして卓越した視覚品質を提供します。Wan2.2では次の技術革新の導入に重点を置いています:

👍 MoEアーキテクチャ: Wan2.2は動画拡散モデルにMixture-of-Experts (MoE)アーキテクチャを導入します。各タイムステップのノイズ除去プロセスを専門の強力なエキスパートモデルで分離することで、同じ計算コストで全体のモデル容量を拡大します。

💪🏻 データスケーリング: Wan2.1と比べてWan2.2は大幅に多いデータで訓練されており、画像が+65.6%、動画が+83.2%増えています。この拡張により動き、意味論、美学など複数の次元でモデルの一般化能力が著しく向上し、オープンソース・クローズドソース両方のモデルの中でトップの性能を達成しています。

🎬 映画的美学: Wan2.2は照明、構図、色に関する詳細なラベルが付いた特別に選定された美学データを組み込み、より正確かつ制御可能な映画的スタイルの生成を可能にし、カスタマイズ可能な美学的好みの動画作成を支援します。

🚀 効率的な高解像度ハイブリッドTI2V: Wan2.2は高度なWan2.2-VAEで構築された5Bモデルをオープンソース化しており、圧縮率16×16×4を実現しています。このモデルは720P 24fpsでテキストから動画及び画像から動画生成をサポートし、4090などの消費者向けグラフィックカードでも動作可能です。現在入手可能な中で最速クラスの720P@24fpsモデルであり、産業・学術両面のニーズに対応します。

Wan2.2-T2V-A14B

T2V-A14Bモデルは480Pおよび720P解像度で5秒動画の生成をサポートします。Mixture-of-Experts (MoE)アーキテクチャで構築されており、卓越した動画生成品質を提供します。新しいベンチマークWan-Bench 2.0では主要評価指標の多くで商用モデルを凌駕しています。

Wan2.2-I2V-A14B

I2V-A14Bモデルは画像から動画への生成用に設計されており、480Pおよび720P解像度をサポートします。Mixture-of-Experts (MoE)アーキテクチャで構築されており、非現実的なカメラ移動を抑えたより安定した動画合成を実現し、多様なスタイライズシーンのサポートも向上しています。

Wan2.2-TI2V-5B

TI2V-5Bモデルは圧縮率16×16×4を達成した高度なWan2.2-VAEで構築されています。このモデルは720P 24fpsでテキストからおよび画像から動画生成をサポートし、4090のような単一の消費者向けGPU上で動作可能です。現存する中で最速クラスの720P@24fpsモデルであり、産業用途と学術研究の両方の要求を満たします。

GitHub: https://github.com/Wan-Video/Wan2.2

元のHuggingFaceリポジトリ: https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/tree/main/split_files/diffusion_models

前の画像
Plenty of Consent - V1
次の画像
WAN 25 Realistic - I2V LOW v1.0

モデル詳細

モデルタイプ

Checkpoint

ベースモデル

Wan Video 2.2 I2V-A14B

モデルバージョン

14B Image-to-Video

モデルハッシュ

33fc2f5384

作成者

ディスカッション

コメントを残すには log in してください。