モデル/スタジオジブリ 🎥 Wan2.1-T2V-14B - v1.0

スタジオジブリ 🎥 Wan2.1-T2V-14B - v1.0

8/25/2025

12:39:05 PM

推奨プロンプト

Studio Ghibli style. Woman with blonde hair is walking on the beach, camera zoom out.,Studio Ghibli style. Woman dancing in the bar.,Studio Ghibli style. A young girl with short brown hair and curious eyes stands on a sunlit grassy hill, wind gently rustling her simple white dress.

推奨ネガティブプロンプト

色调艳丽，过曝，静态，细节模糊不清，字幕，风格，作品，画作，画面，静止，整体发灰，最差质量，低质量，JPEG压缩残留，丑陋的，残缺的，多余的手指，画得不好的手部，画得不好的脸部，畸形的，毁容的，形态畸形的肢体，手指融合，静止不动的画面，杂乱的背景，三条腿，背景人很多，倒着走, 3D, MMD, MikuMikuDance, SFM, Source Filmmaker, Blender, Unity, Unreal, CGI, bad quality

推奨パラメータ

samplers

UniPC, DPM++

steps

7 - 20

cfg

1 - 20

resolution

384x384, 768x416, 384x208

vae

wan_2.1_vae - 1.0

ヒント

より良い2Dアニメーション出力にはUniPCサンプラーを使用すること。

低いCFG（例: CFG=1）でネガティブプロンプトが使えるようNAGノードを適用すること。

低解像度動画と高解像度画像の混合データセットは動きとディテールの両方の学習に効果的。

RTX 3090でOOMを避けるため、最大81フレームの16fps動画クリップを使用すること。

キャプションを再付与せずクリップ断片で再利用すれば処理時間を節約可能。

混合解像度データセットでの訓練は高VRAMを必要とせず一般化を改善する。

クリエイタースポンサー

このLoRAは、オープンソース動画LoRAとその創造的作品を紹介するキュレーションプロジェクトOpenMuseに掲載されています。Wan2.1、LTX-Video、HunyuanVideoのようなモデルに焦点を当て、高品質なツールと作品を紹介しています。Banodocoコミュニティに根差し、AI生成アートに懐疑的な方にも誇りを持って共有できるよう創作者を刺激する、オープンで協力的なAIアートの拠点となっています。

このLoRAは OpenMuseに掲載されています。ここはオープンソースの動画LoRAとそれを活用したクリエイティブ作品に特化したキュレーションイニシアチブです。Wan2.1、LTX-Video、HunyuanVideoのようなモデルに焦点を当て、OpenMuseはエコシステム全体の高品質なツールとアートワークを紹介しています。Banodocoコミュニティを基盤として、OpenMuseはオープンで協力的なAIアートの成長する拠点であり、クリエイターを刺激し、AI生成アートに懐疑的な人にさえ誇りを持って共有できる何かを提供することを目指しています。

説明

Wanがリリースされてから約1ヶ月間取り組んできた私の傑作LoRAを共有できてとても嬉しいです。これまでに私がトレーニングした中で間違いなく最高のLoRAです（Civitai上で）、そして改めて言わせてもらうと、WanVideoは素晴らしいモデルです。

このLoRAはRTX 3090で約90時間かけてmusubi-tunerを用いて、240クリップと120画像の混合データセットで訓練しました。もっと速くできたかもしれませんが、最高のスタイルモデルを作りたくて限界に挑戦しました。成功したかどうかは皆さんの判断に委ねます。

使い方

トリガーフレーズは スタジオジブリ風 で、訓練データの全てのキャプションの先頭にこの言葉を付けました。

ギャラリーに公開しているすべてのクリップは、Wan-T2V-14BベースモデルのLoRAを使用した未加工の出力で（最新の動画では自己強制LoRAを推論高速化に使用しているものもあります。後述）、さらにポストプロセスやアップスケーリング、補間は行っていません。

他のLoRAやWan-I2Vモデルとの互換性はテストしていません。

各動画にはワークフローが埋め込まれており（ダウンロードしてComfyUIにドラッグすれば開けます）、例えばこちらがJSON形式のワークフローです（Kijaiのラッパーベース）。これは自己強制LoRA（blyss作成）を使っており、lightx2vのWan2.1-T2V-14B-StepDistill-CfgDistillモデルから抽出しています。私はblyss版を選びました（KijaiのオリジナルLoRAではなく）理由は、私のテストでは互換性が最大で推論の高速化のみで余計なディテールやスタイルバイアスが入らないためです。（このためベースWanモデルを使い、AniWanやFusionXなどのマージは使いません。）

アクセラレーションLoRAはUniPCサンプラー（時々DPM++）と使っています。私の経験ではUniPCの方がLCMより2Dアニメーション向きで、LCMはリアル寄りになりがちですがそれは避けたいです。通常はNAGノードも使用し、CFG=1でもネガティブプロンプトが使えます。初期テストでは、以前のTeaCacheを使ったワークフローより巨大な速度向上（640×480×81の6ステップクリップがRTX 3090で約1分でレンダリング可能）だけでなく、動きの滑らかさや文字描画も若干改善されました。

更新されたlightx2v LoRAもスピードと品質維持に非常に優れています。私はrank 128 LoRAを使っていますが、32や64も素晴らしい結果を出します。こちらはワークフローの例のJSONです。lightx2v LoRAの強さを0.9に下げ、ステップ数を8に増やし、UniPCかDPMPPスケジューラーを使うと良い結果でした。

そしてこちらはJSON形式の「レガシー」ワークフローです。ギャラリーの90%の動画はこれを使って生成しました。ラッパーノードで構築され多くの最適化を含みます（詳細はこちら）、fp8_e5m2チェックポイント + torch.compile、SageAttention 2、TeaCache、Enhance-A-Video、Fp16_fast、SLG、時々Zero-Star（一部は新ワークフローにも移行）などです。ただし640x480x81クリップのレンダリングは旧ワークフローで約5分かかりました（RTX 3090）。パレットや滑らかさでわずかに優れた部分がありますが、5倍の遅さは大きなデメリットで、lightx2vパワード版へ移行した理由の一つです。

プロンプト作成

大抵のプロンプトはChatGPT（またはClaudeや他の大規模言語モデル）で以下のようなメタプロンプトを適用して作成しています。これはWan開発者による公式のプロンプト拡張コードに基づいています：

あなたはプロンプトエンジニアで、ユーザーの入力をスタジオジブリ風の動画生成用の高品質なプロンプトに精緻化します。出力は元の意図に沿いながら、視覚的かつ動きの明瞭さを高める細部を充実させます。

タスク要件:
- 入力が短すぎる場合は、意味を変えずに場面を生き生きと完全に描写するため詳細を補います。
- 登場人物の外見、表情、服装、姿勢、空間関係を強調します。
- 常にスタジオジブリの美学を維持し、水彩画のような柔らかい背景、表情豊かでシンプルなキャラクターデザイン、温かく懐かしい雰囲気を守ります。
- 動きやカメラの動きを自然にアニメーションさせるために詳述し、ジブリの語り口に合った穏やかで有機的な動きを含めます。
- 引用符やタイトルのテキストは保持しつつ、プロンプトは明確で没入的にし、80～100語にまとめます。
- 全てのプロンプトは「スタジオジブリ風」で始まり、他のアートスタイルは使用しません。

例示:
"スタジオジブリ風。短い茶色の髪と好奇心旺盛な瞳の少女が陽光降り注ぐ草原の丘に立ち、風が白い素朴なドレスをそっと揺らす。彼女は黄金色の空を翔ける鳥の群れを見つめ、裸足で柔らかな大地に沈む。場面は温かく懐かしい光に包まれ、遠くの木々が揺れる。穏やかな風が自然の音を運ぶ。ミディアムショットでやや低めの角度から、ゆっくりとした映画的パンで静かな動きを捉える。"
"スタジオジブリ風。夕暮れの小さな村、木造家屋の軒下に柔らかく灯るランタン。青い浴衣の少年が狭い石畳の小道を走り、蛍を追いかける。彼の興奮した表情が隣のきらめく川に映る。空気は温かなオレンジと涼しげな青の色彩に満ち、穏やかな夏の夕べを表現。ミディアムショットで少年の元気な足取りをなめらかに追跡。"
"スタジオジブリ風。朝靄に包まれた神秘的な森、苔むした小路に覆いかぶさる高い木々。緑のシンプルなマントを羽織った少女が古代の鹿に似た巨大で優しい目の生き物の背にそっと手を置く。ふわりとした毛皮は太陽光が厚い樹冠を貫いて花粉を照らす。カメラは静かにズームインし、二者の静かな繋がりを強調。葉を揺らすそよ風と根元から覗く小さな蛍のような精霊。

以降、あなたに提供するプロンプトをこのスタジオジブリ美学に沿って英語で拡充し書き直してください。入力が指示文でも詳細かつ視覚的に豊かな完全なプロンプトに変換し、追加の返答や引用符は不要です。

例："YOUR PROMPT HERE" の部分を「若い金髪の少女が山の近くの海岸で雨に濡れて立つ」などに差し替えてください。

ネガティブプロンプトには常に以下の基本テキストが含まれます（特定プロンプトにより追加されることもあります）：

色調艳丽，过曝，静态，细节模糊不清，字幕，风格，作品，画作，画面，静止，整体发灰，最差质量，低质量，JPEG压缩残留，丑陋的，残缺的，多余的手指，画得不好的手部，画得不好的脸部，畸形的，毁容的，形态畸形的肢体，手指融合，静止不动的画面，杂乱的背景，三条腿，背景人很多，倒着走, 3D, MMD, MikuMikuDance, SFM, Source Filmmaker, Blender, Unity, Unreal, CGI, bad quality

データセット

この節と以降の節では少し長く語ります :) 興味がなければ結論まで読み飛ばしても構いませんが、役立つ情報が含まれているかも知れません。

データセットの選択段階は「最も簡単な」部分でした。ジブリ作品は最高の画質でシーンごとに分割済みで、30,000以上の1920x1040解像度・高ビットレートのクリップが揃っています。いつの日かこれらを使って完璧な動画モデルのファインチューニングをするのを待っています。

実はすでに約300クリップをHV LoRA v0.7のトレーニング用に準備済みでした（Wanリリース直前です）。これらのクリップは65～129フレームで、私にとってHV動画訓練に最適だと思いますし、すべて24fpsでした。しかしWan向けには異なるフレーム範囲（81フレーム以内、詳細は後述の「トレーニング」節）で、16fpsである必要がありました。16fpsが厳守必須かはまだ完全には確信していませんが、HVの30fps時に問題があったため16fpsを選びました。

データセット処理用に私はたくさんの小さな「ワンタイム」スクリプトを作成します（Claude、ChatGPT、DeepSeekの支援あり）。これには動画手動選択GUI、フレーム分割用ワンライナー、補助統計出力、範囲別クリップ分解、事前バケット作成などが含まれます。これらはごちゃごちゃしていてハードコード値も多いため公開していません。今では誰でもこれらのLLMにリクエストして類似スクリプトを簡単に作れます。

すべてのクリップを16fpsに変換すると、フレーム数は65-129から45-88に狭まり、私の計画したフレームバケットの完璧な範囲が乱れました。しかし幸い、クリップ選択時のルールがあったので問題ありませんでした。

最初に、シーンは急激な変遷を含まないことが条件でした。訓練中のフレームバケット（モデルサイズ、VRAMなどによって変動）を正確に予測できないためです。例えば81フレームの長尺クリップ単体ではRTX 3090でOOMするので、フレーム抽出戦略を選択して短く分割します（詳細な解説はこちら）。しかしそのことで文脈のつながりが壊れることもあり得ます（例えばクリップの前半で少女が口を開けるが、切り出し後は泣くのか笑うのか不明瞭になるなど）、その文脈の不一致はWanのUMT5エンコーダを悲しませるかもしれません。

またキャプションは原則として元のクリップ断片すべてに再キャプションやテキストエンコーダの再キャッシュなしで使いたかったです。動画キャプションは時間がかかります。シーンが大きく変わる場合は元キャプションが合わず訓練品質低下に繋がりますので、「急速な文脈変化を含まないクリップ」「自己完結型クリップ（クリップ内部だけで理解可能なイベント）」という方針により、断片化されても（誤差範囲で）どの断片にもキャプションが適用できるはずです。

変換後全クリップを確認し、合計を240に減らしました（変化が大き過ぎるクリップや、逆に静的すぎるクリップを取り除きました）。これがデータセットの第一部です。

動画と画像の混合データセットを使うことにし、第2部はジブリ映画のスクリーンキャプチャから取った768×768解像度の120画像で構成しました。

画像で先に訓練し動画でファインチューニングする手法もあります（このLoRAの作者も成功しています）が、個人的には単一バッチで混ぜる方が良いと思います（数値的根拠は無し）。私の仮説支持例として、こちらのLoRAも同様の混合手法を使っています（しかも24GB GPUで）。

混合データセットで消費者向けGPUで効果的な動画訓練を可能にするため、解像度・長さ・訓練時間のバランスを取る必要があり、低解像度で長尺動画と高解像度画像を混ぜる方針にしました。詳細はトレーニング節で述べます。

キャプションについてはSLデータセットで以前から使っていたHVデータセットの画像を再利用し、私の「万能」視覚言語モデル（SFW限定のデータセットキャプション用）であるQwen2-VL-7B-Instructを使い、以下のキャプションプロンプトを用いました：

このシーンの非常に詳細な説明を作成してください。番号付きリストや改行は使用しないこと。重要：出力説明は必ず変更なしで『スタジオジブリ風。』で開始し、その後に詳細な説明を続けること。説明内容は1)主題の動作・説明、2)環境と照明の詳細、3)ショットの種類（空中ショット、クローズアップ、ミディアムショット、ロングショット等）、4)場面の雰囲気（居心地の良さ、緊張感、神秘的等）を含むこと。必ず以下のテンプレートで記述すること：『スタジオジブリ風。{主題の動作・説明}。{環境と光の詳細}。{スタイルと技術仕様}』。

対象キャプション構造はHunyuanVideo用に設計されているため再キャプションを迷いましたが、Wanは別アプローチが必要かもと思いつつ現状維持としました。現代のテキストエンコーダは柔軟で大抵無視できるからです。Fluxなど一部モデルはキャプション無しで訓練できることもありますが、関連性あるキャプションありの方が優れていると考えています。

動画のキャプション付け用には複数のローカルモデルを試しました：

CogVLM2-Video-Llama3-Chat（通常、クリップキャプション用の第一選択肢）
MiniCPM-V 2.6
Apollo-LMMs-Apollo-7B-t32
LLaVA-Onevision
VideoChat-Flash-2B
VideoLLaMA 3
Ovis2-16B (これが非常に良さそうですが、私は既にデータセットキャプション済みだったため今後のLoRAで使う予定です)

他にもモデルはありますが試したのはこれらです。本LoRAではApollo-7Bを使用しました。プロンプトは以下の通りです：

この動画の非常に詳細な説明を作成してください。重要：出力説明は必ず変更なしで『スタジオジブリ風。』で開始し、その後に詳細な説明を続けること。

モデルに付属する形で使用した全データセットも添付しています。著作権のある素材も含まれていますが、公正利用の範囲内と考えています。このデータセットは研究教育目的とモデル性能検証の透明性確保のために提供されており、再配布や商用利用は禁止されています。

トレーニング

興味があれば、WanVideoトレーニング候補のトレーナー一覧を以下に示します：

diffusion-pipe - HVトレーニングのOG。メモリ効率の良いWanトレーニングも可能。設定ベースでサードパーティGUIやrunpodテンプレートあり（詳細はこちらとこちら）。HVは専用利用。WindowsはWSL必要。
Musubi Tuner - 責任感と親切な開発者がメンテ。設定ベースでコミュニティ充実、多機能。Wanトレーニングでの私のお気に入り。
AI Toolkit - Flux用トレーナーで最近Wan対応。高速で使いやすいUI（私は未使用）、設定ベース。ただ14Bのみキャプションなし対応が理由で未使用。
DiffSynth Studio - 未テスト。24GB VRAMでWanモデルの訓練可能か不明。ModelScope製で今後試す予定。
finetrainers - Wan対応あり。24GB GPU非対応（現状）と思われる。
SimpleTuner - 先週Wan対応。未使用だが熱心な開発者で注目。
Zero-to-Wan - 1.3Bモデルのみ対応。
WanTraining - 印象的な成果を挙げた開発者が支援。ガイダンス蒸留LoRAやコントロールLoRAを含む。

私はMusubi Tunerを使用しました。参考までに私のハードウェアはi5-12600KF、RTX 3090、Windows 11、64GB RAMです。使用したコマンドと設定ファイルを以下に示します。

VAE潜在表現キャッシュ用（デフォルトコマンド）

python wan_cache_latents.py --dataset_config G:/samples/musubi-tuner/_studio_ghibli_wan14b_v01_dataset.toml --vae G:/samples/musubi-tuner/wan14b/vae/wan_2.1_vae.safetensors

テキストエンコーダ埋め込みキャッシュ用（デフォルト）

python wan_cache_text_encoder_outputs.py --dataset_config G:/samples/musubi-tuner/_studio_ghibli_wan14b_v01_dataset.toml --t5 G:/samples/musubi-tuner/wan14b/tenc/models_t5_umt5-xxl-enc-bf16.pth --batch_size 16

トレーニング起動コマンド：

accelerate launch --num_cpu_threads_per_process 1 --mixed_precision bf16 wan_train_network.py ^
    --task t2v-14B ^
    --dit G:/samples/musubi-tuner/wan14b/dit/wan2.1_t2v_14B_bf16.safetensors ^
	--vae G:/samples/musubi-tuner/wan14b/vae/wan_2.1_vae.safetensors ^
	--t5 G:/samples/musubi-tuner/wan14b/tenc/models_t5_umt5-xxl-enc-bf16.pth ^
	--sdpa ^
	--blocks_to_swap 10 ^
	--mixed_precision bf16 ^
	--fp8_base ^
	--fp8_scaled ^
	--fp8_t5 ^
	--dataset_config G:/samples/musubi-tuner/_studio_ghibli_wan14b_v01_dataset.toml ^
    --optimizer_type adamw8bit ^
	--learning_rate 5e-5 ^
	--gradient_checkpointing ^
    --max_data_loader_n_workers 2 ^
	--persistent_data_loader_workers ^
    --network_module networks.lora_wan ^
	--network_dim 32 ^
	--network_alpha 32 ^
    --timestep_sampling shift ^
	--discrete_flow_shift 3.0 ^
	--save_every_n_epochs 1 ^
	--seed 2025 ^
    --output_dir G:/samples/musubi-tuner/output ^
	--output_name studio_ghibli_wan14b_v01 ^
	--log_config ^
	--log_with tensorboard ^
	--logging_dir G:/samples/musubi-tuner/logs ^
	--sample_prompts G:/samples/musubi-tuner/_studio_ghibli_wan14b_v01_sampling.txt ^
	--save_state ^
	--max_train_epochs 50 ^
	--sample_every_n_epochs 1

特に目新しいものはありません。blocks_to_swapパラメータはデータセット設定（下記）で24GB VRAM制限に抵触したため使用しました。ハイパーパラメータはほぼデフォルトで、以前HVでflow shiftやadaptive optimizerを使い60時間の訓練が台無しになった苦い経験からリスクは避けています。

訓練中サンプル用プロンプトファイル：

# prompt 1
スタジオジブリ風。金髪の女性が砂浜を歩く、カメラがズームアウト。  --w 384 --h 384 --f 45 --d 7 --s 20

# prompt 2
スタジオジブリ風。バーで踊る女性。 --w 384 --h 384 --f 45 --d 7 --s 20

データセット設定（最重要部分、後で考察します）：

[general]
caption_extension = ".txt"
enable_bucket = true
bucket_no_upscale = true

[[datasets]]
image_directory = "H:/datasets/studio_ghibli_wan_video_v01/images/768x768"
cache_directory = "H:/datasets/studio_ghibli_wan_video_v01/images/768x768/cache"
resolution = [768, 768]
batch_size = 1
num_repeats = 1

[[datasets]]
video_directory = "H:/datasets/studio_ghibli_wan_video_v01/videos/1920x1040"
cache_directory = "H:/datasets/studio_ghibli_wan_video_v01/videos/1920x1040/cache_1"
resolution = [768, 416]
batch_size = 1
num_repeats = 1
frame_extraction = "head"
target_frames = [1, 21]

[[datasets]]
video_directory = "H:/datasets/studio_ghibli_wan_video_v01/videos/1920x1040"
cache_directory = "H:/datasets/studio_ghibli_wan_video_v01/videos/1920x1040/cache_2"
resolution = [384, 208]
batch_size = 1
num_repeats = 1
frame_extraction = "uniform"
target_frames = [45]
frame_sample = 2

私のデータセット設定は3部構成です。

最後から説明すると、主要データである240クリップは1920x1040解像度で、長さは45～88フレームです。

高解像度・長尺クリップでRTX 3090訓練はOOMなので、最小限の解像度と長さを探し、なるべく長い断片を保持することにしました。長い断片は動きや時間軸、空間パターン（髪の動き、布の揺れ、液体の動態など）を学ばせるのに重要で、静止画では不可能です。

HV訓練経験から、24GB GPUの利用可能な解像度目安は512x512x33でした。フレーム抽出は「uniform」で、抽出断片は最小45フレームとしました。16fps変換後最大88フレームなので、これでクリップは最大2区間に分かれ、エポックは長すぎません。同時に約3秒間（45フレーム）は十分スタイルの空間的流れを学習可能です。

固定45フレームで色々な解像度を試し、フォルダ内全クリップを分析するスクリプトで画面比率（1920/1040 ≈ 1.85）を保ち16で割り切れる値を検討しました（モデル仕様）。

結局、バケットサイズを[384, 208]、--blocks_to_swap 10に設定しOOM防止、共有メモリ問題抑制に成功しました。欠点は訓練速度が11～12秒/イテレーションに落ちたことです。後で解像度を[368, 192]に下げれば8秒程度まで速くでき、Fluxの1024p AI Toolkit訓練時並みになるはずで、約20時間の訓練時間短縮が期待できました。しかし当時は2万ステップ超えは考えていませんでした。

WindowsでモニターはGPU接続中で常用PCとしても使用し（😼）、Linux（diffusion-pipeなど）かモニターを内蔵GPU接続にすればやや高い空間・時間解像度でもOOMや共有メモリ制限を回避できるかもしれません（これは恐らくWindows特有の制限です）。

第一部は768x768の120画像です。当初は1024p画像で訓練したいと思いましたが過剰で遅くなると判断しました。高解像度画像と低解像度動画を同時訓練し、より良い一般化を狙いました。高解像度画像は動画クリップの解像度不足を補う役割です。そもそもWANは元々動画+画像の事前訓練されていますので、このやり方は上流のスタイル学習を促すはずです。

続いて、第二部は一般化に重要です（科学的根拠ではありませんが合理的と考えています）。先と同じ240クリップを使い、今回は1フレーム目と21フレーム目までの断片のみ訓練します。これにより時間的なスタイルの動き特徴の学習を促す狙いがあります。同時にこのセクションは解像度を[768, 416]に上げています。

結果として、以下の「クロス一般化」を期待しました：

第一部の768x768高解像度画像
第二部の768x416の単一フレームと21フレームクリップ
第三部の384x208低解像度45フレームクリップ

さらに第2部と第3部の多くのクリップは同じスタートフレームを共有し、これはWanのI2VシナリオでのLoRA活用に有利になると考えました。これはデータセットを最大限有効活用する最善の方法のように思えます。

この手法は私が初めて思いついたわけではありませんが、理にかなっていると思います。A100なしでWanの動画ベースLoRA訓練が可能であることを多くの制作者が知るきっかけになれば幸いです。

面白い話ですが、1エポックで1080サンプルになるはずが実際は1078でした。調査したらffmpegのffprobeコマンドでフレーム数を測った2クリップが45フレーム未満だったための誤差です。特に問題なく、2クリップは除いて訓練を続け、そのため最終LoRAのステップ数が少しずれた理由でもあります。

トレーニング自体は順調でした。損失グラフは恥ずかしいので公開しませんが、主にエポック間で損失分布が似すぎていないかを過学習の目安に使っています。

28000ステップまで訓練し、数日かけて最高のチェックポイントを選びました。エポック終了時だけでなく途中チェックポイントも取れば更に良かったかもしれません。1エポック1078ステップなので途中にもっと良いモデルがあった可能性があります。

バリデーション損失推定のパイプライン統合も検討中です（詳細はこちら）。まだ実装はありません。

これを簡略化できるか？恐らくは可能です。次のLoRAで第1部の追加画像が冗長かどうか試す予定です。高解像度のクリップの初フレームのみの独立セクションを作れば良かったかもしれません。ただシーン違いのキャプチャを使ったので冗長ではなかったと信じています。

第2部が本当に必要かも疑問です。WAN自身は技術報告によると192pxのクリップで事前訓練されており、352x192x45でのトレーニングは効果的で私のハードに最適化されています。理想は5秒（16fps×5秒+1=81フレーム）クリップですがRTX 3090では積極的なブロックスワップなしでは不可能です。

結論

楽しい数十万の素晴らしいクリップ以外に、このLoRA訓練で得た洞察を紹介します。これは私個人の経験と観察に基づくもので、厳密な分析証拠はありません。今後コンセプト訓練も試し他仮説の検証を予定しています。

Wan-14Bは消費者向けGPUで動画を使い訓練可能。368x192x45は良い出発点。
低解像度動画の動き学習補完に高解像度画像を使い一般化を向上できる。
単一データセットで複数のフレーム抽出方法を組み合わせるのが効果的でハードウェア効率も最適。

このLoRA開発で得た多くの知見はr/StableDiffusionの投稿、Banodoco Discordでの24時間監視、CivitaiのWanVideoモデルのコメントとNSFWクリップの解析、musubi-tuner、diffusion-pipe、Wan2.1等のリポジトリ探索から得ました。😽