Wan Video 2.2 - 5B 文字影像轉視頻
推薦參數
resolution
vae
提示
Wan2.2 採用 Mixture-of-Experts (MoE) 架構,將去噪過程分散於各時間步,提升容量同時不增加計算負擔。
訓練數據在圖像上擴大了+65.6%,視頻擴大了+83.2%,提升在動態、語義及美學上的泛化能力。
特別策劃的美學數據及細粒度標籤令電影風格生成更精確且可控。
Wan2.2-VAE 達成16×16×4壓縮比,支持在 Nvidia 4090 等消費級 GPU 上以720P@24fps高效生成視頻。
版本亮點
Wan 2.2 5B 用於本地生成
Wan Video
注意:Civitai 上還有其他 Wan Video 文件 - 它們可能是重複版本,但此模型卡主要用於承載 Wan Video 在 Civitai Generator 中使用的檔案。
這些檔案是ComfyUI 重新打包版 - 原始文件可於Diffusers 多部分 safetensors 格式找到。
Wan2.2 是我們視覺生成模型的一次重大升級,現已開源,帶來更強大能力、更佳性能及卓越視覺質量。Wan2.2 聚焦整合以下技術創新:
👍 MoE 架構:Wan2.2 在視頻擴散模型中引入了 Mixture-of-Experts (MoE) 架構。透過在不同時間步交叉使用專門的強大專家模型來分離去噪流程,提升模型總容量同時保持相同計算成本。
💪🏻 數據擴展:相較於 Wan2.1,Wan2.2 訓練數據顯著增長,圖像多出+65.6%,視頻多出+83.2%。此擴展大幅提升模型在動作、語義及美學多維度的泛化能力,達到所有開源及封閉源模型中的頂尖表現。
🎬 電影級美學:Wan2.2 採用經專門策劃的美學數據,並配有細粒度標籤包括燈光、構圖及色彩。此舉使電影風格生成更加精確且可控,方便創作具備可定制美學偏好的視頻。
🚀 高效高清混合 TI2V:Wan2.2 開源了一款基於進階 Wan2.2-VAE 的 5B 模型,其壓縮比達16×16×4。該模型支持720P 24fps的文字轉視頻及影像轉視頻生成,且能運行於如 4090 的消費級顯示卡。它是目前最快的720P@24fps 模型之一,能同時滿足工業及學術領域需求。
Wan2.2-T2V-A14B
T2V-A14B 模型支持在 480P 和 720P 解析度生成 5 秒視頻。採用 Mixture-of-Experts (MoE) 架構,實現卓越的視頻生成質量。在我們新基準 Wan-Bench 2.0 上,該模型在多數關鍵評估維度超越市面領先商用模型。
Wan2.2-I2V-A14B
I2V-A14B 模型專為影像轉視頻生成設計,支持 480P 和 720P 解析度。運用 Mixture-of-Experts (MoE) 架構,使視頻合成更穩定,減少不真實的攝影機移動,並加強多樣風格場景的支持。
Wan2.2-TI2V-5B
TI2V-5B 模型採用先進 Wan2.2-VAE,壓縮比達16×16×4。支持720P 24fps的文字轉視頻及影像轉視頻生成,並能在單張消費級 GPU(如4090)上運行。這是目前最快速的720P@24fps模型之一,適合工業應用及學術研究需求。
GitHub: https://github.com/Wan-Video/Wan2.2
原 HuggingFace 倉庫: https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/tree/main/split_files/diffusion_models
