模型/Wan Video 2.2 - 5B 文字影像轉視頻

Wan Video 2.2 - 5B 文字影像轉視頻

陳嘉欣 (Chan Ka-yan)

8/25/2025

1:23:21 AM

| Discussion|

提示

Wan2.2 採用 Mixture-of-Experts (MoE) 架構，將去噪過程分散於各時間步，提升容量同時不增加計算負擔。

訓練數據在圖像上擴大了+65.6%，視頻擴大了+83.2%，提升在動態、語義及美學上的泛化能力。

特別策劃的美學數據及細粒度標籤令電影風格生成更精確且可控。

Wan2.2-VAE 達成16×16×4壓縮比，支持在 Nvidia 4090 等消費級 GPU 上以720P@24fps高效生成視頻。

版本亮點

Wan 2.2 5B 用於本地生成

Wan Video

注意：Civitai 上還有其他 Wan Video 文件 - 它們可能是重複版本，但此模型卡主要用於承載 Wan Video 在 Civitai Generator 中使用的檔案。

這些檔案是ComfyUI 重新打包版 - 原始文件可於Diffusers 多部分 safetensors 格式找到。

Wan2.2 是我們視覺生成模型的一次重大升級，現已開源，帶來更強大能力、更佳性能及卓越視覺質量。Wan2.2 聚焦整合以下技術創新：

👍 MoE 架構：Wan2.2 在視頻擴散模型中引入了 Mixture-of-Experts (MoE) 架構。透過在不同時間步交叉使用專門的強大專家模型來分離去噪流程，提升模型總容量同時保持相同計算成本。

💪🏻 數據擴展：相較於 Wan2.1，Wan2.2 訓練數據顯著增長，圖像多出+65.6%，視頻多出+83.2%。此擴展大幅提升模型在動作、語義及美學多維度的泛化能力，達到所有開源及封閉源模型中的頂尖表現。

🎬 電影級美學：Wan2.2 採用經專門策劃的美學數據，並配有細粒度標籤包括燈光、構圖及色彩。此舉使電影風格生成更加精確且可控，方便創作具備可定制美學偏好的視頻。

🚀 高效高清混合 TI2V：Wan2.2 開源了一款基於進階 Wan2.2-VAE 的 5B 模型，其壓縮比達16×16×4。該模型支持720P 24fps的文字轉視頻及影像轉視頻生成，且能運行於如 4090 的消費級顯示卡。它是目前最快的720P@24fps 模型之一，能同時滿足工業及學術領域需求。