Wan Video 2.2 - 14B 文本轉影片
推薦參數
resolution
vae
提示
Wan2.2 採用混合專家(MoE)架構,將去噪過程跨時間步驟分離,在不增加計算負擔的情況下提升模型容量。
訓練資料圖片增長 65.6%,影片增長 83.2%,提升運動、語義及美學的泛化能力。
精心策劃的美學資料及精細標籤,允許精準且可控的電影風格生成。
Wan2.2-VAE 達成 16×16×4 壓縮率,支援在 Nvidia 4090 等消費級 GPU 上高效生成 720P@24fps 影片。
版本亮點
Wan 2.2 14B 用於現場文本轉影片生成
Wan Video
注意:在 Civitai 上還有其他 Wan Video 檔案——這些可能是重複的,但本模型卡主要用於存放 Wan Video 在 Civitai Generator 中使用的檔案。
這些檔案是ComfyUI 重包 —— 原始檔案可於Diffusers/多部分 safetensors 格式中找到。
Wan2.2 是我們視覺生成模型的重要升級,已開源,具備更強大的能力、更佳的性能及更優秀的視覺品質。Wan2.2 專注於融入以下技術創新:
👍 MoE 架構:Wan2.2 在影片擴散模型中引入混合專家架構。透過跨時間步驟以專業強大的專家模型分離去噪過程,擴大整體模型容量,同時保持相同計算成本。
💪🏻 資料擴充:與 Wan2.1 相比,Wan2.2 的訓練資料大幅成長,圖片增加 65.6%,影片增加 83.2%。此擴充明顯提升模型在運動、語意及美學等多維度的泛化能力,實現所有開源及封閉源模型中的頂尖表現。
🎬 電影美學:Wan2.2 加入經過精心策劃的美學資料,並附有精細標籤,涵蓋光線、構圖與色彩,使電影風格生成更精準及可控,便於創作具自訂美學偏好的影片。
🚀 高效高畫質混合 TI2V:Wan2.2 開源一款基於先進 Wan2.2-VAE 架構的 5B 模型,壓縮率達 16×16×4。此模型支援 720P、24fps 的文本轉影片及圖片轉影片生成,更可於如 4090 之類消費級 GPU 運行。為目前最快的 720P@24fps 模型之一,兼顧工業與學術需求。
Wan2.2-T2V-A14B
T2V-A14B 模型支援生成 5 秒長的 480P 及 720P 影片。採用混合專家架構,提供卓越的影片生成品質。在新基準 Wan-Bench 2.0 上,該模型在多數關鍵評估維度超越領先商業模型。
Wan2.2-I2V-A14B
I2V-A14B 模型專為圖片轉影片生成設計,支援 480P 和 720P 解像度。採混合專家架構,實現更穩定的影片合成,減少不自然的相機運動,並加強對多樣化風格場景的支援。
Wan2.2-TI2V-5B
TI2V-5B 模型基於先進 Wan2.2-VAE,壓縮率達 16×16×4。支持 720P、24fps 的文本轉影片和圖片轉影片生成,能在單張消費級 GPU(如 4090)上運行。是目前最快的 720P@24fps 模型之一,滿足工業應用及學術研究需求。
GitHub:https://github.com/Wan-Video/Wan2.2
原始 HuggingFace 倉庫:https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/tree/main/split_files/diffusion_models
