模型/Wan Video 2.2 - 5B 文字影像轉視頻

Wan Video 2.2 - 5B 文字影像轉視頻

|
8/25/2025
|
1:23:21 AM
| Discussion|
0
一部流線型白色機械人在溫暖吊燈照耀下,於舒適的咖啡店卡座為一名男子送上一杯咖啡,以自然智能手機攝影方式捕捉。
懷舊的1990年代照片,展示一名大學生在有綠色壁紙和地毯地板的宿舍房間,用桌燈照明下,在復古90年代電腦上打碼。
一位身穿全黑斗篷的神秘人物站在昏暗的後巷中,周圍環繞著有管道、蒸氣洩漏和電線的高樓,營造出賽博朋克且略帶陰森的氛圍。
從車內視角看沿著濕潤的熱帶高速公路駕駛,路邊有排成行的棕櫚樹,天氣為下雨的白天。
從車內望出去,駕駛經過一個雨天多風的郊區鄰里,美式住宅沿街而立。
一位穿著白色細條紋西裝和太陽眼鏡的男子站在棕櫚樹旁,背景是現代邁阿密摩天大樓,攝影從低角度拍攝。
非裔美國男子,留著爆炸頭,戴著太陽眼鏡,穿著粉紅色西裝,站在邁阿密街道上,背景是棕櫚樹和霓虹燈照亮的摩天大樓,從低角度觀看。
一群穿著牛仔短褲和露腹上衣的年輕女性,在邁阿密棕櫚樹旁享受夜生活,霓虹燈和現代摩天大樓照亮場景

推薦參數

resolution

1280x720, 854x480

vae

Wan2.2-VAE - advanced

提示

Wan2.2 採用 Mixture-of-Experts (MoE) 架構,將去噪過程分散於各時間步,提升容量同時不增加計算負擔。

訓練數據在圖像上擴大了+65.6%,視頻擴大了+83.2%,提升在動態、語義及美學上的泛化能力。

特別策劃的美學數據及細粒度標籤令電影風格生成更精確且可控。

Wan2.2-VAE 達成16×16×4壓縮比,支持在 Nvidia 4090 等消費級 GPU 上以720P@24fps高效生成視頻。

版本亮點

Wan 2.2 5B 用於本地生成

Wan Video

注意:Civitai 上還有其他 Wan Video 文件 - 它們可能是重複版本,但此模型卡主要用於承載 Wan Video 在 Civitai Generator 中使用的檔案。

這些檔案是ComfyUI 重新打包版 - 原始文件可於Diffusers 多部分 safetensors 格式找到。

Wan2.2 是我們視覺生成模型的一次重大升級,現已開源,帶來更強大能力、更佳性能及卓越視覺質量。Wan2.2 聚焦整合以下技術創新:

👍 MoE 架構:Wan2.2 在視頻擴散模型中引入了 Mixture-of-Experts (MoE) 架構。透過在不同時間步交叉使用專門的強大專家模型來分離去噪流程,提升模型總容量同時保持相同計算成本。

💪🏻 數據擴展:相較於 Wan2.1,Wan2.2 訓練數據顯著增長,圖像多出+65.6%,視頻多出+83.2%。此擴展大幅提升模型在動作、語義及美學多維度的泛化能力,達到所有開源及封閉源模型中的頂尖表現。

🎬 電影級美學:Wan2.2 採用經專門策劃的美學數據,並配有細粒度標籤包括燈光、構圖及色彩。此舉使電影風格生成更加精確且可控,方便創作具備可定制美學偏好的視頻。

🚀 高效高清混合 TI2V:Wan2.2 開源了一款基於進階 Wan2.2-VAE 的 5B 模型,其壓縮比達16×16×4。該模型支持720P 24fps的文字轉視頻及影像轉視頻生成,且能運行於如 4090 的消費級顯示卡。它是目前最快的720P@24fps 模型之一,能同時滿足工業及學術領域需求。

Wan2.2-T2V-A14B

T2V-A14B 模型支持在 480P 和 720P 解析度生成 5 秒視頻。採用 Mixture-of-Experts (MoE) 架構,實現卓越的視頻生成質量。在我們新基準 Wan-Bench 2.0 上,該模型在多數關鍵評估維度超越市面領先商用模型。

Wan2.2-I2V-A14B

I2V-A14B 模型專為影像轉視頻生成設計,支持 480P 和 720P 解析度。運用 Mixture-of-Experts (MoE) 架構,使視頻合成更穩定,減少不真實的攝影機移動,並加強多樣風格場景的支持。

Wan2.2-TI2V-5B

TI2V-5B 模型採用先進 Wan2.2-VAE,壓縮比達16×16×4。支持720P 24fps的文字轉視頻及影像轉視頻生成,並能在單張消費級 GPU(如4090)上運行。這是目前最快速的720P@24fps模型之一,適合工業應用及學術研究需求。

GitHub: https://github.com/Wan-Video/Wan2.2

原 HuggingFace 倉庫: https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/tree/main/split_files/diffusion_models

上一個
印象派 - Flux
下一個
Vibrantly Sharp style - Vibrantly Sharp style v.3

模型詳情

模型類型

Checkpoint

基礎模型

Wan Video 2.2 TI2V-5B

模型版本

5B Text-Image-to-Video

模型雜湊值

33fc2f5384

創作者

討論

log in以發表評論。