modelle/Wan Video 2.2 - 5B Text-Image-to-Video

Wan Video 2.2 - 5B Text-Image-to-Video

Anna Müller

8/25/2025

1:03:02 AM

| Discussion

Empfohlene Parameter

resolution

1280x720, 854x480

vae

Wan2.2-VAE - advanced

Tipps

Wan2.2 integriert eine Mixture-of-Experts (MoE) Architektur, die das Denoising über Zeitschritte trennt und so die Kapazität erhöht, ohne die Rechenlast zu steigern.

Die Trainingsdaten wurden um +65,6 % bei Bildern und +83,2 % bei Videos erweitert, was die Generalisierung bei Bewegung, Semantik und Ästhetik verbessert.

Speziell kuratierte ästhetische Daten mit fein abgestuften Labels ermöglichen eine präzise und kontrollierbare filmische Stilerzeugung.

Wan2.2-VAE erreicht ein Kompressionsverhältnis von 16×16×4 und unterstützt effiziente Videoerzeugung in 720P@24fps auf Verbraucher-GPUs wie der Nvidia 4090.

Versions-Highlights

Wan 2.2 5B für vor Ort Generierung

Wan Video

Hinweis: Es gibt weitere Wan Video Dateien auf Civitai – diese könnten Duplikate sein, aber diese Modellkarte dient hauptsächlich zur Bereitstellung der Dateien, die Wan Video im Civitai Generator verwendet.

Diese Dateien sind das ComfyUI Repack – die Originaldateien sind im Diffusers/multi-part Safetensors Format hier zu finden.

Wan2.2 ist ein bedeutendes Upgrade unserer visuellen generativen Modelle, die nun Open-Source sind und leistungsfähigere Funktionen, bessere Performance sowie überlegene visuelle Qualität bieten. Mit Wan2.2 haben wir uns auf folgende technische Innovationen konzentriert:

👍 MoE Architektur: Wan2.2 führt eine Mixture-of-Experts (MoE) Architektur in Video-Diffusionsmodelle ein. Durch die Aufteilung des Denoising-Prozesses über Zeitschritte mit spezialisierten Expertenmodellen wird die Gesamtkapazität erhöht, ohne dabei die Rechenkosten zu steigern.

💪🏻 Daten-Skalierung: Im Vergleich zu Wan2.1 wurde Wan2.2 mit deutlich größeren Datenmengen trainiert, mit +65,6 % mehr Bildern und +83,2 % mehr Videos. Diese Erweiterung verbessert die Generalisierung des Modells in verschiedenen Dimensionen wie Bewegungen, Semantik und Ästhetik und erreicht Spitzenleistungen unter allen Open-Source- und Closed-Source-Modellen.

🎬 Filmische Ästhetik: Wan2.2 integriert speziell kuratierte ästhetische Daten mit fein abgestuften Labels für Beleuchtung, Komposition und Farbe. So ist eine präzisere und kontrollierbare filmische Stil-Erzeugung möglich, die die Erstellung von Videos mit anpassbaren ästhetischen Vorlieben erleichtert.

🚀 Effiziente HD-Hybrid TI2V: Wan2.2 stellt ein 5B Modell mit unserem fortschrittlichen Wan2.2-VAE als Open-Source bereit, das ein Kompressionsverhältnis von 16×16×4 erreicht. Dieses Modell unterstützt sowohl Text-zu-Video als auch Bild-zu-Video Erzeugung in 720P Auflösung mit 24fps und läuft auch auf Verbraucher-Grafikkarten wie der 4090. Es zählt zu den schnellsten 720P@24fps Modellen und bedient gleichzeitig Industrie und Forschung.

Wan2.2-T2V-A14B

Das T2V-A14B Modell unterstützt die Generierung von 5-Sekunden-Videos in 480P und 720P Auflösung. Es basiert auf einer Mixture-of-Experts (MoE) Architektur und liefert herausragende Videoqualität. Im neuen Benchmark Wan-Bench 2.0 übertrifft das Modell führende kommerzielle Modelle in den meisten Bewertungskriterien.

Wan2.2-I2V-A14B

Das I2V-A14B Modell, entworfen für Bild-zu-Video Generierung, unterstützt Auflösungen von 480P und 720P. Durch die MoE-Architektur erzielt es stabilere Videosynthese mit weniger unrealistischen Kamerabewegungen und bietet verbesserte Unterstützung für vielfältige stilisierte Szenen.

Wan2.2-TI2V-5B

Das TI2V-5B Modell basiert auf dem fortschrittlichen Wan2.2-VAE mit einem Kompressionsverhältnis von 16×16×4. Dieses Modell unterstützt Text-zu-Video und Bild-zu-Video Erzeugung in 720P mit 24fps und läuft auf einzelnen Verbraucher-GPUs wie der 4090. Es ist eines der schnellsten Modelle für 720P@24fps und erfüllt Anforderungen industrieller Anwendungen sowie akademischer Forschung.

GitHub: https://github.com/Wan-Video/Wan2.2

Ursprüngliches HuggingFace Repo: https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/tree/main/split_files/diffusion_models

Mitwirkende

Anna Müller

Hallo! Ich bin Anna Müller und kuratiere seit über zehn Jahren digitale Fotogalerien. Mein geschultes Auge für Farbe und Komposition bringt jede KI-Kreation zum Strahlen.

Zurück

Impressionismus - Flux

Weiter

Vibrantly Sharp style - Vibrantly Sharp style v.3

Dieses Modell verwenden