Wan Video 2.2 - 5B Text-Image-to-Video
Empfohlene Parameter
resolution
vae
Tipps
Wan2.2 integriert eine Mixture-of-Experts (MoE) Architektur, die das Denoising über Zeitschritte trennt und so die Kapazität erhöht, ohne die Rechenlast zu steigern.
Die Trainingsdaten wurden um +65,6 % bei Bildern und +83,2 % bei Videos erweitert, was die Generalisierung bei Bewegung, Semantik und Ästhetik verbessert.
Speziell kuratierte ästhetische Daten mit fein abgestuften Labels ermöglichen eine präzise und kontrollierbare filmische Stilerzeugung.
Wan2.2-VAE erreicht ein Kompressionsverhältnis von 16×16×4 und unterstützt effiziente Videoerzeugung in 720P@24fps auf Verbraucher-GPUs wie der Nvidia 4090.
Versions-Highlights
Wan 2.2 5B für vor Ort Generierung
Wan Video
Hinweis: Es gibt weitere Wan Video Dateien auf Civitai – diese könnten Duplikate sein, aber diese Modellkarte dient hauptsächlich zur Bereitstellung der Dateien, die Wan Video im Civitai Generator verwendet.
Diese Dateien sind das ComfyUI Repack – die Originaldateien sind im Diffusers/multi-part Safetensors Format hier zu finden.
Wan2.2 ist ein bedeutendes Upgrade unserer visuellen generativen Modelle, die nun Open-Source sind und leistungsfähigere Funktionen, bessere Performance sowie überlegene visuelle Qualität bieten. Mit Wan2.2 haben wir uns auf folgende technische Innovationen konzentriert:
👍 MoE Architektur: Wan2.2 führt eine Mixture-of-Experts (MoE) Architektur in Video-Diffusionsmodelle ein. Durch die Aufteilung des Denoising-Prozesses über Zeitschritte mit spezialisierten Expertenmodellen wird die Gesamtkapazität erhöht, ohne dabei die Rechenkosten zu steigern.
💪🏻 Daten-Skalierung: Im Vergleich zu Wan2.1 wurde Wan2.2 mit deutlich größeren Datenmengen trainiert, mit +65,6 % mehr Bildern und +83,2 % mehr Videos. Diese Erweiterung verbessert die Generalisierung des Modells in verschiedenen Dimensionen wie Bewegungen, Semantik und Ästhetik und erreicht Spitzenleistungen unter allen Open-Source- und Closed-Source-Modellen.
🎬 Filmische Ästhetik: Wan2.2 integriert speziell kuratierte ästhetische Daten mit fein abgestuften Labels für Beleuchtung, Komposition und Farbe. So ist eine präzisere und kontrollierbare filmische Stil-Erzeugung möglich, die die Erstellung von Videos mit anpassbaren ästhetischen Vorlieben erleichtert.
🚀 Effiziente HD-Hybrid TI2V: Wan2.2 stellt ein 5B Modell mit unserem fortschrittlichen Wan2.2-VAE als Open-Source bereit, das ein Kompressionsverhältnis von 16×16×4 erreicht. Dieses Modell unterstützt sowohl Text-zu-Video als auch Bild-zu-Video Erzeugung in 720P Auflösung mit 24fps und läuft auch auf Verbraucher-Grafikkarten wie der 4090. Es zählt zu den schnellsten 720P@24fps Modellen und bedient gleichzeitig Industrie und Forschung.
Wan2.2-T2V-A14B
Das T2V-A14B Modell unterstützt die Generierung von 5-Sekunden-Videos in 480P und 720P Auflösung. Es basiert auf einer Mixture-of-Experts (MoE) Architektur und liefert herausragende Videoqualität. Im neuen Benchmark Wan-Bench 2.0 übertrifft das Modell führende kommerzielle Modelle in den meisten Bewertungskriterien.
Wan2.2-I2V-A14B
Das I2V-A14B Modell, entworfen für Bild-zu-Video Generierung, unterstützt Auflösungen von 480P und 720P. Durch die MoE-Architektur erzielt es stabilere Videosynthese mit weniger unrealistischen Kamerabewegungen und bietet verbesserte Unterstützung für vielfältige stilisierte Szenen.
Wan2.2-TI2V-5B
Das TI2V-5B Modell basiert auf dem fortschrittlichen Wan2.2-VAE mit einem Kompressionsverhältnis von 16×16×4. Dieses Modell unterstützt Text-zu-Video und Bild-zu-Video Erzeugung in 720P mit 24fps und läuft auf einzelnen Verbraucher-GPUs wie der 4090. Es ist eines der schnellsten Modelle für 720P@24fps und erfüllt Anforderungen industrieller Anwendungen sowie akademischer Forschung.
GitHub: https://github.com/Wan-Video/Wan2.2
Ursprüngliches HuggingFace Repo: https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/tree/main/split_files/diffusion_models
Modell-Details
Modelltyp
Basismodell
Modellversion
Modell-Hash
Ersteller
Diskussion
Bitte log in um einen Kommentar zu hinterlassen.
