modelle/Wan Video 2.2 - 14B Text-zu-Video

Wan Video 2.2 - 14B Text-zu-Video

|
8/23/2025
|
1:02:42 PM
| Discussion|
0
Ein schlanker weißer Roboter serviert einem Mann, der in einer gemütlichen Café-Ecke unter warmen hängenden Deckenlampen sitzt, eine Tasse Kaffee, aufgenommen mit natürlicher Smartphone-Fotografie.
Nostalgisches 1990er-Foto eines Studenten, der auf einem Vintage-90er-Computer in einem Schlafsaal mit grüner Tapete und Teppichboden tippt, beleuchtet von einer Schreibtischlampe.
Eine geheimnisvolle Gestalt in einem vollständig schwarzen Umhang steht in einer schwach beleuchteten Seitengasse, umgeben von hohen Gebäuden mit sichtbaren Rohren, Dampfaustritt und elektrischen Leitungen, die eine cyberpunkige und leicht unheimliche Atmosphäre erzeugen.
Blick aus einem Auto, das bei regnerischem Tag über eine nasse tropische Autobahn mit Palmen entlang der Straße fährt.
Blick aus einem Auto, das an einem regnerischen, windigen Tag durch eine Vorstadtsiedlung mit amerikanischen Häusern entlang der Straße fährt.
Mann trägt weißen Nadelstreifenanzug und Sonnenbrille, steht nahe Palmen mit modernem Miami-Wolkenkratzer im Hintergrund, aufgenommen aus niedriger Kameraperspektive.
Afroamerikanischer Mann mit Afro und Sonnenbrille, der einen rosa Anzug trägt und nachts auf einer Straße in Miami steht, mit Palmen und neongeschmückten Wolkenkratzern im Hintergrund, aus der Froschperspektive betrachtet.
Gruppe junger Frauen in Jeansshorts und bauchfreien Tops, die einen Abend in der Nähe von Palmen genießen, beleuchtet von Neonlichtern und modernen Wolkenkratzern in Miami

Empfohlene Parameter

resolution

1280x720, 854x480

vae

Wan2.2-VAE - advanced

Tipps

Wan2.2 integriert eine Mixture-of-Experts (MoE) Architektur, um das Denoising über Zeitschritte zu trennen und somit die Kapazität bei gleichbleibender Rechenlast zu erhöhen.

Der Trainingsdatensatz wurde um +65,6% bei Bildern und +83,2% bei Videos erweitert, was die Generalisierung bei Bewegung, Semantik und Ästhetik verbessert.

Speziell kuratierte ästhetische Daten mit fein abgestuften Labels ermöglichen eine präzise und kontrollierbare Erzeugung filmischer Stile.

Wan2.2-VAE erreicht ein Kompressionsverhältnis von 16×16×4 und unterstützt effiziente Videoerzeugung bei 720P@24fps auf Consumer-GPUs wie der Nvidia 4090.

Versions-Highlights

Wan 2.2 14B für Text-zu-Video Onsite-Generierung

Wan Video

Hinweis: Es gibt weitere Wan Video Dateien, die auf Civitai gehostet werden – diese könnten Duplikate sein, aber diese Modellseite dient hauptsächlich dazu, die Dateien zu hosten, die von Wan Video im Civitai Generator verwendet werden.

Diese Dateien sind das ComfyUI Repack – die Originaldateien sind im Diffusers/multi-part safetensors Format hier zu finden.

Wan2.2 ist ein bedeutendes Upgrade unserer visuellen generativen Modelle, das nun als Open Source verfügbar ist und leistungsfähigere Fähigkeiten, bessere Performance und überlegene visuelle Qualität bietet. Mit Wan2.2 haben wir uns auf folgende technische Innovationen konzentriert:

👍 MoE Architektur: Wan2.2 führt eine Mixture-of-Experts (MoE) Architektur in Video-Diffusionsmodelle ein. Durch die Aufteilung des Denoising-Prozesses über verschiedene Zeitschritte mit spezialisierten leistungsstarken Expertenmodellen wird die Gesamtkapazität des Modells vergrößert, während die selben Rechenkosten beibehalten werden.

💪🏻 Datenskalierung: Im Vergleich zu Wan2.1 wurde Wan2.2 mit deutlich größeren Datensätzen trainiert, mit +65,6% mehr Bildern und +83,2% mehr Videos. Diese Erweiterung verbessert die Generalisierung des Modells maßgeblich in mehreren Dimensionen wie Bewegung, Semantik und Ästhetik und erreicht Spitzenleistungen unter allen open-source sowie closed-source Modellen.

🎬 Filmische Ästhetik: Wan2.2 beinhaltet speziell kuratierte ästhetische Daten mit fein abgestuften Labels für Beleuchtung, Komposition und Farbe. Dies ermöglicht eine präzisere und kontrollierbare Erzeugung filmischer Stile und erleichtert die Erstellung von Videos mit anpassbaren ästhetischen Präferenzen.

🚀 Effizientes hochauflösendes hybrides TI2V: Wan2.2 stellt ein 5B Modell mit unserem fortschrittlichen Wan2.2-VAE als Open Source bereit, das ein Kompressionsverhältnis von 16×16×4 erreicht. Dieses Modell unterstützt sowohl Text-zu-Video als auch Bild-zu-Video Erzeugung in 720P-Auflösung bei 24fps und läuft auch auf Consumer-Grafikkarten wie der 4090. Es ist eines der schnellsten 720P@24fps Modelle, das aktuell verfügbar ist und sowohl industriellen als auch akademischen Bereich bedient.

Wan2.2-T2V-A14B

Das T2V-A14B Modell unterstützt die Erzeugung von 5-Sekunden Videos in 480P und 720P Auflösung. Basierend auf der Mixture-of-Experts (MoE) Architektur liefert es herausragende Videoqualität. In unserem neuen Benchmark Wan-Bench 2.0 übertrifft das Modell die führenden kommerziellen Modelle in den meisten wichtigen Bewertungskriterien.

Wan2.2-I2V-A14B

Das I2V-A14B Modell ist für Bild-zu-Video Erzeugung ausgelegt und unterstützt sowohl 480P als auch 720P Auflösungen. Durch die Mixture-of-Experts (MoE) Architektur erreicht es eine stabilere Video-Synthese mit reduzierten unrealistischen Kamerabewegungen und bietet verbesserte Unterstützung für vielfältige stilisierte Szenen.

Wan2.2-TI2V-5B

Das TI2V-5B Modell basiert auf dem fortschrittlichen Wan2.2-VAE, das ein Kompressionsverhältnis von 16×16×4 ermöglicht. Dieses Modell unterstützt sowohl Text-zu-Video als auch Bild-zu-Video Erzeugung in 720P-Auflösung bei 24fps und läuft auf einer einzelnen Consumer-GPU wie der 4090. Es ist eines der schnellsten 720P@24fps Modelle und erfüllt die Anforderungen industrieller Anwendungen sowie akademischer Forschung.

GitHub: https://github.com/Wan-Video/Wan2.2

Ursprüngliches HuggingFace Repo: https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/tree/main/split_files/diffusion_models

Zurück
Konya Karasue | TIA V7 | Illustrious XL - v1.0
Weiter
Niji semi realism - v3.0 - Flux

Modell-Details

Modelltyp

Checkpoint

Basismodell

Wan Video 2.2 T2V-A14B

Modellversion

14B Text-to-Video

Modell-Hash

33fc2f5384

Ersteller

Diskussion

Bitte log in um einen Kommentar zu hinterlassen.