modelle/Wan Video 2.2 - 5B Text-Image-to-Video

Wan Video 2.2 - 5B Text-Image-to-Video

|
8/25/2025
|
1:03:02 AM
| Discussion|
0
Ein schlanker weißer Roboter serviert einem Mann, der in einer gemütlichen Café-Ecke unter warmen hängenden Deckenlampen sitzt, eine Tasse Kaffee, aufgenommen mit natürlicher Smartphone-Fotografie.
Nostalgisches 1990er-Foto eines Studenten, der auf einem Vintage-90er-Computer in einem Schlafsaal mit grüner Tapete und Teppichboden tippt, beleuchtet von einer Schreibtischlampe.
Eine geheimnisvolle Gestalt in einem vollständig schwarzen Umhang steht in einer schwach beleuchteten Seitengasse, umgeben von hohen Gebäuden mit sichtbaren Rohren, Dampfaustritt und elektrischen Leitungen, die eine cyberpunkige und leicht unheimliche Atmosphäre erzeugen.
Blick aus einem Auto, das bei regnerischem Tag über eine nasse tropische Autobahn mit Palmen entlang der Straße fährt.
Blick aus einem Auto, das an einem regnerischen, windigen Tag durch eine Vorstadtsiedlung mit amerikanischen Häusern entlang der Straße fährt.
Mann trägt weißen Nadelstreifenanzug und Sonnenbrille, steht nahe Palmen mit modernem Miami-Wolkenkratzer im Hintergrund, aufgenommen aus niedriger Kameraperspektive.
Afroamerikanischer Mann mit Afro und Sonnenbrille, der einen rosa Anzug trägt und nachts auf einer Straße in Miami steht, mit Palmen und neongeschmückten Wolkenkratzern im Hintergrund, aus der Froschperspektive betrachtet.
Gruppe junger Frauen in Jeansshorts und bauchfreien Tops, die einen Abend in der Nähe von Palmen genießen, beleuchtet von Neonlichtern und modernen Wolkenkratzern in Miami

Empfohlene Parameter

resolution

1280x720, 854x480

vae

Wan2.2-VAE - advanced

Tipps

Wan2.2 integriert eine Mixture-of-Experts (MoE) Architektur, die das Denoising über Zeitschritte trennt und so die Kapazität erhöht, ohne die Rechenlast zu steigern.

Die Trainingsdaten wurden um +65,6 % bei Bildern und +83,2 % bei Videos erweitert, was die Generalisierung bei Bewegung, Semantik und Ästhetik verbessert.

Speziell kuratierte ästhetische Daten mit fein abgestuften Labels ermöglichen eine präzise und kontrollierbare filmische Stilerzeugung.

Wan2.2-VAE erreicht ein Kompressionsverhältnis von 16×16×4 und unterstützt effiziente Videoerzeugung in 720P@24fps auf Verbraucher-GPUs wie der Nvidia 4090.

Versions-Highlights

Wan 2.2 5B für vor Ort Generierung

Wan Video

Hinweis: Es gibt weitere Wan Video Dateien auf Civitai – diese könnten Duplikate sein, aber diese Modellkarte dient hauptsächlich zur Bereitstellung der Dateien, die Wan Video im Civitai Generator verwendet.

Diese Dateien sind das ComfyUI Repack – die Originaldateien sind im Diffusers/multi-part Safetensors Format hier zu finden.

Wan2.2 ist ein bedeutendes Upgrade unserer visuellen generativen Modelle, die nun Open-Source sind und leistungsfähigere Funktionen, bessere Performance sowie überlegene visuelle Qualität bieten. Mit Wan2.2 haben wir uns auf folgende technische Innovationen konzentriert:

👍 MoE Architektur: Wan2.2 führt eine Mixture-of-Experts (MoE) Architektur in Video-Diffusionsmodelle ein. Durch die Aufteilung des Denoising-Prozesses über Zeitschritte mit spezialisierten Expertenmodellen wird die Gesamtkapazität erhöht, ohne dabei die Rechenkosten zu steigern.

💪🏻 Daten-Skalierung: Im Vergleich zu Wan2.1 wurde Wan2.2 mit deutlich größeren Datenmengen trainiert, mit +65,6 % mehr Bildern und +83,2 % mehr Videos. Diese Erweiterung verbessert die Generalisierung des Modells in verschiedenen Dimensionen wie Bewegungen, Semantik und Ästhetik und erreicht Spitzenleistungen unter allen Open-Source- und Closed-Source-Modellen.

🎬 Filmische Ästhetik: Wan2.2 integriert speziell kuratierte ästhetische Daten mit fein abgestuften Labels für Beleuchtung, Komposition und Farbe. So ist eine präzisere und kontrollierbare filmische Stil-Erzeugung möglich, die die Erstellung von Videos mit anpassbaren ästhetischen Vorlieben erleichtert.

🚀 Effiziente HD-Hybrid TI2V: Wan2.2 stellt ein 5B Modell mit unserem fortschrittlichen Wan2.2-VAE als Open-Source bereit, das ein Kompressionsverhältnis von 16×16×4 erreicht. Dieses Modell unterstützt sowohl Text-zu-Video als auch Bild-zu-Video Erzeugung in 720P Auflösung mit 24fps und läuft auch auf Verbraucher-Grafikkarten wie der 4090. Es zählt zu den schnellsten 720P@24fps Modellen und bedient gleichzeitig Industrie und Forschung.

Wan2.2-T2V-A14B

Das T2V-A14B Modell unterstützt die Generierung von 5-Sekunden-Videos in 480P und 720P Auflösung. Es basiert auf einer Mixture-of-Experts (MoE) Architektur und liefert herausragende Videoqualität. Im neuen Benchmark Wan-Bench 2.0 übertrifft das Modell führende kommerzielle Modelle in den meisten Bewertungskriterien.

Wan2.2-I2V-A14B

Das I2V-A14B Modell, entworfen für Bild-zu-Video Generierung, unterstützt Auflösungen von 480P und 720P. Durch die MoE-Architektur erzielt es stabilere Videosynthese mit weniger unrealistischen Kamerabewegungen und bietet verbesserte Unterstützung für vielfältige stilisierte Szenen.

Wan2.2-TI2V-5B

Das TI2V-5B Modell basiert auf dem fortschrittlichen Wan2.2-VAE mit einem Kompressionsverhältnis von 16×16×4. Dieses Modell unterstützt Text-zu-Video und Bild-zu-Video Erzeugung in 720P mit 24fps und läuft auf einzelnen Verbraucher-GPUs wie der 4090. Es ist eines der schnellsten Modelle für 720P@24fps und erfüllt Anforderungen industrieller Anwendungen sowie akademischer Forschung.

GitHub: https://github.com/Wan-Video/Wan2.2

Ursprüngliches HuggingFace Repo: https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/tree/main/split_files/diffusion_models

Zurück
Impressionismus - Flux
Weiter
Vibrantly Sharp style - Vibrantly Sharp style v.3

Modell-Details

Modelltyp

Checkpoint

Basismodell

Wan Video 2.2 TI2V-5B

Modellversion

5B Text-Image-to-Video

Modell-Hash

33fc2f5384

Ersteller

Diskussion

Bitte log in um einen Kommentar zu hinterlassen.