modèles/Wan Video 2.2 - Modèle de diffusion texte-image vers vidéo 5B

Wan Video 2.2 - Modèle de diffusion texte-image vers vidéo 5B

8/25/2025

1:06:37 AM

Mots-clés et tags associés

5b text-image-to-video,modèle de base,point de contrôle,génération d'images en vidéo,mélange d'experts,texte en vidéo,theally,modèle de diffusion vidéo,wan video,wan video 2.2,wan video 2.2 ti2v-5b,wan2.2

Un robot blanc élégant servant une tasse de café à un homme assis dans une cabine de café confortable sous des lumières chaudes suspendues au plafond, capturé avec une photographie naturelle au smartphone.

Photographie nostalgique des années 1990 d'un étudiant tapant du code sur un ordinateur vintage des années 90 dans une chambre universitaire avec papier peint vert et tapis, éclairée par une lampe de bureau.

Une figure mystérieuse portant une cape noire complète se tient dans une ruelle faiblement éclairée entourée de hauts bâtiments avec des tuyaux visibles, une fuite de vapeur et des câbles électriques, évoquant une atmosphère cyberpunk légèrement inquiétante.

Vue depuis l'intérieur d'une voiture roulant sur une autoroute tropicale humide bordée de palmiers pendant une journée pluvieuse.

Vue depuis l'intérieur d'une voiture roulant dans un quartier suburbain par une journée pluvieuse et venteuse avec des maisons de style américain le long de la rue.

Homme portant un costume blanc à fines rayures et des lunettes de soleil, debout près de palmiers avec un gratte-ciel moderne de Miami en arrière-plan, photographié sous un angle de caméra bas.

Homme afro-américain avec afro et lunettes de soleil portant un costume rose debout dans une rue de Miami la nuit avec des palmiers et des gratte-ciel éclairés au néon en arrière-plan, vu en contre-plongée.

Groupe de jeunes femmes vêtues de shorts en denim et de crop tops profitant d'une soirée près des palmiers, illuminées par des lumières au néon et des gratte-ciels modernes à Miami

Paramètres recommandés

resolution

1280x720, 854x480

vae

Wan2.2-VAE - advanced

Conseils

Wan2.2 intègre une architecture Mixture-of-Experts (MoE) pour séparer le débruitage à travers les étapes temporelles, augmentant la capacité sans augmenter la charge computationnelle.

Les données d'entraînement ont été étendues de +65,6 % en images et +83,2 % en vidéos, améliorant la généralisation dans les mouvements, la sémantique et l'esthétique.

Des données esthétiques spécialement sélectionnées avec des étiquettes fines permettent une génération précise et contrôlable du style cinématographique.

Wan2.2-VAE atteint un taux de compression de 16×16×4, supportant une génération vidéo efficace en 720P@24fps sur des GPU grand public comme le Nvidia 4090.

Points forts de la version

Wan 2.2 5B pour génération sur site

Wan Video

Note : D'autres fichiers Wan Video sont hébergés sur Civitai - ils peuvent être des doublons, mais cette fiche modèle sert principalement à héberger les fichiers utilisés par Wan Video dans le générateur Civitai.

Ces fichiers constituent le ComfyUI Repack - les fichiers originaux se trouvent dans Diffusers/format safetensors multipart ici.

Wan2.2, une mise à niveau majeure de nos modèles génératifs visuels, désormais open-source, offrant des capacités plus puissantes, de meilleures performances et une qualité visuelle supérieure. Avec Wan2.2, nous avons mis l'accent sur l'intégration des innovations techniques suivantes :

👍 Architecture MoE : Wan2.2 introduit une architecture Mixture-of-Experts (MoE) dans les modèles de diffusion vidéo. En séparant le processus de débruitage à travers les étapes temporelles avec des modèles experts spécialisés et puissants, cela augmente considérablement la capacité globale du modèle tout en maintenant le même coût computationnel.

💪🏻 Extention des données : Par rapport à Wan2.1, Wan2.2 est entraîné sur des données beaucoup plus nombreuses, avec +65,6 % d'images et +83,2 % de vidéos supplémentaires. Cette expansion améliore notablement la généralisation du modèle sur plusieurs dimensions comme les mouvements, la sémantique et l'esthétique, atteignant une performance TOP parmi tous les modèles open-source et propriétaires.

🎬 Esthétique cinématographique : Wan2.2 intègre des données esthétiques spécialement sélectionnées avec des étiquettes fines pour l’éclairage, la composition et la couleur. Cela permet une génération de style cinématographique plus précise et contrôlable, facilitant la création de vidéos avec des préférences esthétiques personnalisables.

🚀 TI2V hybride haute définition efficace : Wan2.2 open-source un modèle 5B construit avec notre Wan2.2-VAE avancé qui atteint un taux de compression de 16×16×4. Ce modèle prend en charge la génération texte-vers-vidéo et image-vers-vidéo en résolution 720P à 24fps et peut également fonctionner sur des cartes graphiques grand public comme le 4090. C'est l'un des modèles 720P@24fps les plus rapides actuellement disponibles, capable de répondre aux besoins des secteurs industriel et académique simultanément.

Wan2.2-T2V-A14B

Le modèle T2V-A14B prend en charge la génération de vidéos de 5 secondes en résolutions 480P et 720P. Construit avec une architecture Mixture-of-Experts (MoE), il offre une qualité de génération vidéo exceptionnelle. Sur notre nouveau benchmark Wan-Bench 2.0, ce modèle dépasse les principaux modèles commerciaux sur la plupart des dimensions clés d’évaluation.

Wan2.2-I2V-A14B

Le modèle I2V-A14B, conçu pour la génération image-vers-vidéo, supporte les résolutions 480P et 720P. Construit avec une architecture Mixture-of-Experts (MoE), il atteint une synthèse vidéo plus stable avec des mouvements de caméra moins irréalistes et offre une meilleure prise en charge des scènes stylisées diversifiées.

Wan2.2-TI2V-5B

Le modèle TI2V-5B est construit avec le Wan2.2-VAE avancé atteignant un taux de compression de 16×16×4. Ce modèle prend en charge la génération texte-vers-vidéo et image-vers-vidéo en résolution 720P à 24fps et peut être exécuté sur un seul GPU grand public tel que le 4090. C’est un des modèles 720P@24fps les plus rapides disponibles, répondant aux besoins des applications industrielles et de la recherche académique.

GitHub : https://github.com/Wan-Video/Wan2.2

Repo d’origine HuggingFace : https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/tree/main/split_files/diffusion_models

Contributeur

Camille Dubois

Bonjour ! Je m’appelle Camille Dubois. Passionnée d’art visuel, j’orchestre des galeries numériques pour révéler toute la poésie des images générées par l’IA.

Impressionnisme - Flux

Vibrantly Sharp style - Vibrantly Sharp style v.3

Utiliser ce modèle

Détails du modèle

Type de modèle

Checkpoint

Modèle de base

Wan Video 2.2 TI2V-5B

Version du modèle

5B Text-Image-to-Video

Hash du modèle

33fc2f5384

Créateur

theally

Discussion

Veuillez vous log in pour laisser un commentaire.

Collection de modèles - Wan Video 2.2

Vue aérienne d'un quartier moderne de banlieue floridienne avec des toits clairs, des rues bordées de palmiers, des piscines dans les arrière-cours et une zone humide sauvage contrastante remplie de cyprès et de marais.

CheckpointMODÈLES

Images par Wan Video 2.2 - Modèle de diffusion texte-image vers vidéo 5B

Images avec modèle de base

Scène photoréaliste de personnages morts-vivants comprenant des zombies et des squelettes marchant à travers un cimetière hanté éclairé par des citrouilles-lanternes lumineuses sous un ciel sombre et menaçant.