modèles/SD XL - v1.0 Correction VAE

SD XL - v1.0 Correction VAE

7/2/2025

1:04:16 AM

Mots-clés et tags associés

modèle de base,point de contrôle,modèle de diffusion latent,officiel,sd xl,sdxl,sdxl 1.0,stability ai,stable diffusion xl,génération de texte en image,correction v1.0 vae

Vue aérienne d'une longue cabane rectangulaire située sur le sol d'une vallée verte, entourée d'arbres denses et de montagnes imposantes sous un ciel sombre chargé de pluie avec des nuages épais.

Cabane carrée moderne inclinée vers l'avant dans une forêt la nuit, avec un grand mur en verre, un canapé noir intérieur, des plantes, un éclairage incandescente chaud et un coin salon sur le porche extérieur.

Cabane en bois à deux étages avec serre, surélevée sur colonnes, sur une surface forestière en pente entourée de pins, de brume et d'herbe jaune.

Deux cabines modernes en béton avec grandes fenêtres en verre empilées perpendiculairement sur des colonnes en béton, situées sur une pente montagneuse rocheuse couverte de neige avec un arrière-plan montagneux.

Cabane moderne rectangulaire peinte en blanc avec fenêtres en verre et éclairage intérieur, élevée au-dessus des arbres de la forêt sur deux colonnes en béton inclinées sous un ciel gris.

Un masque en carbone forgé avec des yeux orange lumineux entourés de flammes vibrantes sur un fond sombre.

Profil d'une femme flottante au visage détaillé, sa peau et ses cheveux se mêlant à des traits de peinture colorée tourbillonnants et vifs sur un fond sombre.

Portrait d'une jeune femme ressemblant à Zelda avec cheveux blonds, oreilles d'elfe, yeux bleus, portant une tiare dorée et une robe médiévale violet profond ornée de détails dorés.

Un chat noir aux yeux orange lumineux est assis au milieu de flammes intenses à l'intérieur d'un ancien temple avec des piliers, entouré de feu et de fumée.

Un autel occulte d'automne de style fantasy sombre présentant un café fumant dans une tasse, une bougie allumée avec de la fumée qui s'élève, de petites citrouilles sur des assiettes, une théière, et un livre ouvert avec des textures aquarelles vieillies.

Peinture à l'aquarelle d'une grande épave de vaisseau sci-fi crashé dans un paysage désertique avec un pilote échoué se tenant à proximité, créée avec des lignes audacieuses, un style d'esquisse colorée expressive et un éclairage à fort contraste.

Peinture à l'aquarelle représentant une rue de ville inondée bordée de bâtiments en ruines complexes, avec deux personnages en poses dynamiques, illuminés par un éclairage chaud et à fort contraste.

Prompts négatifs recommandés

(deformed iris, deformed pupils), text, worst quality, low quality, jpeg artifacts, ugly, duplicate, morbid, mutilated, (extra fingers), (mutated hands), poorly drawn hands, poorly drawn face, mutation, deformed, blurry, dehydrated, bad anatomy, bad proportions, extra limbs, cloned face, disfigured, gross proportions, malformed limbs, missing arms, missing legs, extra arms, extra legs, (fused fingers), (too many fingers), long neck, camera

Paramètres recommandés

samplers

Euler

steps

cfg

resolution

525x525

Conseils

Le modèle est destiné à des fins de recherche, incluant la génération d’œuvres d’art, les outils éducatifs et le déploiement sécurisé.

Il n’est pas destiné à générer des représentations factuelles ou exactes de personnes ou d’événements.

Les limitations incluent un photoréalisme imparfait, l’incapacité à rendre un texte lisible, des défis avec les invites compositionnelles, et une possible génération incorrecte des visages.

Le modèle utilise deux encodeurs textuels pré-entraînés : OpenCLIP-ViT/G et CLIP-ViT/L.

Le pipeline en deux étapes comprend une génération latente de base suivie d’un raffinement haute résolution utilisant SDEdit (img2img).

Sponsors du créateur

Initialement publié sur Hugging Face et partagé ici avec l'autorisation de Stability AI.

SDXL se compose d’un pipeline en deux étapes pour la diffusion latente : d’abord, nous utilisons un modèle de base pour générer des latents de la taille de sortie désirée. Dans la seconde étape, nous utilisons un modèle spécialisé haute résolution et appliquons une technique appelée SDEdit (https://arxiv.org/abs/2108.01073, également connu sous le nom "img2img") sur les latents générés à la première étape, en utilisant la même invite.

Description du Modèle

Développé par : Stability AI
Type de modèle : Modèle génératif texte-image basé sur la diffusion
Description du modèle : Il s'agit d'un modèle qui peut être utilisé pour générer et modifier des images basées sur des invites textuelles. C’est un Modèle de diffusion latente qui utilise deux encodeurs textuels fixes et pré-entraînés (OpenCLIP-ViT/G et CLIP-ViT/L).
Ressources pour plus d’informations : Dépôt GitHub.

Sources du Modèle

Dépôt : https://github.com/Stability-AI/generative-models
Démo [optionnelle] : https://clipdrop.co/stable-diffusion

Utilisations

Utilisation Directe

Le modèle est destiné uniquement à des fins de recherche. Les domaines et tâches de recherche possibles incluent

La génération d’œuvres d’art et son usage dans le design et d’autres processus artistiques.
Les applications dans des outils éducatifs ou créatifs.
La recherche sur les modèles génératifs.
Le déploiement sûr de modèles pouvant potentiellement générer du contenu nuisible.
Explorer et comprendre les limites et biais des modèles génératifs.

Les usages exclus sont décrits ci-dessous.

Usages Hors Scope

Le modèle n’a pas été entraîné pour produire des représentations factuelles ou exactes de personnes ou d’événements, donc l’utilisation du modèle pour générer ce type de contenu est hors du champ d’application des capacités de ce modèle.

Limitations et Biais

Limitations

Le modèle n’atteint pas un photoréalisme parfait
Le modèle ne peut pas rendre un texte lisible
Le modèle rencontre des difficultés avec des tâches plus complexes impliquant la composition, comme rendre une image correspondant à « Un cube rouge sur une sphère bleue »
Les visages et les personnes en général peuvent ne pas être générés correctement.
La partie d’auto-encodage du modèle est approximative.

Biais

Bien que les capacités des modèles de génération d’images soient impressionnantes, ils peuvent aussi renforcer ou aggraver des biais sociaux.

Le graphique ci-dessus évalue la préférence utilisateur pour SDXL (avec et sans raffinement) par rapport à Stable Diffusion 1.5 et 2.1. Le modèle de base SDXL performe significativement mieux que les variantes précédentes, et le modèle combiné au module de raffinement atteint la meilleure performance globale.

Contributeur

Camille Dubois

Bonjour ! Je m’appelle Camille Dubois. Passionnée d’art visuel, j’orchestre des galeries numériques pour révéler toute la poésie des images générées par l’IA.

Plant Milk 🌿 - Suite de modèles - Walnut

FLUX.1 - DEV FP8 - Kijai [11 GB]

Utiliser ce modèle