Un portrait fantastique réaliste d'une femme aux cheveux blond miel et aux yeux émeraude, regardant vers le haut avec une larme sur la joue, portant des boucles d'oreilles en argent et un collier.
Quatre héroïnes néo-victoriennes dans une véranda de grenier ensoleillée avec des cheveux tourbillonnants et des étincelles magiques, sur fond de paysage urbain avec des dirigeables à l'heure dorée.

Paramètres recommandés

steps

10 - 20

resolution

1024x1024

Conseils

Utilisez la version à 3,6 milliards de paramètres de l'Étape C pour de meilleurs résultats puisque le finetuning principal y a été effectué.

Utilisez la variante à 1,5 milliard de paramètres pour l'Étape B afin d'exceller dans la reconstruction des petits détails fins.

Le modèle est bien adapté à la formation et à l'inférence efficaces grâce à un espace latent plus petit et supporte des extensions comme le finetuning, LoRA, ControlNet, IP-Adapter et LCM.

Le modèle est destiné uniquement à des fins de recherche et ne doit pas être utilisé pour générer des représentations factuelles ou violer la Politique d'utilisation acceptable de Stability AI.

Les visages et les personnes peuvent ne pas être générés correctement car l'auto-encodage du modèle est imparfait.

Sponsors du créateur

Démos :

Stable Cascade

Ce modèle est basé sur l'architecture Würstchen et sa principale

différence par rapport à d'autres modèles comme Stable Diffusion est qu'il fonctionne dans un espace latent beaucoup plus petit. Pourquoi est-ce

important ? Plus l'espace latent est petit, plus l'inférence est rapide et la formation devient moins coûteuse.

Quelle est la taille de l'espace latent ? Stable Diffusion utilise un facteur de compression de 8, ce qui correspond à une image 1024x1024 encodée en 128x128. Stable Cascade atteint un facteur de compression de 42, ce qui signifie qu'il est possible d'encoder une

image 1024x1024 en 24x24, tout en maintenant des reconstructions nettes. Le modèle conditionné par le texte est ensuite entraîné dans cet

espace latent très compressé. Les versions précédentes de cette architecture ont permis une réduction de coût de 16x par rapport à Stable

Diffusion 1.5. <br> <br>

Ainsi, ce type de modèle est bien adapté aux usages où l'efficacité est importante. De plus, toutes les extensions connues

comme le finetuning, LoRA, ControlNet, IP-Adapter, LCM, etc. sont également possibles avec cette méthode.

Détails du modèle

Description du modèle

Stable Cascade est un modèle de diffusion entraîné pour générer des images à partir d'un prompt texte.

  • Développé par : Stability AI

  • Financé par : Stability AI

  • Type de modèle : Modèle génératif texte-image

Sources du modèle

Pour des fins de recherche, nous recommandons notre dépôt Github StableCascade (https://github.com/Stability-AI/StableCascade).

Vue d'ensemble du modèle

Stable Cascade se compose de trois modèles : Étape A, Étape B et Étape C, représentant une cascade pour générer des images,

d'où le nom "Stable Cascade".

Les Étapes A et B sont utilisées pour compresser les images, similaire au rôle du VAE dans Stable Diffusion.

Cependant, avec cette configuration, une compression beaucoup plus élevée des images peut être obtenue. Alors que les modèles Stable Diffusion utilisent un

facteur de compression spatial de 8, codant une image de résolution 1024 x 1024 en 128 x 128, Stable Cascade atteint

un facteur de compression de 42. Cela encode une image de 1024 x 1024 en 24 x 24, tout en étant capable de décoder précisément l'

image. Ceci présente l'avantage majeur de rendre la formation et l'inférence moins coûteuses. De plus, l'Étape C est responsable

de la génération des petits latents 24 x 24 à partir d'un prompt texte. L'image suivante illustre cela visuellement.

Pour cette version, nous fournissons deux checkpoints pour l'Étape C, deux pour l'Étape B et un pour l'Étape A. L'Étape C est disponible en versions 1 milliard et 3,6 milliards de paramètres, mais nous recommandons fortement l'utilisation de la version à 3,6 milliards, car c'est elle qui a reçu la majeure partie du finetuning. Les deux versions pour l'Étape B comportent 700 millions et 1,5 milliard de paramètres. Les deux donnent d'excellents résultats, cependant la version à 1,5 milliard excelle dans la reconstruction des petits détails fins. Par conséquent, vous obtiendrez les meilleurs résultats en utilisant la variante la plus grande pour chaque étape. Enfin, l'Étape A contient 20 millions de paramètres et est fixe en raison de sa petite taille.

Évaluation

Selon notre évaluation, Stable Cascade offre les meilleures performances à la fois en alignement avec le prompt et en qualité esthétique dans presque toutes

les comparaisons. L'image ci-dessus présente les résultats d'une évaluation humaine utilisant un mélange de parti-prompts (lien) et de prompts esthétiques. Spécifiquement, Stable Cascade (30 étapes d'inférence) a été comparé à Playground v2 (50 étapes d'inférence), SDXL (50 étapes d'inférence), SDXL Turbo (1 étape d'inférence) et Würstchen v2 (30 étapes d'inférence).

Exemple de code

⚠️ Important : Pour que le code ci-dessous fonctionne, vous devez installer diffusers depuis cette branche tant que la PR est en cours.

pip install git+https://github.com/kashif/diffusers.git@wuerstchen-v3

import torch

from diffusers import StableCascadeDecoderPipeline, StableCascadePriorPipeline

device = "cuda"

num_images_per_prompt = 2

prior = StableCascadePriorPipeline.from_pretrained("stabilityai/stable-cascade-prior", torch_dtype=torch.bfloat16).to(device)

decoder = StableCascadeDecoderPipeline.from_pretrained("stabilityai/stable-cascade", torch_dtype=torch.float16).to(device)

prompt = "Anthropomorphic cat dressed as a pilot"

negative_prompt = ""

prior_output = prior(

prompt=prompt,

height=1024,

width=1024,

negative_prompt=negative_prompt,

guidance_scale=4.0,

num_images_per_prompt=num_images_per_prompt,

num_inference_steps=20

)

decoder_output = decoder(

image_embeddings=prior_output.image_embeddings.half(),

prompt=prompt,

negative_prompt=negative_prompt,

guidance_scale=0.0,

output_type="pil",

num_inference_steps=10

).images

#Maintenant decoder_output est une liste contenant vos images PIL

Utilisations

Usage direct

Le modèle est destiné pour l'instant à des fins de recherche. Les domaines et tâches de recherche possibles incluent

  • La recherche sur les modèles génératifs.

  • Le déploiement sécurisé de modèles pouvant générer du contenu nuisible.

  • L'analyse et la compréhension des limites et biais des modèles génératifs.

  • La génération d’œuvres d'art et l'utilisation dans le design et d'autres processus artistiques.

  • Applications dans des outils éducatifs ou créatifs.

Les usages exclus sont décrits ci-dessous.

Usages hors scope

Le modèle n'a pas été entraîné pour représenter fidèlement des personnes ou des événements,

et par conséquent, utiliser ce modèle pour générer un tel contenu est hors du cadre des capacités de ce modèle.

Le modèle ne doit pas être utilisé d'une manière qui viole la Politique d'utilisation acceptable de Stability AI.

Limitations et biais

Limitations

  • Les visages et les personnes en général peuvent ne pas être générés correctement.

  • La partie auto-encodage du modèle est imparfaite.

Recommandations

Le modèle est destiné uniquement à des fins de recherche.

Comment débuter avec le modèle

Consultez https://github.com/Stability-AI/StableCascade

Précédent
Midnight - v5.0
Suivant
Émulation de Film - Halation 35mm (Subtil)

Détails du modèle

Type de modèle

Checkpoint

Modèle de base

Stable Cascade

Version du modèle

base

Hash du modèle

0d28c8562d

Créateur

Discussion

Veuillez vous log in pour laisser un commentaire.

Images par Stable Cascade - base

Un portrait fantastique réaliste d'une femme aux cheveux blond miel et aux yeux émeraude, regardant vers le haut avec une larme sur la joue, portant des boucles d'oreilles en argent et un collier.
Quatre héroïnes néo-victoriennes dans une véranda de grenier ensoleillée avec des cheveux tourbillonnants et des étincelles magiques, sur fond de paysage urbain avec des dirigeables à l'heure dorée.

Images avec anime

Femme égyptienne style anime agenouillée dans le désert, peau bronzée, cheveux blancs, yeux rouges, portant une robe blanche et un collier égyptien, rayon de soleil en arrière-plan.
Fille d'anime aux cheveux courts debout dans un champ de fleurs bleues la nuit, avec une lumière bleue brillante et une galaxie dans le ciel, lumières de la ville au loin.
Une fille d'anime stylisée aux longs cheveux noirs et aux yeux verts saisissants, vêtue d'une tenue noire et de bas noirs ornés de tatouages rouges de fleurs, tenant un katana sur un fond rouge.
Une scène de bataille steampunk dramatique avec des dirigeables dominant la ligne d'horizon de la ville, des robots et des exosquelettes à vapeur se battant dans la rue tandis qu'une explosion éclaire le centre sous un ciel orageux.
Une fille renard souriante aux cheveux blonds, yeux jaunes, oreilles de renard et queue de renard, portant un kimono coloré avec bordure en fourrure et ornements capillaires traditionnels, debout devant une porte torii.
Fille anime aux cheveux violet-bleu en robe chinoise rose assise sur un canapé sarcelle tenant des plateaux de boissons dans un cadre de café.
Fille blonde de style anime portant une robe d'été blanche et un grand chapeau de soleil décoré d'un tournesol, se tenant joyeusement dans un champ de tournesols au coucher du soleil avec les bras levés.
Une femme confiante aux cheveux blancs courts et aux yeux bleus perçants portant un pull noir sans manches à col roulé, un pantalon noir et des gants sans doigts, se tenant dans une ruelle urbaine faiblement éclairée sous un ciel étoilé.
Femme blonde portant une armure Helldiver noire et or avec découpe décolleté, cuissardes, tenant un casque, avec des yeux bleus et un léger sourire
Fille d'anime aux cheveux rouges en tresse, portant un uniforme scolaire bleu marine avec bordure dorée, assise les jambes écartées, regardant le spectateur avec des yeux rouges, et portant des rubans rouges et des boucles d'oreilles.

Images avec art

Portrait abstrait en gros plan présentant un visage aux yeux fermés, créé avec de l'encre tricolore et des coups de pinceau explosifs, éclaboussures d'orange, bleu, rouge et noir, transmettant une intensité émotionnelle et une énergie chaotique.
Illustration numérique très détaillée de la tête d'un mandrill avec visage rouge vif, yeux jaunes, motifs noirs et blancs complexes, et texture de fourrure plumeuse sur fond noir.
Un croquis rouge et noir d'un dragon surplombant une personne sous la pluie la nuit.
Peinture acrylique abstraite d'un poisson rouge sous l'eau avec des couleurs frappantes rouge, blanc et noir sur un fond sombre
Portrait d'un commandant militaire déterminé aux cheveux roux et yeux bleus portant un élégant uniforme marine orné d'accents dorés mêlant style époque napoléonienne et cyberpunk, debout dans une forteresse urbaine enfumée.
Un portrait détaillé d'une femme hémomancienne elfe tachetée portant une capuche et des robes écarlates, avec des yeux rouge sang et des symboles magiques complexes tourbillonnant dans une grotte forestière sombre.
Silhouette d'une femme debout sur un fond beige avec des éclaboussures colorées vives de peinture fractale en rouge, jaune, bleu, orange et violet autour d'elle.
Femme élégante portant un bralette en cuir noir et un pantalon large taille haute, se tenant avec assurance les bras étendus. Elle a de longs cheveux tressés et des talons compensés verts vifs. L'arrière-plan présente des tons verts avec des motifs d'ombre.
Œuvre vectorielle plate minimaliste montrant la silhouette d'une femme mince marchant sur une plage à Cap Canaille, dans le sud de la France, avec un grand ciel bleu rempli de nuages blancs et de traînées de condensation au-dessus de la côte de la Côte d'Azur.
Silhouette d'une femme en robe feuille d'or, debout dans un lac avec une lune dorée géante en arrière-plan, dans un paysage asiatique.

Images avec modèle de base

Scène photoréaliste de personnages morts-vivants comprenant des zombies et des squelettes marchant à travers un cimetière hanté éclairé par des citrouilles-lanternes lumineuses sous un ciel sombre et menaçant.

Images avec logo

Illustration d'un grand personnage humanoïde de type calmar portant une chemise rayée d'employé debout derrière un comptoir rempli de tasses de nouilles instantanées et divers articles, dessiné avec des hachures linéaires détaillées et des tons terreux.
Personnage D.Va d'Overwatch agenouillé dans sa combinaison bleue et rose signature, tenant un pistolet, avec un gros plan artistique de son visage dans un fond à thème rose comportant un éclairage cinématographique et des effets de fumée.
Machine à café style steampunk avec fille souriante, croquis aquarelle.
Pixel art de chibi Shiroko de Blue Archive avec une épée sur une grille isométrique.
Une nature morte détaillée avec divers fruits et des bougies allumées, générée par IA utilisant Stable Diffusion.
Illustration de style vintage d'un homme musclé aux longs cheveux flottants en pose héroïque entouré de symboles mystiques et de mains fantomatiques, générée par IA avec stable diffusion.

Images avec réalisme

Une jeune princesse blonde aux cheveux tressés accroupie près d'un feu de camp dans une clairière forestière lors d'une fête tribale, entourée de silhouettes en arrière-plan près des feux de camp.
Représentation réaliste d'une femme aux yeux vert émeraude saisissants, portant une couronne composée de délicats éclats de cristal et une robe rappelant des cascades gelées, illuminée par la lumière réfractée bleue glacée et argentée dans une grotte glaciaire sombre.
Un employé de bureau assis à un bureau, la tête dans les mains, éclairé par un écran d'ordinateur portable lumineux, entouré de piles de rapports et de canettes de boisson énergétique ressemblant à des calices dorés, sous des rideaux baroques luxueux.
Un Tyrannosaurus Rex rugissant poursuivant une jeune femme marchant dans une jungle dense, représenté dans le style détaillé de Sergey Krasovskiy.
Une femme tenant une bougie allumée avec un fond noir profond illuminant la moitié de son visage d'une lumière chaleureuse de bougie.
Une peinture numérique détaillée d'un avion militaire à hélice rouillé volant en plein air au-dessus de l'océan, avec des hélices tournantes et un cockpit ouvert montrant des passagers, sous un ciel bleu clair avec des nuages.
Photo en gros plan d'une fille rousse avec des taches de rousseur et des yeux bleus debout parmi de hautes herbes sous un soleil intense, présentant des traits naturels détaillés et un effet de grain de film analogique.
Un visage féminin surnaturel aux yeux lumineux émergeant du feuillage de la jungle et des plantes lumineuses, une cascade lumineuse coule de sa bouche, art numérique fantastique.
Portrait dramatique en gros plan d'un vieil homme aux cheveux blancs et aux yeux jaunes lumineux, portant une armure noire détaillée et tenant un bouclier rond sur un fond noir uni.
Une cafetière vintage rouillée et défaillante émettant de la vapeur synthétique, avec un bras robotique saccadé, posée sur un comptoir taché sous des néons vacillants.