Un ritratto fantastico realistico di una donna con capelli biondo miele e occhi di smeraldo, che guarda verso l'alto con una lacrima sulla guancia, indossando orecchini e una collana d'argento.
Quattro eroine Neo-Vittoriane in una serra della soffitta illuminata dal sole con capelli svolazzanti e scintille magiche, sullo sfondo di una città con aeronavi all'ora d'oro.

Parametri Consigliati

steps

10 - 20

resolution

1024x1024

Suggerimenti

Usa la versione da 3,6 miliardi di parametri della Fase C per i migliori risultati poiché il finetuning principale è stato effettuato su di essa.

Usa la variante da 1,5 miliardi di parametri per la Fase B per eccellere nella ricostruzione di dettagli piccoli e fini.

Il modello è adatto per addestramento e inferenza efficienti grazie allo spazio latente più piccolo e supporta estensioni come finetuning, LoRA, ControlNet, IP-Adapter e LCM.

Il modello è destinato esclusivamente a scopi di ricerca e non deve essere utilizzato per generare rappresentazioni fattuali o violare la Acceptable Use Policy di Stability AI.

Volti e persone potrebbero non essere generati correttamente poiché l'autoencoding del modello comporta perdita di dati.

Sponsor del Creatore

Demo:

Stable Cascade

Questo modello è costruito sull'architettura Würstchen e la sua principale

differenza rispetto ad altri modelli come Stable Diffusion è che opera in uno spazio latente molto più piccolo. Perché è

importante? Più piccolo è lo spazio latente, più veloce è possibile eseguire l'inferenza e più economico diventa l'addestramento.

Quanto è piccolo lo spazio latente? Stable Diffusion utilizza un fattore di compressione di 8, con un'immagine 1024x1024

codificata in 128x128. Stable Cascade raggiunge un fattore di compressione di 42, il che significa che è possibile codificare un

immagine 1024x1024 in 24x24, mantenendo ricostruzioni nitide. Il modello condizionato dal testo viene quindi addestrato nello

spazio latente altamente compresso. Versioni precedenti di questa architettura hanno raggiunto una riduzione dei costi di 16x rispetto a Stable

Diffusion 1.5. <br> <br>

Pertanto, questo tipo di modello è ben adatto a usi in cui l'efficienza è importante. Inoltre, tutte le estensioni note

come finetuning, LoRA, ControlNet, IP-Adapter, LCM ecc. sono possibili anche con questo metodo.

Dettagli del Modello

Descrizione del Modello

Stable Cascade è un modello di diffusione addestrato per generare immagini a partire da un prompt testuale.

  • Sviluppato da: Stability AI

  • Finanziato da: Stability AI

  • Tipo di modello: Modello generativo testo-immagine

Fonti del Modello

Per scopi di ricerca, consigliamo il nostro StableCascade repository Github (https://github.com/Stability-AI/StableCascade).

Panoramica del Modello

Stable Cascade consiste in tre modelli: Fase A, Fase B e Fase C, che rappresentano una cascata per generare immagini,

da cui il nome "Stable Cascade".

Le Fasi A e B sono utilizzate per comprimere le immagini, similmente al ruolo del VAE in Stable Diffusion.

Tuttavia, con questa configurazione, è possibile ottenere una compressione molto più elevata delle immagini. Mentre i modelli di Stable Diffusion utilizzano un

fattore di compressione spaziale di 8, codificando un'immagine con risoluzione 1024 x 1024 in 128 x 128, Stable Cascade raggiunge

un fattore di compressione di 42. Questo codifica un'immagine 1024 x 1024 in 24 x 24, potendo comunque decodificare accuratamente

l'immagine. Ciò comporta il grande vantaggio di addestramento e inferenza più economici. Inoltre, la Fase C è responsabile

della generazione dei piccoli latenti 24 x 24 a partire da un prompt testuale. L'immagine seguente mostra questo concetto visivamente.

Per questa versione, forniamo due checkpoint per la Fase C, due per la Fase B e uno per la Fase A. La Fase C è disponibile in

versioni da 1 miliardo e 3,6 miliardi di parametri, ma consigliamo vivamente di usare la versione da 3,6 miliardi, poiché la maggior parte del lavoro di finetuning è stato fatto su di essa.

Le due versioni per la Fase B sono da 700 milioni e 1,5 miliardi di parametri. Entrambe ottengono ottimi risultati,

ma quella da 1,5 miliardi eccelle nel ricostruire dettagli piccoli e fini. Pertanto, otterrete i migliori risultati utilizzando la variante più grande di ciascuna. Infine, la Fase A contiene 20 milioni di parametri ed è fissa a causa delle sue dimensioni ridotte.

Valutazione

Secondo la nostra valutazione, Stable Cascade performa al meglio sia nell'allineamento del prompt che nella qualità estetica in quasi tutti

i confronti. La figura sopra mostra i risultati di una valutazione umana usando una miscela di parti-prompts (link) e prompt estetici. In particolare, Stable Cascade (30 passi di inferenza) è stato confrontato con Playground v2 (50 passi di inferenza), SDXL (50 passi di inferenza), SDXL Turbo (1 passo di inferenza) e Würstchen v2 (30 passi di inferenza).

Esempio di Codice

⚠️ Importante: per far funzionare il codice sottostante, devi installare diffusers da questo branch mentre il PR è in WIP.

pip install git+https://github.com/kashif/diffusers.git@wuerstchen-v3

import torch

from diffusers import StableCascadeDecoderPipeline, StableCascadePriorPipeline

device = "cuda"

num_images_per_prompt = 2

prior = StableCascadePriorPipeline.from_pretrained("stabilityai/stable-cascade-prior", torch_dtype=torch.bfloat16).to(device)

decoder = StableCascadeDecoderPipeline.from_pretrained("stabilityai/stable-cascade", torch_dtype=torch.float16).to(device)

prompt = "Gatto antropomorfo vestito da pilota"

negative_prompt = ""

prior_output = prior(

prompt=prompt,

height=1024,

width=1024,

negative_prompt=negative_prompt,

guidance_scale=4.0,

num_images_per_prompt=num_images_per_prompt,

num_inference_steps=20

)

decoder_output = decoder(

image_embeddings=prior_output.image_embeddings.half(),

prompt=prompt,

negative_prompt=negative_prompt,

guidance_scale=0.0,

output_type="pil",

num_inference_steps=10

).images

#Ora decoder_output è una lista con le tue immagini PIL

Usi

Uso Diretto

Il modello è attualmente destinato a scopi di ricerca. Possibili aree e compiti di ricerca includono

  • Ricerca su modelli generativi.

  • Implementazione sicura di modelli con potenziale di generare contenuti dannosi.

  • Esplorazione e comprensione dei limiti e dei bias dei modelli generativi.

  • Generazione di opere d'arte e uso in design e altri processi artistici.

  • Applicazioni in strumenti educativi o creativi.

Gli usi esclusi sono descritti di seguito.

Uso Non Consentito

Il modello non è stato addestrato per rappresentazioni fattuali o veritiere di persone o eventi,

e pertanto l'uso del modello per generare tali contenuti è fuori dallo scopo delle capacità di questo modello.

Il modello non deve essere utilizzato in modo da violare la Acceptable Use Policy di Stability AI.

Limitazioni e Bias

Limitazioni

  • I volti e le persone in generale potrebbero non essere generati correttamente.

  • La parte di autoencoding del modello è con perdita di dati.

Raccomandazioni

Il modello è destinato esclusivamente a scopi di ricerca.

Come Iniziare con il Modello

Consulta https://github.com/Stability-AI/StableCascade

Precedente
Midnight - v5.0
Successivo
Emulazione Film - Halation 35mm (Sottile)

Dettagli del Modello

Tipo di modello

Checkpoint

Modello base

Stable Cascade

Versione del modello

base

Hash del modello

0d28c8562d

Creatore

Discussione

Per favore log in per lasciare un commento.

Immagini di Stable Cascade - base

Un ritratto fantastico realistico di una donna con capelli biondo miele e occhi di smeraldo, che guarda verso l'alto con una lacrima sulla guancia, indossando orecchini e una collana d'argento.
Quattro eroine Neo-Vittoriane in una serra della soffitta illuminata dal sole con capelli svolazzanti e scintille magiche, sullo sfondo di una città con aeronavi all'ora d'oro.

Immagini con anime

Femmina egiziana in stile anime inginocchiata nel deserto, con pelle abbronzata, capelli bianchi, occhi rossi, indossa un abito bianco e un collare egiziano, raggio di sole sullo sfondo.
Ragazza anime con capelli corti in piedi in un campo di fiori blu di notte, con una luce blu luminosa e la galassia nel cielo, luci della città in lontananza.
Una ragazza anime stilizzata con lunghi capelli neri e occhi verdi intensi, che indossa un abito nero e calze sopra il ginocchio adornate da tatuaggi floreali rossi, che tiene una katana su sfondo rosso.
Una drammatica scena di battaglia steampunk con navi volanti che incombono sullo skyline della città, robot ed esoscheletri a vapore che combattono per strada mentre un'esplosione illumina il centro sotto un cielo tempestoso.
Una ragazza volpe sorridente con capelli biondi, occhi gialli, orecchie e coda di volpe, che indossa un kimono colorato con rifiniture in pelliccia e ornamenti tradizionali per capelli, in piedi davanti a una porta torii.
Ragazza anime con capelli viola-blu in un vestito cinese rosa seduta su un divano turchese che tiene vassoi di bevande in un ambiente da caffè.
Ragazza bionda in stile anime che indossa un abito estivo bianco e un grande cappello di paglia con decorazione di girasoli, che sta felice in un campo di girasoli al tramonto con le braccia alzate.
Una donna sicura con capelli bianchi corti e occhi azzurri penetranti che indossa un maglione nero a collo alto senza maniche, pantaloni neri e guanti senza dita, in piedi in un vicolo urbano debolmente illuminato sotto un cielo stellato notturno.
Donna bionda che indossa un'armatura Helldiver nera e oro con scollo, stivali sopra il ginocchio e tiene un elmo, con occhi azzurri e un sorriso leggero
Ragazza anime con capelli rossi raccolti in una treccia, che indossa una divisa scolastica blu navy con bordi dorati, seduta con le gambe aperte, che guarda l'osservatore con occhi rossi, e indossa fiocchi rossi e orecchini.

Immagini con arte

Primo piano di un ritratto astratto con un volto dagli occhi chiusi, creato con inchiostro tricolore e pennellate esplosive, schizzi di arancione, blu, rosso e nero, che trasmettono intensità emotiva ed energia caotica.
Illustrazione digitale altamente dettagliata della testa di un mandrillo con volto rosso vibrante, occhi gialli, motivi intricati in bianco e nero e texture di pelliccia piumata su sfondo nero.
Uno schizzo rosso e nero di un drago che incombe su una persona sotto la pioggia di notte.
Dipinto acrilico astratto di un pesce rosso sott'acqua con colori accesi rosso, bianco e nero su uno sfondo scuro
Ritratto di un determinato comandante militare con capelli rossi e occhi azzurri che indossa un'elegante uniforme blu navy con accenti dorati, che fonde stili dell'era napoleonica e cyberpunk, in piedi in una roccaforte urbana fumosa.
Un ritratto dettagliato di un'emomante elfica con lentiggini che indossa un cappuccio e abiti scarlatti, con occhi rosso sangue e simboli magici intricati che vorticano in una grotta di foresta oscura.
Sagoma di una donna in piedi su uno sfondo beige con vivaci schizzi colorati di vernice simili a frattali in rosso, giallo, blu, arancione e viola intorno a lei.
Donna elegante che indossa un bralette in pelle nera e pantaloni a gamba larga a vita alta, in piedi con sicurezza con le braccia estese. Ha lunghi capelli intrecciati e tacchi a zeppa verdi brillanti. Lo sfondo presenta toni verdi con motivi d'ombra.
Opera vettoriale minimalista piatta che mostra la silhouette di una donna snella che cammina su una spiaggia a Cap Canaille, Sud della Francia, con un grande cielo azzurro pieno di nuvole bianche e scie di condensazione sopra la costa della Côte d'Azur.
Sagoma di una donna con vestito in foglia oro, in piedi in un lago con una luna dorata gigante sullo sfondo, ambientata in un paesaggio asiatico.

Immagini con modello base

Scena fotorealistica di personaggi non morti tra zombie e scheletri che camminano attraverso un cimitero spettrale illuminato da jack-o'-lantern luminosi sotto un cielo scuro e minaccioso.

Immagini con logo

Illustrazione di un personaggio umanoide grande simile a un calamaro che indossa una maglia a righe da dipendente e sta dietro un banco del negozio pieno di tazze di noodles istantanei e vari articoli, disegnato con dettagliato tratteggio lineare e toni terrosi.
Personaggio D.Va di Overwatch inginocchiata nella sua iconica tuta blu e rosa, che tiene una pistola, con un grande primo piano artistico del suo volto sullo sfondo a tema rosa con illuminazione cinematografica ed effetti di fumo.
Macchina da caffè in stile steampunk con ragazza sorridente, schizzo acquerello.
Pixel art della chibi Shiroko di Blue Archive con una spada su una griglia isometrica.
Una natura morta dettagliata con vari tipi di frutta e candele accese, generata da AI usando Stable Diffusion.
Illustrazione in stile vintage di un uomo muscoloso con capelli lunghi e fluenti in una posa eroica circondato da simboli mistici e mani spettrali, generata da AI usando stable diffusion.

Immagini con realismo

Una giovane principessa bionda con capelli intrecciati accovacciata accanto a un falò in una radura durante una festa tribale, circondata da figure sullo sfondo vicino ai falò.
Ritratto realistico di una donna con occhi verde smeraldo intensi, che indossa una corona fatta di delicati frammenti di cristallo e un abito che ricorda cascate ghiacciate, illuminata da luce rifratta blu ghiaccio e argento in una grotta glaciale buia.
Un impiegato seduto a una scrivania con la testa tra le mani, illuminato da uno schermo di portatile luminoso, circondato da pile di report e lattine di energy drink che assomigliano a calici dorati, sotto ricche tende barocche.
Un Tyrannosaurus Rex ruggente che insegue una giovane donna che cammina in una fitta giungla, raffigurato nello stile dettagliato di Sergey Krasovskiy.
Una donna che tiene una candela accesa con uno sfondo nero che illumina metà del suo volto con la calda luce della candela.
Un dipinto digitale dettagliato di un aereo militare a elica arrugginito che vola a mezz'aria sopra l'oceano, con eliche in rotazione e cabina aperta che mostra passeggeri, sotto un cielo azzurro limpido con nuvole.
Foto in primo piano di una ragazza rossa con lentiggini e occhi azzurri fra erbe alte sotto luce solare intensa, che mostra dettagli naturali accurati ed effetto grana di pellicola analogica.
Un volto femminile soprannaturale con occhi luminosi che emerge dal fogliame della giungla e piante luminescenti, una cascata luminosa scorre dalla sua bocca, arte fantasy digitale.
Ritratto ravvicinato drammatico di un uomo anziano con capelli bianchi e occhi gialli luminosi, che indossa un'armatura scura dettagliata e tiene uno scudo rotondo su uno sfondo nero solido.
Una macchina per caffè vintage arrugginita e malfunzionante che emana vapore sintetico, con un braccio robotico che si muove nervosamente, posata su un piano macchiato sotto luci fluorescenti tremolanti.