Ein realistisches Fantasy-PortrĂ€t einer Frau mit honigblonden Haaren und smaragdgrĂŒnen Augen, die nach oben schaut, mit einer TrĂ€ne auf der Wange, silbernen Ohrringen und einer Halskette.
Vier neo-viktorianische Heldinnen in einem sonnenbeschienenen Dachboden-GewÀchshaus mit wirbelndem Haar und magischen Funken, vor einer Stadtkulisse mit Luftschiffen zur goldenen Stunde.

Empfohlene Parameter

steps

10 - 20

resolution

1024x1024

Tipps

Verwenden Sie die Version von Stufe C mit 3,6 Milliarden Parametern fĂŒr beste Ergebnisse, da das Haupt-Finetuning darauf erfolgte.

Verwenden Sie die Variante mit 1,5 Milliarden Parametern fĂŒr Stufe B, um bei der Rekonstruktion kleiner und feiner Details zu ĂŒberzeugen.

Das Modell eignet sich aufgrund des kleineren latenten Raums gut fĂŒr effizientes Training und Inferenz und unterstĂŒtzt Erweiterungen wie Finetuning, LoRA, ControlNet, IP-Adapter und LCM.

Das Modell ist ausschließlich fĂŒr Forschungszwecke gedacht und sollte nicht verwendet werden, um faktische Darstellungen zu erzeugen oder gegen die Nutzungsrichtlinien von Stability AI zu verstoßen.

Gesichter und Personen werden möglicherweise nicht korrekt generiert, da das Autoencoding des Modells verlustbehaftet ist.

Ersteller-Sponsoren

Demos:

Stable Cascade

Dieses Modell basiert auf der WĂŒrstchen-Architektur und unterscheidet sich hauptsĂ€chlich von anderen Modellen wie Stable Diffusion dadurch, dass es in einem deutlich kleineren latenten Raum arbeitet.

Warum ist das wichtig? Je kleiner der latente Raum, desto schneller kann die Inferenz ausgefĂŒhrt und desto kostengĂŒnstiger wird das Training.

Wie klein ist der latente Raum? Stable Diffusion verwendet einen Kompressionsfaktor von 8, wodurch ein 1024x1024 Bild auf 128x128 kodiert wird. Stable Cascade erreicht einen Kompressionsfaktor von 42, was bedeutet, dass ein 1024x1024 Bild auf 24x24 kodiert werden kann und dabei scharfe Rekonstruktionen erhalten bleiben. Das textkonditionierte Modell wird dann im hochkomprimierten latenten Raum trainiert. FrĂŒhere Versionen dieser Architektur erreichten eine Kostenreduktion um das 16-fache im Vergleich zu Stable Diffusion 1.5. <br> <br>

Daher eignet sich dieses Modell besonders fĂŒr Anwendungen, bei denen Effizienz wichtig ist. Zudem sind alle bekannten Erweiterungen wie Finetuning, LoRA, ControlNet, IP-Adapter, LCM usw. mit dieser Methode möglich.

Modelldetails

Modellbeschreibung

Stable Cascade ist ein Diffusionsmodell, das trainiert wurde, Bilder auf Basis eines Textprompts zu erzeugen.

  • Entwickelt von: Stability AI

  • Finanziert von: Stability AI

  • Modelltyp: Generatives Text-zu-Bild-Modell

Modellquellen

FĂŒr Forschungszwecke empfehlen wir unser StableCascade Github-Repository (https://github.com/Stability-AI/StableCascade).

ModellĂŒbersicht

Stable Cascade besteht aus drei Modellen: Stufe A, Stufe B und Stufe C, die zusammen eine Kaskade zur Bilderzeugung darstellen, daher der Name „Stable Cascade“.

Stufe A & B dienen der Bildkompression, Àhnlich der Funktion des VAE in Stable Diffusion.

Mit diesem Aufbau wird jedoch eine deutlich höhere Bildkompression erreicht. WĂ€hrend Stable Diffusion einen rĂ€umlichen Kompressionsfaktor von 8 verwendet und ein Bild mit der Auflösung 1024 x 1024 auf 128 x 128 kodiert, erreicht Stable Cascade einen Kompressionsfaktor von 42. Dadurch wird ein 1024 x 1024 Bild auf 24 x 24 kodiert und kann dennoch prĂ€zise dekodiert werden. Dies bietet den großen Vorteil gĂŒnstigerer Trainings- und Inferenzkosten. Stufe C ist fĂŒr die Erzeugung der kleinen 24 x 24 latenten ReprĂ€sentationen anhand eines Textprompts verantwortlich. Das folgende Bild zeigt dies visuell.

Zu dieser Veröffentlichung stellen wir zwei Checkpoints fĂŒr Stufe C, zwei fĂŒr Stufe B und einen fĂŒr Stufe A bereit. Stufe C gibt es in einer Version mit 1 Milliarde und 3,6 Milliarden Parametern; wir empfehlen jedoch dringend die 3,6 Milliarden-Version, da der Großteil des Finetunings darauf basierte. Die beiden Versionen fĂŒr Stufe B umfassen 700 Millionen und 1,5 Milliarden Parameter. Beide liefern hervorragende Ergebnisse, wobei die 1,5 Milliarden-Version besonders bei der Rekonstruktion kleiner und feiner Details ĂŒberzeugt. FĂŒr die besten Resultate empfiehlt sich also jeweils die grĂ¶ĂŸere Variante. Stufe A enthĂ€lt 20 Millionen Parameter und ist aufgrund ihrer kleinen GrĂ¶ĂŸe festgelegt.

Bewertung

Laut unserer Bewertung erzielt Stable Cascade in fast allen Vergleichen sowohl bei der Übereinstimmung mit dem Prompt als auch bei der Ă€sthetischen QualitĂ€t die besten Ergebnisse. Das obige Bild zeigt Resultate einer menschlichen Bewertung mit einer Mischung aus partiellen Prompts (Link) und Ă€sthetischen Prompts. Konkret wurde Stable Cascade (30 Inferenzschritte) gegenĂŒber Playground v2 (50 Inferenzschritte), SDXL (50 Inferenzschritte), SDXL Turbo (1 Inferenzschritt) und WĂŒrstchen v2 (30 Inferenzschritte) verglichen.

Beispielcode

⚠ Wichtig: Damit der folgende Code funktioniert, mĂŒssen Sie diffusers aus diesem Branch installieren, solange der PR in Arbeit ist.

pip install git+https://github.com/kashif/diffusers.git@wuerstchen-v3

import torch

from diffusers import StableCascadeDecoderPipeline, StableCascadePriorPipeline

device = "cuda"

num_images_per_prompt = 2

prior = StableCascadePriorPipeline.from_pretrained("stabilityai/stable-cascade-prior", torch_dtype=torch.bfloat16).to(device)

decoder = StableCascadeDecoderPipeline.from_pretrained("stabilityai/stable-cascade", torch_dtype=torch.float16).to(device)

prompt = "Anthropomorpher Kater, der als Pilot verkleidet ist"

negative_prompt = ""

prior_output = prior(

    prompt=prompt,

    height=1024,

    width=1024,

    negative_prompt=negative_prompt,

    guidance_scale=4.0,

    num_images_per_prompt=num_images_per_prompt,

    num_inference_steps=20

)

decoder_output = decoder(

    image_embeddings=prior_output.image_embeddings.half(),

    prompt=prompt,

    negative_prompt=negative_prompt,

    guidance_scale=0.0,

    output_type="pil",

    num_inference_steps=10

).images

# Jetzt ist decoder_output eine Liste Ihrer PIL-Bilder

Anwendungen

Direkte Verwendung

Das Modell ist vorerst fĂŒr Forschungszwecke gedacht. Mögliche Forschungsfelder und Aufgaben umfassen

  • Forschung an generativen Modellen.

  • Sichere Bereitstellung von Modellen, die potenziell schĂ€dliche Inhalte erzeugen können.

  • Erforschung und VerstĂ€ndnis der EinschrĂ€nkungen und Verzerrungen generativer Modelle.

  • Erzeugung von Kunstwerken und Verwendung in Design- und anderen kĂŒnstlerischen Prozessen.

  • Anwendungen in Bildungs- oder Kreativwerkzeugen.

Nicht zugelassene Verwendungen sind unten beschrieben.

Nicht erlaubte Verwendungen

Das Modell wurde nicht darauf trainiert, faktische oder wahre Darstellungen von Personen oder Ereignissen zu erzeugen,

und daher ist die Verwendung des Modells zur Generierung solcher Inhalte außerhalb dessen FĂ€higkeiten.

Das Modell darf nicht in einer Weise verwendet werden, die gegen die Nutzungsrichtlinien von Stability AI verstĂ¶ĂŸt.

EinschrÀnkungen und Verzerrungen

EinschrÀnkungen

  • Gesichter und Personen werden möglicherweise nicht richtig generiert.

  • Der autoencoding-Teil des Modells ist verlustbehaftet.

Empfehlungen

Das Modell ist ausschließlich fĂŒr Forschungszwecke vorgesehen.

Erste Schritte mit dem Modell

Besuchen Sie https://github.com/Stability-AI/StableCascade

ZurĂŒck
Midnight - v5.0
Weiter
Film-Emulation - Halation 35mm (Subtil)

Modell-Details

Modelltyp

Checkpoint

Basismodell

Stable Cascade

Modellversion

base

Modell-Hash

0d28c8562d

Ersteller

Diskussion

Bitte log in um einen Kommentar zu hinterlassen.

Bilder von Stable Cascade - Basis

Ein realistisches Fantasy-PortrĂ€t einer Frau mit honigblonden Haaren und smaragdgrĂŒnen Augen, die nach oben schaut, mit einer TrĂ€ne auf der Wange, silbernen Ohrringen und einer Halskette.
Vier neo-viktorianische Heldinnen in einem sonnenbeschienenen Dachboden-GewÀchshaus mit wirbelndem Haar und magischen Funken, vor einer Stadtkulisse mit Luftschiffen zur goldenen Stunde.

Bilder mit Anime

Eine zarte Fee, die Tinkerbell Ă€hnelt, mit filigranen durchscheinenden FlĂŒgeln, die friedlich auf lebendigen Blumen schlĂ€ft, gekleidet in ein detailliertes grĂŒnes Outfit.
Y'shtola Rhul aus Final Fantasy XIV trÀgt ein schwarzes Àrmelloses chinesisches Kleid mit Katzenohren und Schwanz, vor einem nÀchtlichen Hintergrund mit hÀngenden Laternen.
Ein futuristisches Sci-Fi-Kloster und eine Stadt, die in steile Felsen einer ĂŒppigen Schlucht mit einem Fluss darunter gebaut sind, mit einer Flugmaschine und einer einsamen Frau, die eine dĂŒnne BrĂŒcke ĂŒberquert.
Ein lebhafter Ara, der auf einem Ast im tropischen Regenwald sitzt, mit weichen Pastelltönen und hohem Kontrast im Anime-Stil.
Ein MÀdchen mit schönen Augen und Pony sitzt im Gras, Sonnenlicht und Blattschatten verschlingen sich auf ihr und dem Boden.
PortrĂ€t eines retro-futuristischen MĂ€dchens mit langen lockigen Haaren, leuchtend hellen Augen, trĂ€gt detaillierte RĂŒstung und leuchtende Edelstein-Ohrringe bei Mondschein in der Nacht.
Anime-PortrÀt eines MÀdchens mit langen blauen Haaren und schönen Augen, im Sonnenlicht badend, wobei Herbstlaub komplexe Schatten auf ihre gebrÀunte Haut wirft.
Anime-Stil Ă€gyptische Frau kniet in der WĂŒste, mit brauner Haut, weißen Haaren, roten Augen, trĂ€gt ein weißes Gewand und einen Ă€gyptischen Kragen, Sonnenstrahl im Hintergrund.
Anime-MĂ€dchen mit kurzen Haaren, das nachts in einem blauen Blumenfeld steht, mit einem leuchtenden blauen Licht und einer Galaxie am Himmel, Stadtlichtern in der Ferne.
Ein stilisiertes Anime-MĂ€dchen mit langem schwarzen Haar und auffĂ€lligen grĂŒnen Augen, das ein schwarzes Outfit und Oberschenkel hohe StrĂŒmpfe mit roten BlumentĂ€towierungen trĂ€gt und ein Katana vor einem roten Hintergrund hĂ€lt.

Bilder mit Kunst

Nahaufnahme eines abstrakten PortrÀts mit einem Gesicht mit geschlossenen Augen, erstellt mit dreifarbiger Tinte und explosiven Pinselstrichen, Spritzern in Orange, Blau, Rot und Schwarz, die emotionale IntensitÀt und chaotische Energie vermitteln.
Hochdetaillierte digitale Illustration eines Mandrill-Kopfes mit leuchtend rotem Gesicht, gelben Augen, komplexen schwarz-weißen Mustern und gefiederter Fellstruktur auf schwarzem Hintergrund.
Eine rot-schwarze Skizze eines Drachens, der nachts im Regen ĂŒber einer Person schwebt.
Abstraktes AcrylgemĂ€lde eines Goldfischs unter Wasser mit auffĂ€lligen roten, weißen und schwarzen Farben auf dunklem Hintergrund
PortrĂ€t eines entschlossenen MilitĂ€rkommandeurs mit rotem Haar und blauen Augen, der eine elegante, goldakzentuierte Marineuniform trĂ€gt, die Napoleonische Ära und Cyberpunk-Stile verbindet, stehend in einer rauchigen urbanen Festung.
Ein detailliertes PortrÀt einer sommersprossigen elfenhaften Hemomancer-Frau mit scharlachroter Kapuze und GewÀndern, blutroten Augen und komplexen magischen Symbolen, die in einer dunklen Waldhöhle wirbeln.
Silhouette einer Frau vor einem beigefarbenen Hintergrund mit lebhaften, farbenfrohen, fraktalÀhnlichen Farbspritzern in Rot, Gelb, Blau, Orange und Violett um sie herum.
Stilvolle Frau trĂ€gt ein schwarzes Leder-Bralette und hochtaillierte, weit geschnittene Hose, steht selbstbewusst mit ausgestreckten Armen. Sie hat lang geflochtenes Haar und leuchtend grĂŒne Plateau-AbsĂ€tze. Der Hintergrund zeigt grĂŒne Töne mit Schattenmustern.
Minimalistisches flaches Vektorbild, das die Silhouette einer schlanken Frau zeigt, die am Strand von Cap Canaille, SĂŒdfrankreich, entlanggeht, mit einem großen blauen Himmel voller weißer Wolken und Kondensstreifen ĂŒber der KĂŒste der CĂŽte d'Azur.
Silhouette einer Frau mit Kleid aus Goldfolie, stehend in einem See mit einem riesigen goldenen Mond im Hintergrund, eingebettet in eine asiatische Landschaft.

Bilder mit Basismodell

Fotorealistische Szene untoter Charaktere, darunter Zombies und Skelette, die durch einen unheimlichen Friedhof gehen, beleuchtet von leuchtenden Jack-O'-Lanterns unter einem dunklen, bedrohlichen Himmel.

Bilder mit logo

Illustration einer großen tintenfischĂ€hnlichen humanoiden Figur mit einem gestreiften Mitarbeiterhemd, die hinter einem Ladentresen steht, der mit Instant-Nudel-Bechern und verschiedenen GegenstĂ€nden gefĂŒllt ist, gezeichnet mit detaillierter linearer Schraffur und erdigen Farbtönen.
D.Va Charakter aus Overwatch kniet in ihrem charakteristischen blau-pinken Bodysuit, hĂ€lt eine Handfeuerwaffe, vor einem großformatigen kĂŒnstlerischen Nahaufnahme-Hintergrund mit rosa Thema und cineastischer Beleuchtung sowie Raucheffekten.
Kaffeemaschine im Steampunk-Stil mit lÀchelndem MÀdchen, Aquarell-Skizze.
Pixelkunst von Chibi Shiroko aus Blue Archive mit einem Schwert auf einem isometrischen Raster.
Ein detailliertes Stillleben mit verschiedenen FrĂŒchten und brennenden Kerzen, KI-generiert mit Stable Diffusion.
Vintage-Stil Illustration eines muskulösen Mannes mit langem, fließendem Haar in heroischer Pose, umgeben von mystischen Symbolen und geisterhaften HĂ€nden, KI-generiert mit Stable Diffusion.

Bilder mit Realismus

Ein ruhiger Hund mit flauschigem goldenem Fell schlĂ€ft friedlich auf dem hölzernen Deck eines Segelbootes bei Sonnenuntergang ĂŒber einem ruhigen Ozean.
Realistische Darstellung des PokĂ©mon Haunter, das ĂŒber einem schlafenden Mann schwebt und seine TrĂ€ume mit dunkelvioletter Energie aufsaugt.
Luxuriöses privates Anwesen mit Blick auf das Meer, geschwungener skulpturaler Architektur, Infinity-Pool und Sonnenuntergangsblick
Eine junge blonde Prinzessin mit geflochtenem Haar, die sich wÀhrend eines Stammesfests neben einem Lagerfeuer in einer Waldlichtung duckt, umgeben von Figuren im Hintergrund nahe den Lagerfeuern.
Realistische Darstellung einer Frau mit auffĂ€lligen smaragdgrĂŒnen Augen, die eine Krone aus feinen Kristallsplittern trĂ€gt und ein Kleid, das gefrorenen WasserfĂ€llen Ă€hnelt, beleuchtet von gebrochenem eisblauem und silbernem Licht in einer dunklen Gletscherhöhle.
Ein BĂŒroangestellter sitzt an einem Schreibtisch mit dem Kopf in den HĂ€nden, beleuchtet von einem leuchtenden Laptop-Bildschirm, umgeben von Stapeln von Berichten und Energy-Drink-Dosen, die goldenen Kelchen Ă€hneln, unter luxuriösen barocken VorhĂ€ngen.
Ein brĂŒllender Tyrannosaurus Rex jagt eine junge Frau, die durch einen dichten Dschungel geht, dargestellt im detaillierten Stil von Sergey Krasovskiy.
Eine Frau hÀlt eine brennende Kerze vor einem pechschwarzen Hintergrund, wobei warmes Kerzenlicht die HÀlfte ihres Gesichts beleuchtet.
Ein detailliertes digitales GemĂ€lde eines verrosteten militĂ€rischen Propellerflugzeugs, das mitten in der Luft ĂŒber dem Ozean fliegt, mit drehenden Propellern und einem offenen Cockpit, das Passagiere zeigt, unter klarem blauem Himmel mit Wolken.
Nahaufnahmefoto eines rothaarigen MĂ€dchens mit Sommersprossen und blauen Augen, das zwischen hohen GrĂ€sern im intensiven Sonnenlicht steht und detaillierte natĂŒrliche Merkmale mit analogem Filmkorn-Effekt zeigt.