Ein realistisches Fantasy-Porträt einer Frau mit honigblonden Haaren und smaragdgrünen Augen, die nach oben schaut, mit einer Träne auf der Wange, silbernen Ohrringen und einer Halskette.
Vier neo-viktorianische Heldinnen in einem sonnenbeschienenen Dachboden-Gewächshaus mit wirbelndem Haar und magischen Funken, vor einer Stadtkulisse mit Luftschiffen zur goldenen Stunde.

Empfohlene Parameter

steps

10 - 20

resolution

1024x1024

Tipps

Verwenden Sie die Version von Stufe C mit 3,6 Milliarden Parametern für beste Ergebnisse, da das Haupt-Finetuning darauf erfolgte.

Verwenden Sie die Variante mit 1,5 Milliarden Parametern für Stufe B, um bei der Rekonstruktion kleiner und feiner Details zu überzeugen.

Das Modell eignet sich aufgrund des kleineren latenten Raums gut für effizientes Training und Inferenz und unterstützt Erweiterungen wie Finetuning, LoRA, ControlNet, IP-Adapter und LCM.

Das Modell ist ausschließlich für Forschungszwecke gedacht und sollte nicht verwendet werden, um faktische Darstellungen zu erzeugen oder gegen die Nutzungsrichtlinien von Stability AI zu verstoßen.

Gesichter und Personen werden möglicherweise nicht korrekt generiert, da das Autoencoding des Modells verlustbehaftet ist.

Ersteller-Sponsoren

Demos:

Stable Cascade

Dieses Modell basiert auf der Würstchen-Architektur und unterscheidet sich hauptsächlich von anderen Modellen wie Stable Diffusion dadurch, dass es in einem deutlich kleineren latenten Raum arbeitet.

Warum ist das wichtig? Je kleiner der latente Raum, desto schneller kann die Inferenz ausgeführt und desto kostengünstiger wird das Training.

Wie klein ist der latente Raum? Stable Diffusion verwendet einen Kompressionsfaktor von 8, wodurch ein 1024x1024 Bild auf 128x128 kodiert wird. Stable Cascade erreicht einen Kompressionsfaktor von 42, was bedeutet, dass ein 1024x1024 Bild auf 24x24 kodiert werden kann und dabei scharfe Rekonstruktionen erhalten bleiben. Das textkonditionierte Modell wird dann im hochkomprimierten latenten Raum trainiert. Frühere Versionen dieser Architektur erreichten eine Kostenreduktion um das 16-fache im Vergleich zu Stable Diffusion 1.5. <br> <br>

Daher eignet sich dieses Modell besonders für Anwendungen, bei denen Effizienz wichtig ist. Zudem sind alle bekannten Erweiterungen wie Finetuning, LoRA, ControlNet, IP-Adapter, LCM usw. mit dieser Methode möglich.

Modelldetails

Modellbeschreibung

Stable Cascade ist ein Diffusionsmodell, das trainiert wurde, Bilder auf Basis eines Textprompts zu erzeugen.

  • Entwickelt von: Stability AI

  • Finanziert von: Stability AI

  • Modelltyp: Generatives Text-zu-Bild-Modell

Modellquellen

Für Forschungszwecke empfehlen wir unser StableCascade Github-Repository (https://github.com/Stability-AI/StableCascade).

Modellübersicht

Stable Cascade besteht aus drei Modellen: Stufe A, Stufe B und Stufe C, die zusammen eine Kaskade zur Bilderzeugung darstellen, daher der Name „Stable Cascade“.

Stufe A & B dienen der Bildkompression, ähnlich der Funktion des VAE in Stable Diffusion.

Mit diesem Aufbau wird jedoch eine deutlich höhere Bildkompression erreicht. Während Stable Diffusion einen räumlichen Kompressionsfaktor von 8 verwendet und ein Bild mit der Auflösung 1024 x 1024 auf 128 x 128 kodiert, erreicht Stable Cascade einen Kompressionsfaktor von 42. Dadurch wird ein 1024 x 1024 Bild auf 24 x 24 kodiert und kann dennoch präzise dekodiert werden. Dies bietet den großen Vorteil günstigerer Trainings- und Inferenzkosten. Stufe C ist für die Erzeugung der kleinen 24 x 24 latenten Repräsentationen anhand eines Textprompts verantwortlich. Das folgende Bild zeigt dies visuell.

Zu dieser Veröffentlichung stellen wir zwei Checkpoints für Stufe C, zwei für Stufe B und einen für Stufe A bereit. Stufe C gibt es in einer Version mit 1 Milliarde und 3,6 Milliarden Parametern; wir empfehlen jedoch dringend die 3,6 Milliarden-Version, da der Großteil des Finetunings darauf basierte. Die beiden Versionen für Stufe B umfassen 700 Millionen und 1,5 Milliarden Parameter. Beide liefern hervorragende Ergebnisse, wobei die 1,5 Milliarden-Version besonders bei der Rekonstruktion kleiner und feiner Details überzeugt. Für die besten Resultate empfiehlt sich also jeweils die größere Variante. Stufe A enthält 20 Millionen Parameter und ist aufgrund ihrer kleinen Größe festgelegt.

Bewertung

Laut unserer Bewertung erzielt Stable Cascade in fast allen Vergleichen sowohl bei der Übereinstimmung mit dem Prompt als auch bei der ästhetischen Qualität die besten Ergebnisse. Das obige Bild zeigt Resultate einer menschlichen Bewertung mit einer Mischung aus partiellen Prompts (Link) und ästhetischen Prompts. Konkret wurde Stable Cascade (30 Inferenzschritte) gegenüber Playground v2 (50 Inferenzschritte), SDXL (50 Inferenzschritte), SDXL Turbo (1 Inferenzschritt) und Würstchen v2 (30 Inferenzschritte) verglichen.

Beispielcode

⚠️ Wichtig: Damit der folgende Code funktioniert, müssen Sie diffusers aus diesem Branch installieren, solange der PR in Arbeit ist.

pip install git+https://github.com/kashif/diffusers.git@wuerstchen-v3

import torch

from diffusers import StableCascadeDecoderPipeline, StableCascadePriorPipeline

device = "cuda"

num_images_per_prompt = 2

prior = StableCascadePriorPipeline.from_pretrained("stabilityai/stable-cascade-prior", torch_dtype=torch.bfloat16).to(device)

decoder = StableCascadeDecoderPipeline.from_pretrained("stabilityai/stable-cascade", torch_dtype=torch.float16).to(device)

prompt = "Anthropomorpher Kater, der als Pilot verkleidet ist"

negative_prompt = ""

prior_output = prior(

    prompt=prompt,

    height=1024,

    width=1024,

    negative_prompt=negative_prompt,

    guidance_scale=4.0,

    num_images_per_prompt=num_images_per_prompt,

    num_inference_steps=20

)

decoder_output = decoder(

    image_embeddings=prior_output.image_embeddings.half(),

    prompt=prompt,

    negative_prompt=negative_prompt,

    guidance_scale=0.0,

    output_type="pil",

    num_inference_steps=10

).images

# Jetzt ist decoder_output eine Liste Ihrer PIL-Bilder

Anwendungen

Direkte Verwendung

Das Modell ist vorerst für Forschungszwecke gedacht. Mögliche Forschungsfelder und Aufgaben umfassen

  • Forschung an generativen Modellen.

  • Sichere Bereitstellung von Modellen, die potenziell schädliche Inhalte erzeugen können.

  • Erforschung und Verständnis der Einschränkungen und Verzerrungen generativer Modelle.

  • Erzeugung von Kunstwerken und Verwendung in Design- und anderen künstlerischen Prozessen.

  • Anwendungen in Bildungs- oder Kreativwerkzeugen.

Nicht zugelassene Verwendungen sind unten beschrieben.

Nicht erlaubte Verwendungen

Das Modell wurde nicht darauf trainiert, faktische oder wahre Darstellungen von Personen oder Ereignissen zu erzeugen,

und daher ist die Verwendung des Modells zur Generierung solcher Inhalte außerhalb dessen Fähigkeiten.

Das Modell darf nicht in einer Weise verwendet werden, die gegen die Nutzungsrichtlinien von Stability AI verstößt.

Einschränkungen und Verzerrungen

Einschränkungen

  • Gesichter und Personen werden möglicherweise nicht richtig generiert.

  • Der autoencoding-Teil des Modells ist verlustbehaftet.

Empfehlungen

Das Modell ist ausschließlich für Forschungszwecke vorgesehen.

Erste Schritte mit dem Modell

Besuchen Sie https://github.com/Stability-AI/StableCascade

Zurück
Midnight - v5.0
Weiter
Film-Emulation - Halation 35mm (Subtil)

Modell-Details

Modelltyp

Checkpoint

Basismodell

Stable Cascade

Modellversion

base

Modell-Hash

0d28c8562d

Ersteller

Diskussion

Bitte log in um einen Kommentar zu hinterlassen.

Bilder von Stable Cascade - Basis

Ein realistisches Fantasy-Porträt einer Frau mit honigblonden Haaren und smaragdgrünen Augen, die nach oben schaut, mit einer Träne auf der Wange, silbernen Ohrringen und einer Halskette.
Vier neo-viktorianische Heldinnen in einem sonnenbeschienenen Dachboden-Gewächshaus mit wirbelndem Haar und magischen Funken, vor einer Stadtkulisse mit Luftschiffen zur goldenen Stunde.

Bilder mit Anime

Anime-Stil ägyptische Frau kniet in der Wüste, mit brauner Haut, weißen Haaren, roten Augen, trägt ein weißes Gewand und einen ägyptischen Kragen, Sonnenstrahl im Hintergrund.
Anime-Mädchen mit kurzen Haaren, das nachts in einem blauen Blumenfeld steht, mit einem leuchtenden blauen Licht und einer Galaxie am Himmel, Stadtlichtern in der Ferne.
Ein stilisiertes Anime-Mädchen mit langem schwarzen Haar und auffälligen grünen Augen, das ein schwarzes Outfit und Oberschenkel hohe Strümpfe mit roten Blumentätowierungen trägt und ein Katana vor einem roten Hintergrund hält.
Eine dramatische Steampunk-Kampfszene mit Luftschiffen, die über einer Stadtsilhouette schweben, Roboter und dampfbetriebene Exoskelette kämpfen auf der Straße, während eine Explosion das Zentrum unter stürmischem Himmel erleuchtet.
Ein lächelndes Fuchs-Mädchen mit blondem Haar, gelben Augen, Fuchsohren und Fuchsschwanz, das einen bunten Kimono mit Fellbesatz und traditionellen Haarschmuck trägt und vor einem Torii-Tor steht.
Anime-Mädchen mit lila-blauem Haar in einem rosa China-Kleid sitzt auf einem türkisfarbenen Sofa und hält Tabletts mit Getränken in einem Café.
Anime-Stil blondes Mädchen trägt ein weißes Sommerkleid und einen großen Sonnenhut mit Sonnenblumendekoration, steht glücklich in einem Sonnenblumenfeld bei Sonnenuntergang mit erhobenen Armen.
Eine selbstbewusste Frau mit kurzem weißen Haar und durchdringenden blauen Augen trägt einen ärmellosen schwarzen Rollkragenpullover, schwarze Hose und fingerlose Handschuhe und steht in einer schwach beleuchteten urbanen Gasse unter einem sternenklaren Nachthimmel.
Blonde Frau in schwarzer und goldener Helldiver-Rüstung mit Ausschnitt, Oberschenkelstiefeln, hält einen Helm, blaue Augen und ein leichtes Lächeln
Anime-Mädchen mit rotem Zopf, trägt eine marineblaue Schuluniform mit goldener Einfassung, sitzt mit gespreizten Beinen, blickt mit roten Augen den Betrachter an und trägt rote Bänder und Ohrringe.

Bilder mit Kunst

Nahaufnahme eines abstrakten Porträts mit einem Gesicht mit geschlossenen Augen, erstellt mit dreifarbiger Tinte und explosiven Pinselstrichen, Spritzern in Orange, Blau, Rot und Schwarz, die emotionale Intensität und chaotische Energie vermitteln.
Hochdetaillierte digitale Illustration eines Mandrill-Kopfes mit leuchtend rotem Gesicht, gelben Augen, komplexen schwarz-weißen Mustern und gefiederter Fellstruktur auf schwarzem Hintergrund.
Eine rot-schwarze Skizze eines Drachens, der nachts im Regen über einer Person schwebt.
Abstraktes Acrylgemälde eines Goldfischs unter Wasser mit auffälligen roten, weißen und schwarzen Farben auf dunklem Hintergrund
Porträt eines entschlossenen Militärkommandeurs mit rotem Haar und blauen Augen, der eine elegante, goldakzentuierte Marineuniform trägt, die Napoleonische Ära und Cyberpunk-Stile verbindet, stehend in einer rauchigen urbanen Festung.
Ein detailliertes Porträt einer sommersprossigen elfenhaften Hemomancer-Frau mit scharlachroter Kapuze und Gewändern, blutroten Augen und komplexen magischen Symbolen, die in einer dunklen Waldhöhle wirbeln.
Silhouette einer Frau vor einem beigefarbenen Hintergrund mit lebhaften, farbenfrohen, fraktalähnlichen Farbspritzern in Rot, Gelb, Blau, Orange und Violett um sie herum.
Stilvolle Frau trägt ein schwarzes Leder-Bralette und hochtaillierte, weit geschnittene Hose, steht selbstbewusst mit ausgestreckten Armen. Sie hat lang geflochtenes Haar und leuchtend grüne Plateau-Absätze. Der Hintergrund zeigt grüne Töne mit Schattenmustern.
Minimalistisches flaches Vektorbild, das die Silhouette einer schlanken Frau zeigt, die am Strand von Cap Canaille, Südfrankreich, entlanggeht, mit einem großen blauen Himmel voller weißer Wolken und Kondensstreifen über der Küste der Côte d'Azur.
Silhouette einer Frau mit Kleid aus Goldfolie, stehend in einem See mit einem riesigen goldenen Mond im Hintergrund, eingebettet in eine asiatische Landschaft.

Bilder mit Basismodell

Fotorealistische Szene untoter Charaktere, darunter Zombies und Skelette, die durch einen unheimlichen Friedhof gehen, beleuchtet von leuchtenden Jack-O'-Lanterns unter einem dunklen, bedrohlichen Himmel.

Bilder mit logo

Illustration einer großen tintenfischähnlichen humanoiden Figur mit einem gestreiften Mitarbeiterhemd, die hinter einem Ladentresen steht, der mit Instant-Nudel-Bechern und verschiedenen Gegenständen gefüllt ist, gezeichnet mit detaillierter linearer Schraffur und erdigen Farbtönen.
D.Va Charakter aus Overwatch kniet in ihrem charakteristischen blau-pinken Bodysuit, hält eine Handfeuerwaffe, vor einem großformatigen künstlerischen Nahaufnahme-Hintergrund mit rosa Thema und cineastischer Beleuchtung sowie Raucheffekten.
Kaffeemaschine im Steampunk-Stil mit lächelndem Mädchen, Aquarell-Skizze.
Pixelkunst von Chibi Shiroko aus Blue Archive mit einem Schwert auf einem isometrischen Raster.
Ein detailliertes Stillleben mit verschiedenen Früchten und brennenden Kerzen, KI-generiert mit Stable Diffusion.
Vintage-Stil Illustration eines muskulösen Mannes mit langem, fließendem Haar in heroischer Pose, umgeben von mystischen Symbolen und geisterhaften Händen, KI-generiert mit Stable Diffusion.

Bilder mit Realismus

Eine junge blonde Prinzessin mit geflochtenem Haar, die sich während eines Stammesfests neben einem Lagerfeuer in einer Waldlichtung duckt, umgeben von Figuren im Hintergrund nahe den Lagerfeuern.
Realistische Darstellung einer Frau mit auffälligen smaragdgrünen Augen, die eine Krone aus feinen Kristallsplittern trägt und ein Kleid, das gefrorenen Wasserfällen ähnelt, beleuchtet von gebrochenem eisblauem und silbernem Licht in einer dunklen Gletscherhöhle.
Ein Büroangestellter sitzt an einem Schreibtisch mit dem Kopf in den Händen, beleuchtet von einem leuchtenden Laptop-Bildschirm, umgeben von Stapeln von Berichten und Energy-Drink-Dosen, die goldenen Kelchen ähneln, unter luxuriösen barocken Vorhängen.
Ein brüllender Tyrannosaurus Rex jagt eine junge Frau, die durch einen dichten Dschungel geht, dargestellt im detaillierten Stil von Sergey Krasovskiy.
Eine Frau hält eine brennende Kerze vor einem pechschwarzen Hintergrund, wobei warmes Kerzenlicht die Hälfte ihres Gesichts beleuchtet.
Ein detailliertes digitales Gemälde eines verrosteten militärischen Propellerflugzeugs, das mitten in der Luft über dem Ozean fliegt, mit drehenden Propellern und einem offenen Cockpit, das Passagiere zeigt, unter klarem blauem Himmel mit Wolken.
Nahaufnahmefoto eines rothaarigen Mädchens mit Sommersprossen und blauen Augen, das zwischen hohen Gräsern im intensiven Sonnenlicht steht und detaillierte natürliche Merkmale mit analogem Filmkorn-Effekt zeigt.
Ein übernatürliches weibliches Gesicht mit leuchtenden Augen, das aus dem Dschungelfoliage und leuchtenden Pflanzen auftaucht, ein leuchtender Wasserfall fließt aus ihrem Mund, digitale Fantasy-Kunst.
Dramatisches Nahaufnahme-Porträt eines älteren Mannes mit weißen Haaren und leuchtend gelben Augen, der eine detaillierte dunkle Rüstung trägt und einen runden Schild vor einem einfarbigen schwarzen Hintergrund hält.
Eine verrostete und fehlerhafte Vintage-Kaffeemaschine, die synthetischen Dampf abgibt, mit einem zuckenden Roboterarm, die auf einer befleckten Arbeitsplatte unter flackernden Leuchtstofflampen steht.