Stable Cascade - Basis
Empfohlene Parameter
steps
resolution
Tipps
Verwenden Sie die Version von Stufe C mit 3,6 Milliarden Parametern fĂŒr beste Ergebnisse, da das Haupt-Finetuning darauf erfolgte.
Verwenden Sie die Variante mit 1,5 Milliarden Parametern fĂŒr Stufe B, um bei der Rekonstruktion kleiner und feiner Details zu ĂŒberzeugen.
Das Modell eignet sich aufgrund des kleineren latenten Raums gut fĂŒr effizientes Training und Inferenz und unterstĂŒtzt Erweiterungen wie Finetuning, LoRA, ControlNet, IP-Adapter und LCM.
Das Modell ist ausschlieĂlich fĂŒr Forschungszwecke gedacht und sollte nicht verwendet werden, um faktische Darstellungen zu erzeugen oder gegen die Nutzungsrichtlinien von Stability AI zu verstoĂen.
Gesichter und Personen werden möglicherweise nicht korrekt generiert, da das Autoencoding des Modells verlustbehaftet ist.
Ersteller-Sponsoren
Demos:
- multimodalart: https://hf.co/spaces/multimodalart/stable-cascade
- ehristoforu: https://hf.co/spaces/ehristoforu/Stable-Cascade
Demos:
multimodalart: https://hf.co/spaces/multimodalart/stable-cascade
ehristoforu: https://hf.co/spaces/ehristoforu/Stable-Cascade
Stable Cascade
Dieses Modell basiert auf der WĂŒrstchen-Architektur und unterscheidet sich hauptsĂ€chlich von anderen Modellen wie Stable Diffusion dadurch, dass es in einem deutlich kleineren latenten Raum arbeitet.
Warum ist das wichtig? Je kleiner der latente Raum, desto schneller kann die Inferenz ausgefĂŒhrt und desto kostengĂŒnstiger wird das Training.
Wie klein ist der latente Raum? Stable Diffusion verwendet einen Kompressionsfaktor von 8, wodurch ein 1024x1024 Bild auf 128x128 kodiert wird. Stable Cascade erreicht einen Kompressionsfaktor von 42, was bedeutet, dass ein 1024x1024 Bild auf 24x24 kodiert werden kann und dabei scharfe Rekonstruktionen erhalten bleiben. Das textkonditionierte Modell wird dann im hochkomprimierten latenten Raum trainiert. FrĂŒhere Versionen dieser Architektur erreichten eine Kostenreduktion um das 16-fache im Vergleich zu Stable Diffusion 1.5. <br> <br>
Daher eignet sich dieses Modell besonders fĂŒr Anwendungen, bei denen Effizienz wichtig ist. Zudem sind alle bekannten Erweiterungen wie Finetuning, LoRA, ControlNet, IP-Adapter, LCM usw. mit dieser Methode möglich.
Modelldetails
Modellbeschreibung
Stable Cascade ist ein Diffusionsmodell, das trainiert wurde, Bilder auf Basis eines Textprompts zu erzeugen.
Entwickelt von: Stability AI
Finanziert von: Stability AI
Modelltyp: Generatives Text-zu-Bild-Modell
Modellquellen
FĂŒr Forschungszwecke empfehlen wir unser StableCascade Github-Repository (https://github.com/Stability-AI/StableCascade).
Repository: https://github.com/Stability-AI/StableCascade
ModellĂŒbersicht
Stable Cascade besteht aus drei Modellen: Stufe A, Stufe B und Stufe C, die zusammen eine Kaskade zur Bilderzeugung darstellen, daher der Name âStable Cascadeâ.
Stufe A & B dienen der Bildkompression, Àhnlich der Funktion des VAE in Stable Diffusion.
Mit diesem Aufbau wird jedoch eine deutlich höhere Bildkompression erreicht. WĂ€hrend Stable Diffusion einen rĂ€umlichen Kompressionsfaktor von 8 verwendet und ein Bild mit der Auflösung 1024 x 1024 auf 128 x 128 kodiert, erreicht Stable Cascade einen Kompressionsfaktor von 42. Dadurch wird ein 1024 x 1024 Bild auf 24 x 24 kodiert und kann dennoch prĂ€zise dekodiert werden. Dies bietet den groĂen Vorteil gĂŒnstigerer Trainings- und Inferenzkosten. Stufe C ist fĂŒr die Erzeugung der kleinen 24 x 24 latenten ReprĂ€sentationen anhand eines Textprompts verantwortlich. Das folgende Bild zeigt dies visuell.

Zu dieser Veröffentlichung stellen wir zwei Checkpoints fĂŒr Stufe C, zwei fĂŒr Stufe B und einen fĂŒr Stufe A bereit. Stufe C gibt es in einer Version mit 1 Milliarde und 3,6 Milliarden Parametern; wir empfehlen jedoch dringend die 3,6 Milliarden-Version, da der GroĂteil des Finetunings darauf basierte. Die beiden Versionen fĂŒr Stufe B umfassen 700 Millionen und 1,5 Milliarden Parameter. Beide liefern hervorragende Ergebnisse, wobei die 1,5 Milliarden-Version besonders bei der Rekonstruktion kleiner und feiner Details ĂŒberzeugt. FĂŒr die besten Resultate empfiehlt sich also jeweils die gröĂere Variante. Stufe A enthĂ€lt 20 Millionen Parameter und ist aufgrund ihrer kleinen GröĂe festgelegt.
Bewertung

Laut unserer Bewertung erzielt Stable Cascade in fast allen Vergleichen sowohl bei der Ăbereinstimmung mit dem Prompt als auch bei der Ă€sthetischen QualitĂ€t die besten Ergebnisse. Das obige Bild zeigt Resultate einer menschlichen Bewertung mit einer Mischung aus partiellen Prompts (Link) und Ă€sthetischen Prompts. Konkret wurde Stable Cascade (30 Inferenzschritte) gegenĂŒber Playground v2 (50 Inferenzschritte), SDXL (50 Inferenzschritte), SDXL Turbo (1 Inferenzschritt) und WĂŒrstchen v2 (30 Inferenzschritte) verglichen.
Beispielcode
â ïž Wichtig: Damit der folgende Code funktioniert, mĂŒssen Sie diffusers aus diesem Branch installieren, solange der PR in Arbeit ist.
pip install git+https://github.com/kashif/diffusers.git@wuerstchen-v3import torch
from diffusers import StableCascadeDecoderPipeline, StableCascadePriorPipeline
device = "cuda"
num_images_per_prompt = 2
prior = StableCascadePriorPipeline.from_pretrained("stabilityai/stable-cascade-prior", torch_dtype=torch.bfloat16).to(device)
decoder = StableCascadeDecoderPipeline.from_pretrained("stabilityai/stable-cascade", torch_dtype=torch.float16).to(device)
prompt = "Anthropomorpher Kater, der als Pilot verkleidet ist"
negative_prompt = ""
prior_output = prior(
prompt=prompt,
height=1024,
width=1024,
negative_prompt=negative_prompt,
guidance_scale=4.0,
num_images_per_prompt=num_images_per_prompt,
num_inference_steps=20
)
decoder_output = decoder(
image_embeddings=prior_output.image_embeddings.half(),
prompt=prompt,
negative_prompt=negative_prompt,
guidance_scale=0.0,
output_type="pil",
num_inference_steps=10
).images
# Jetzt ist decoder_output eine Liste Ihrer PIL-BilderAnwendungen
Direkte Verwendung
Das Modell ist vorerst fĂŒr Forschungszwecke gedacht. Mögliche Forschungsfelder und Aufgaben umfassen
Forschung an generativen Modellen.
Sichere Bereitstellung von Modellen, die potenziell schÀdliche Inhalte erzeugen können.
Erforschung und VerstÀndnis der EinschrÀnkungen und Verzerrungen generativer Modelle.
Erzeugung von Kunstwerken und Verwendung in Design- und anderen kĂŒnstlerischen Prozessen.
Anwendungen in Bildungs- oder Kreativwerkzeugen.
Nicht zugelassene Verwendungen sind unten beschrieben.
Nicht erlaubte Verwendungen
Das Modell wurde nicht darauf trainiert, faktische oder wahre Darstellungen von Personen oder Ereignissen zu erzeugen,
und daher ist die Verwendung des Modells zur Generierung solcher Inhalte auĂerhalb dessen FĂ€higkeiten.
Das Modell darf nicht in einer Weise verwendet werden, die gegen die Nutzungsrichtlinien von Stability AI verstöĂt.
EinschrÀnkungen und Verzerrungen
EinschrÀnkungen
Gesichter und Personen werden möglicherweise nicht richtig generiert.
Der autoencoding-Teil des Modells ist verlustbehaftet.
Empfehlungen
Das Modell ist ausschlieĂlich fĂŒr Forschungszwecke vorgesehen.
Erste Schritte mit dem Modell
Besuchen Sie https://github.com/Stability-AI/StableCascade
Modell-Details
Modelltyp
Basismodell
Modellversion
Modell-Hash
Ersteller
Diskussion
Bitte log in um einen Kommentar zu hinterlassen.




