modelle/SD XL - v1.0

SD XL - v1.0

Anna Müller

7/8/2025

2:09:45 PM

| Discussion|

Empfohlene Parameter

resolution

525x525

Tipps

Das Modell ist für Forschungszwecke vorgesehen, einschließlich der Generierung von Kunstwerken, Bildungstools und sicherer Bereitstellung.

Es ist nicht darauf ausgelegt, faktische oder wahrheitsgetreue Darstellungen von Personen oder Ereignissen zu erzeugen.

Einschränkungen umfassen unvollkommene Fotorealität, Unfähigkeit zur Darstellung lesbaren Textes, Herausforderungen bei zusammengesetzten Prompts und mögliche falsche Gesichtsgenerierung.

Das Modell verwendet zwei vortrainierte Text-Encoder: OpenCLIP-ViT/G und CLIP-ViT/L.

Die zweistufige Pipeline umfasst die basale Latent-Erzeugung gefolgt von einer Hochauflösungsverfeinerung mittels SDEdit (img2img).

Ersteller-Sponsoren

Ursprünglich auf Hugging Face veröffentlicht und hier mit Erlaubnis von Stability AI geteilt.

SDXL besteht aus einer zweistufigen Pipeline für latente Diffusion: Zuerst verwenden wir ein Basismodell, um Latents der gewünschten Ausgabengröße zu erzeugen. Im zweiten Schritt nutzen wir ein spezialisiertes Hochauflösungsmodell und wenden eine Technik namens SDEdit (https://arxiv.org/abs/2108.01073, auch bekannt als "img2img") auf die im ersten Schritt erzeugten Latents unter Verwendung desselben Prompts an.

Modellbeschreibung

Entwickelt von: Stability AI
Modelltyp: Diffusionsbasiertes Text-zu-Bild-Generativmodell
Modellbeschreibung: Dies ist ein Modell, das verwendet werden kann, um Bilder basierend auf Text-Prompts zu erzeugen und zu modifizieren. Es ist ein Latent Diffusion Model, das zwei feste, vortrainierte Text-Encoder verwendet (OpenCLIP-ViT/G und CLIP-ViT/L).
Ressourcen für weitere Informationen: GitHub Repository.

Modellquellen

Repository: https://github.com/Stability-AI/generative-models
Demo [optional]: https://clipdrop.co/stable-diffusion

Anwendungsbereiche

Direkte Verwendung

Das Modell ist ausschließlich für Forschungszwecke vorgesehen. Mögliche Forschungsgebiete und Aufgaben umfassen

Generierung von Kunstwerken und Verwendung in Design- und anderen künstlerischen Prozessen.
Anwendungen in Bildungs- oder Kreativtools.
Forschung zu generativen Modellen.
Sichere Bereitstellung von Modellen, die potenziell schädliche Inhalte erzeugen können.
Untersuchung und Verständnis der Grenzen und Verzerrungen generativer Modelle.

Ausgeschlossene Verwendungen werden unten beschrieben.

Nicht abgedeckte Verwendungen

Das Modell wurde nicht darauf trainiert, faktische oder wahrheitsgetreue Darstellungen von Personen oder Ereignissen zu erzeugen, daher liegt die Nutzung des Modells zur Erzeugung solcher Inhalte außerhalb des Anwendungsbereichs dieses Modells.

Einschränkungen und Verzerrungen

Einschränkungen

Das Modell erreicht keine perfekte Fotorealität
Das Modell kann keinen lesbaren Text darstellen
Das Modell hat Schwierigkeiten bei komplexeren Aufgaben, die Kompositionalität erfordern, wie z. B. die Darstellung eines Bildes, das „ein roter Würfel auf einer blauen Kugel“ zeigt
Gesichter und Personen im Allgemeinen werden möglicherweise nicht korrekt generiert.
Der Autoencoding-Teil des Modells ist verlustbehaftet.

Verzerrungen

Obwohl die Fähigkeiten von Bildgenerierungsmodellen beeindruckend sind, können sie soziale Vorurteile verstärken oder verschärfen.

Die obige Grafik bewertet die Nutzerpräferenz für SDXL (mit und ohne Verfeinerung) gegenüber Stable Diffusion 1.5 und 2.1. Das SDXL Basismodell schneidet deutlich besser ab als die vorherigen Varianten, und das Modell in Kombination mit dem Verfeinerungsmodul erzielt die beste Gesamtleistung.

Mitwirkende

Anna Müller

Hallo! Ich bin Anna Müller und kuratiere seit über zehn Jahren digitale Fotogalerien. Mein geschultes Auge für Farbe und Komposition bringt jede KI-Kreation zum Strahlen.

Zurück

epiCPhotoGasm - V1

Weiter

IlluQuaint - v0.3

Dieses Modell verwenden