Ein dramatisches Bild einer Krähe, die mit ausgebreiteten Flügeln fliegt und feurige orangefarbene Federn vor einem stimmungsvollen Himmelhintergrund zeigt.
Ein robotischer Terminator, bedeckt mit Würfelmustern, steht auf einem leuchtenden Lavaboden, umgeben von verstreuten Würfeln in einer surrealistischen höllischen Höhle.
Schwarz-weiß Nahaufnahme weiblicher, leicht geöffneter Lippen mit sichtbaren Zähnen, überlagert von abstrakten Interferenzmustern.
Schwarz-weiß-Stadtbild zeigt Silhouetten von Menschen, die durch eine neblige urbane Umgebung mit hohen Gebäuden im Hintergrund gehen.
Nahaufnahme eines neugierigen Aliens mit großen reflektierenden Augen, detaillierter Alien-Hautstruktur, stehend zwischen außerirdischer Flora mit Bergen im Hintergrund unter Weitwinkelobjektiv- und Filmkorn-Effekt.
Nahaufnahme eines hochdetaillierten Alien-Gesichts mit großen reflektierenden Augen, die eine außerirdische Landschaft zeigen, aufgenommen von einer interstellaren Sonde mit Filmkorn-Effekt.
Ein hyperrealistisches Porträt einer skulpturalen jungen rothaarigen Frau mit lockigem Haar, im Freien in einem traumhaften Panorama mit unscharfem, kargem Hintergrund.
Hyperrealistisches Nahaufnahmebild eines grünen Auges umgeben von Sommersprossen, mit rotem Ingwerhaar und schwarz bemalten Lippen.
Porträt einer Frau mit langen roten Haaren, Sommersprossen auf weißer Haut, hellgrünen Augen, schwarzen Lippen und filigranen Details in einem hyperrealistischen Stil.

Empfohlene Parameter

resolution

525x525

Tipps

Das Modell ist für Forschungszwecke vorgesehen, einschließlich der Generierung von Kunstwerken, Bildungstools und sicherer Bereitstellung.

Es ist nicht darauf ausgelegt, faktische oder wahrheitsgetreue Darstellungen von Personen oder Ereignissen zu erzeugen.

Einschränkungen umfassen unvollkommene Fotorealität, Unfähigkeit zur Darstellung lesbaren Textes, Herausforderungen bei zusammengesetzten Prompts und mögliche falsche Gesichtsgenerierung.

Das Modell verwendet zwei vortrainierte Text-Encoder: OpenCLIP-ViT/G und CLIP-ViT/L.

Die zweistufige Pipeline umfasst die basale Latent-Erzeugung gefolgt von einer Hochauflösungsverfeinerung mittels SDEdit (img2img).

Ersteller-Sponsoren

Ursprünglich auf Hugging Face veröffentlicht und hier mit Erlaubnis von Stability AI geteilt.

Ursprünglich auf Hugging Face veröffentlicht und hier mit Erlaubnis von Stability AI geteilt.

SDXL besteht aus einer zweistufigen Pipeline für latente Diffusion: Zuerst verwenden wir ein Basismodell, um Latents der gewünschten Ausgabengröße zu erzeugen. Im zweiten Schritt nutzen wir ein spezialisiertes Hochauflösungsmodell und wenden eine Technik namens SDEdit (https://arxiv.org/abs/2108.01073, auch bekannt als "img2img") auf die im ersten Schritt erzeugten Latents unter Verwendung desselben Prompts an.

Modellbeschreibung

  • Entwickelt von: Stability AI

  • Modelltyp: Diffusionsbasiertes Text-zu-Bild-Generativmodell

  • Modellbeschreibung: Dies ist ein Modell, das verwendet werden kann, um Bilder basierend auf Text-Prompts zu erzeugen und zu modifizieren. Es ist ein Latent Diffusion Model, das zwei feste, vortrainierte Text-Encoder verwendet (OpenCLIP-ViT/G und CLIP-ViT/L).

  • Ressourcen für weitere Informationen: GitHub Repository.

Modellquellen

Anwendungsbereiche

Direkte Verwendung

Das Modell ist ausschließlich für Forschungszwecke vorgesehen. Mögliche Forschungsgebiete und Aufgaben umfassen

  • Generierung von Kunstwerken und Verwendung in Design- und anderen künstlerischen Prozessen.

  • Anwendungen in Bildungs- oder Kreativtools.

  • Forschung zu generativen Modellen.

  • Sichere Bereitstellung von Modellen, die potenziell schädliche Inhalte erzeugen können.

  • Untersuchung und Verständnis der Grenzen und Verzerrungen generativer Modelle.

Ausgeschlossene Verwendungen werden unten beschrieben.

Nicht abgedeckte Verwendungen

Das Modell wurde nicht darauf trainiert, faktische oder wahrheitsgetreue Darstellungen von Personen oder Ereignissen zu erzeugen, daher liegt die Nutzung des Modells zur Erzeugung solcher Inhalte außerhalb des Anwendungsbereichs dieses Modells.

Einschränkungen und Verzerrungen

Einschränkungen

  • Das Modell erreicht keine perfekte Fotorealität

  • Das Modell kann keinen lesbaren Text darstellen

  • Das Modell hat Schwierigkeiten bei komplexeren Aufgaben, die Kompositionalität erfordern, wie z. B. die Darstellung eines Bildes, das „ein roter Würfel auf einer blauen Kugel“ zeigt

  • Gesichter und Personen im Allgemeinen werden möglicherweise nicht korrekt generiert.

  • Der Autoencoding-Teil des Modells ist verlustbehaftet.

Verzerrungen

Obwohl die Fähigkeiten von Bildgenerierungsmodellen beeindruckend sind, können sie soziale Vorurteile verstärken oder verschärfen.

Die obige Grafik bewertet die Nutzerpräferenz für SDXL (mit und ohne Verfeinerung) gegenüber Stable Diffusion 1.5 und 2.1. Das SDXL Basismodell schneidet deutlich besser ab als die vorherigen Varianten, und das Modell in Kombination mit dem Verfeinerungsmodul erzielt die beste Gesamtleistung.

Zurück
epiCPhotoGasm - V1
Weiter
IlluQuaint - v0.3

Modell-Details

Modelltyp

Checkpoint

Basismodell

SDXL 1.0

Modellversion

v1.0

Modell-Hash

31e35c80fc

Diskussion

Bitte log in um einen Kommentar zu hinterlassen.

Bilder von SD XL - v1.0

Bilder mit Basismodell

Bilder mit offiziell

Bilder mit sdxl

Bilder mit stability ai