Ein dramatisches Bild einer Krähe, die mit ausgebreiteten Flügeln fliegt und feurige orangefarbene Federn vor einem stimmungsvollen Himmelhintergrund zeigt.
Ein robotischer Terminator, bedeckt mit Würfelmustern, steht auf einem leuchtenden Lavaboden, umgeben von verstreuten Würfeln in einer surrealistischen höllischen Höhle.
Schwarz-weiß Nahaufnahme weiblicher, leicht geöffneter Lippen mit sichtbaren Zähnen, überlagert von abstrakten Interferenzmustern.
Schwarz-weiß-Stadtbild zeigt Silhouetten von Menschen, die durch eine neblige urbane Umgebung mit hohen Gebäuden im Hintergrund gehen.
Nahaufnahme eines neugierigen Aliens mit großen reflektierenden Augen, detaillierter Alien-Hautstruktur, stehend zwischen außerirdischer Flora mit Bergen im Hintergrund unter Weitwinkelobjektiv- und Filmkorn-Effekt.
Nahaufnahme eines hochdetaillierten Alien-Gesichts mit großen reflektierenden Augen, die eine außerirdische Landschaft zeigen, aufgenommen von einer interstellaren Sonde mit Filmkorn-Effekt.
Ein hyperrealistisches Porträt einer skulpturalen jungen rothaarigen Frau mit lockigem Haar, im Freien in einem traumhaften Panorama mit unscharfem, kargem Hintergrund.
Hyperrealistisches Nahaufnahmebild eines grünen Auges umgeben von Sommersprossen, mit rotem Ingwerhaar und schwarz bemalten Lippen.
Porträt einer Frau mit langen roten Haaren, Sommersprossen auf weißer Haut, hellgrünen Augen, schwarzen Lippen und filigranen Details in einem hyperrealistischen Stil.

Empfohlene Parameter

resolution

525x525

Tipps

Das Modell ist für Forschungszwecke vorgesehen, einschließlich der Generierung von Kunstwerken, Bildungstools und sicherer Bereitstellung.

Es ist nicht darauf ausgelegt, faktische oder wahrheitsgetreue Darstellungen von Personen oder Ereignissen zu erzeugen.

Einschränkungen umfassen unvollkommene Fotorealität, Unfähigkeit zur Darstellung lesbaren Textes, Herausforderungen bei zusammengesetzten Prompts und mögliche falsche Gesichtsgenerierung.

Das Modell verwendet zwei vortrainierte Text-Encoder: OpenCLIP-ViT/G und CLIP-ViT/L.

Die zweistufige Pipeline umfasst die basale Latent-Erzeugung gefolgt von einer Hochauflösungsverfeinerung mittels SDEdit (img2img).

Ersteller-Sponsoren

Ursprünglich auf Hugging Face veröffentlicht und hier mit Erlaubnis von Stability AI geteilt.

Ursprünglich auf Hugging Face veröffentlicht und hier mit Erlaubnis von Stability AI geteilt.

SDXL besteht aus einer zweistufigen Pipeline für latente Diffusion: Zuerst verwenden wir ein Basismodell, um Latents der gewünschten Ausgabengröße zu erzeugen. Im zweiten Schritt nutzen wir ein spezialisiertes Hochauflösungsmodell und wenden eine Technik namens SDEdit (https://arxiv.org/abs/2108.01073, auch bekannt als "img2img") auf die im ersten Schritt erzeugten Latents unter Verwendung desselben Prompts an.

Modellbeschreibung

  • Entwickelt von: Stability AI

  • Modelltyp: Diffusionsbasiertes Text-zu-Bild-Generativmodell

  • Modellbeschreibung: Dies ist ein Modell, das verwendet werden kann, um Bilder basierend auf Text-Prompts zu erzeugen und zu modifizieren. Es ist ein Latent Diffusion Model, das zwei feste, vortrainierte Text-Encoder verwendet (OpenCLIP-ViT/G und CLIP-ViT/L).

  • Ressourcen für weitere Informationen: GitHub Repository.

Modellquellen

Anwendungsbereiche

Direkte Verwendung

Das Modell ist ausschließlich für Forschungszwecke vorgesehen. Mögliche Forschungsgebiete und Aufgaben umfassen

  • Generierung von Kunstwerken und Verwendung in Design- und anderen künstlerischen Prozessen.

  • Anwendungen in Bildungs- oder Kreativtools.

  • Forschung zu generativen Modellen.

  • Sichere Bereitstellung von Modellen, die potenziell schädliche Inhalte erzeugen können.

  • Untersuchung und Verständnis der Grenzen und Verzerrungen generativer Modelle.

Ausgeschlossene Verwendungen werden unten beschrieben.

Nicht abgedeckte Verwendungen

Das Modell wurde nicht darauf trainiert, faktische oder wahrheitsgetreue Darstellungen von Personen oder Ereignissen zu erzeugen, daher liegt die Nutzung des Modells zur Erzeugung solcher Inhalte außerhalb des Anwendungsbereichs dieses Modells.

Einschränkungen und Verzerrungen

Einschränkungen

  • Das Modell erreicht keine perfekte Fotorealität

  • Das Modell kann keinen lesbaren Text darstellen

  • Das Modell hat Schwierigkeiten bei komplexeren Aufgaben, die Kompositionalität erfordern, wie z. B. die Darstellung eines Bildes, das „ein roter Würfel auf einer blauen Kugel“ zeigt

  • Gesichter und Personen im Allgemeinen werden möglicherweise nicht korrekt generiert.

  • Der Autoencoding-Teil des Modells ist verlustbehaftet.

Verzerrungen

Obwohl die Fähigkeiten von Bildgenerierungsmodellen beeindruckend sind, können sie soziale Vorurteile verstärken oder verschärfen.

Die obige Grafik bewertet die Nutzerpräferenz für SDXL (mit und ohne Verfeinerung) gegenüber Stable Diffusion 1.5 und 2.1. Das SDXL Basismodell schneidet deutlich besser ab als die vorherigen Varianten, und das Modell in Kombination mit dem Verfeinerungsmodul erzielt die beste Gesamtleistung.

Zurück
epiCPhotoGasm - V1
Weiter
IlluQuaint - v0.3

Modell-Details

Modelltyp

Checkpoint

Basismodell

SDXL 1.0

Modellversion

v1.0

Modell-Hash

31e35c80fc

Diskussion

Bitte log in um einen Kommentar zu hinterlassen.

Bilder von SD XL - v1.0

Ein dramatisches Bild einer Krähe, die mit ausgebreiteten Flügeln fliegt und feurige orangefarbene Federn vor einem stimmungsvollen Himmelhintergrund zeigt.
Ein robotischer Terminator, bedeckt mit Würfelmustern, steht auf einem leuchtenden Lavaboden, umgeben von verstreuten Würfeln in einer surrealistischen höllischen Höhle.
Schwarz-weiß Nahaufnahme weiblicher, leicht geöffneter Lippen mit sichtbaren Zähnen, überlagert von abstrakten Interferenzmustern.
Schwarz-weiß-Stadtbild zeigt Silhouetten von Menschen, die durch eine neblige urbane Umgebung mit hohen Gebäuden im Hintergrund gehen.
Nahaufnahme eines neugierigen Aliens mit großen reflektierenden Augen, detaillierter Alien-Hautstruktur, stehend zwischen außerirdischer Flora mit Bergen im Hintergrund unter Weitwinkelobjektiv- und Filmkorn-Effekt.
Nahaufnahme eines hochdetaillierten Alien-Gesichts mit großen reflektierenden Augen, die eine außerirdische Landschaft zeigen, aufgenommen von einer interstellaren Sonde mit Filmkorn-Effekt.
Ein hyperrealistisches Porträt einer skulpturalen jungen rothaarigen Frau mit lockigem Haar, im Freien in einem traumhaften Panorama mit unscharfem, kargem Hintergrund.
Hyperrealistisches Nahaufnahmebild eines grünen Auges umgeben von Sommersprossen, mit rotem Ingwerhaar und schwarz bemalten Lippen.
Porträt einer Frau mit langen roten Haaren, Sommersprossen auf weißer Haut, hellgrünen Augen, schwarzen Lippen und filigranen Details in einem hyperrealistischen Stil.

Bilder mit Basismodell

Fotorealistische Szene untoter Charaktere, darunter Zombies und Skelette, die durch einen unheimlichen Friedhof gehen, beleuchtet von leuchtenden Jack-O'-Lanterns unter einem dunklen, bedrohlichen Himmel.

Bilder mit offiziell

Ein hyperdetailliertes Porträt einer weiblichen Kriegerin mit dunkelblauem Haar und hypnotisierenden gelben Augen, die eine leuchtende goldene Kugel in goldener Rüstung unter kinoreifer Beleuchtung hält.

Bilder mit sdxl

Ein detaillierter Drache mit metallischem Glanz und komplexen pulsierenden roten und blauen Ais-Vesselz-Adern, die seinen Körper bedecken.
Eine verlassene Stadtlandschaft mit zerfallenden Gebäuden, die von pulsierenden roten Ais-Vesselz umschlungen und verflochten sind, Straßen mit viskoser roter Flüssigkeit bedeckt.
Nahaufnahme eines Roboter-Drachenkopfs mit blauer Panzerung, hervorgehoben durch himmlische Funkeln und scharfes Cel-Shading vor einer Stadtsilhouette bei Dämmerung.

Bilder mit stability ai

Anime-Stil blondes Mädchen trägt ein weißes Sommerkleid und einen großen Sonnenhut mit Sonnenblumendekoration, steht glücklich in einem Sonnenblumenfeld bei Sonnenuntergang mit erhobenen Armen.
Ffixgarnet-Charakter mit langem schwarzen Haar und braunen Augen, trägt einen orangen, gekreuzt geschnürten Bodysuit mit weißen, bauschigen Ärmeln und roten Handschuhen, klettert eine hölzerne Seilleiter vor blauem Himmel, errötet und schaut zurück
Anime-Charakter mit pinkem Haar und feurigen Flügeln, der in einer dynamischen Pose hockt vor einem lila und dunklen Fantasie-Hintergrund mit scharfen, zerklüfteten Felsen.
Nahansicht mehrerer schwarzer, strukturierter Kugeln, die vor einem dunklen kosmischen Hintergrund mit bunten, traumhaften Bokeh-Lichtern schweben.
Eine Nahaufnahme eines Cyborgs mit mattschwarzem, gesichtslosen Helm, langem schwarzen Haar und aufwendig gestalteter rot-schwarzer Rüstung, die in einer dunklen Stimmung schwach rot leuchtet.
Krieger-Magd mit grünen Zwillingszöpfen, die eine Stangenwaffe mit Kreissäge in einer schwach beleuchteten Roboterfabrik mit mechanischen Teilen und Kabeln schwingt, Blutspritzer auf dem Boden.