Grimmige weiße Ente mit orangefarbenem Schnabel vor einer Größenanzeige unter dramatischem Spotlight, hält ein schwarzes Steckbrief-Schild.
Ein griesgrämiger anthropomorpher Brokkoli-Charakter steht auf einer regnerischen Wiese unter einer dicken Regenwolke mit volumetrischer Beleuchtung und nassen, glänzenden Oberflächen.
Ein Mädchen mit wehenden, mehrfarbigen Haaren und blauen Augen, das ein schwarzes Spitzenkleid und eine goldene Krone trägt, umgeben von lebendigen blühenden Blumen in Innenräumen mit volumetrischer Beleuchtung.
Ein Cyborg-Geisha-Dämon mit leuchtendem skelettartigem Gesicht, der auf einem Knie in blutroter Rüstung und goldenem Umhang hockt, umgeben von Schädeln in einem geheimnisvollen Schlossgarten.
Illustration eines Engels mit grauen Haaren und einem Flügel, der sich über ein offenes Buch lehnt, mit einem tropfenden roten Heiligenschein über dem Kopf und einer bedrohlichen Aura im Manga-Stil.
Nahaufnahme eines mageren Mädchens mit wildem, zerzaustem Haar, das dunkle Augen bedeckt, einem breiten unheimlichen Lächeln mit blutigem Mund, Stachelhalsband und sichtbaren skelettierten Brustdetails im Lineart-Stil.
Nahaufnahme eines Anime-Mädchens mit kurzen braunen Haaren und Sommersprossen, das ein grünes Kleid und Feenflügel trägt, umgeben von einem detaillierten, sanft beleuchteten nächtlichen Hintergrund mit Lichtstrahlen und Partikeln.
Ein kleines Mädchen mit kurzen blonden Haaren und runden Brillen, trägt einen gelben Hoodie und gestreifte Socken, sitzt auf dem Boden umgeben von Kissen und Farnen und liest ein grünes Buch in einem gemütlichen Schlafzimmer mit rustikalen Fenstern und einem Bücherregal.
Lebendiges impressionistisches Ölgemälde eines blauen und eines orangefarbenen Wolfs, silhouettiert vor kontrastierenden Hintergründen mit Leuchteffekt
Ein Anime-ähnliches blondes Mädchen trägt eine rosa Militäruniform und rote Stiefel, befindet sich in einer dynamischen Kampfhaltung und zielt mit einer Waffe in einem hochmodernen Raumschiff-Korridor mit lebendiger Beleuchtung und retro-futuristischen Details.
Eine junge Frau mit violetten Augen und einem schwarzen glamourösen Cocktailkleid, die leidenschaftlich in ein Vintage-Mikrofon auf einer schwach beleuchteten klassischen Jazzclub-Bühne mit warmer volumetrischer Beleuchtung und Musikinstrumenten im Hintergrund singt.
Anime-Stil Mädchen mit schwarzen mittellangen Haaren und gelben Augen, trägt eine blaue Jacke, roten karierten Rock und blaue Handschuhe, feuert ein AR-15-Gewehr in einem Zimmer mit zerbrochenen Fenstern und trägt Reisetaschen voller Geld.

Tipps

Dieses Modell ist ein LoRA feinabgestimmter Checkpoint.

Das Training verwendete 4.000 Prompts für 10 Epochen.

Step-by-step Preference Optimization ermöglicht feingranulare visuelle Verbesserungen bei jedem Schritt und verbessert so effektiv die Ästhetik.

Ästhetische Post-Training-Diffusionsmodelle aus generischen Präferenzen mit Step-by-step Preference

Arxiv-Paper

Github-Code

Projektseite

Zusammenfassung

Visuell ansprechende Bilder zu erzeugen ist grundlegend für moderne Text-zu-Bild-Generierungsmodelle. Eine mögliche Lösung für bessere Ästhetik ist die direkte Präferenzoptimierung (DPO), die bei Diffusionsmodellen angewendet wird, um die allgemeine Bildqualität einschließlich Prompt-Übereinstimmung und Ästhetik zu verbessern. Beliebte DPO-Methoden übertragen Präferenzlabels von sauberen Bildpaaren auf alle Zwischenschritte entlang der zwei Generierungstrajektorien. Allerdings sind Präferenzlabels in bestehenden Datensätzen mit Layout- und ästhetischen Meinungen vermischt, was nicht mit ästhetischer Präferenz übereinstimmt. Selbst wenn ästhetische Labels (mit hohen Kosten) zur Verfügung stünden, wäre es schwer für die Zwei-Trajektorien-Methoden, feine visuelle Unterschiede in verschiedenen Schritten zu erfassen.

Um Ästhetik wirtschaftlich zu verbessern, verwendet dieses Paper vorhandene generische Präferenzdaten und führt Step-by-step Preference Optimization (SPO) ein, die die Propagationsstrategie verwirft und die Bewertung feiner Bilddetails ermöglicht. Konkret: Bei jedem Denoising-Schritt 1) wird ein Kandidatenpool durch Denoising von einem gemeinsamen verrauschten latenten Zustand gesampelt, 2) ein schrittbewusstes Präferenzmodell findet ein geeignetes Gewinn-Verlust-Paar zur Überwachung des Diffusionsmodells, und 3) ein zufälliger Kandidat aus dem Pool wird zur Initialisierung des nächsten Denoising-Schritts gewählt. Diese Strategie stellt sicher, dass Diffusionsmodelle sich auf subtile, feine visuelle Unterschiede anstatt auf Layout-Aspekte konzentrieren. Wir stellen fest, dass Ästhetik durch das Akkumulieren dieser verbesserten kleinen Unterschiede deutlich gesteigert werden kann.

Beim Feinabstimmen von Stable Diffusion v1.5 und SDXL erzielt SPO erhebliche Verbesserungen der Ästhetik im Vergleich zu bestehenden DPO-Methoden, ohne die Bild-Text-Übereinstimmung gegenüber den Vanilla-Modellen zu beeinträchtigen. Zudem konvergiert SPO aufgrund der schrittweisen Ausrichtung feiner visueller Details wesentlich schneller als DPO-Methoden. Code und Modell: https://rockeycoss.github.io/spo.github.io/

Modellbeschreibung

Dieses Modell ist feinabgestimmt von stable-diffusion-xl-base-1.0. Es wurde mit 4.000 Prompts für 10 Epochen trainiert. Dieser Checkpoint ist ein LoRA-Checkpoint. Für weitere Informationen besuchen Sie bitte hier

Zitierung

Wenn Sie unsere Arbeit nützlich finden, erwägen Sie bitte uns einen Stern zu geben und unsere Arbeit zu zitieren.

@article{liang2024step,
  title={Ästhetische Post-Training-Diffusionsmodelle aus generischen Präferenzen mit Step-by-step Preference Optimization},
  author={Liang, Zhanhao und Yuan, Yuhui und Gu, Shuyang und Chen, Bohan und Hang, Tiankai und Cheng, Mingxi und Li, Ji und Zheng, Liang},
  journal={arXiv preprint arXiv:2406.04314},
  year={2024}
}
Zurück
RealCartoon-XL - V7
Weiter
Artsy Vibe - v1 - FP8

Modell-Details

Modelltyp

LORA

Basismodell

SDXL 1.0

Modellversion

v1.0

Modell-Hash

b6c2c16f3e

Ersteller

Diskussion

Bitte log in um einen Kommentar zu hinterlassen.

Modellsammlung - SPO-SDXL_4k-p_10ep_LoRA_webui

Bilder von SPO-SDXL_4k-p_10ep_LoRA_webui - v1.0

Bilder mit Basismodell