SPO-SDXL_4k-p_10ep_LoRA_webui - v1.0
Tipps
Dieses Modell ist ein LoRA feinabgestimmter Checkpoint.
Das Training verwendete 4.000 Prompts für 10 Epochen.
Step-by-step Preference Optimization ermöglicht feingranulare visuelle Verbesserungen bei jedem Schritt und verbessert so effektiv die Ästhetik.
Ästhetische Post-Training-Diffusionsmodelle aus generischen Präferenzen mit Step-by-step Preference
Zusammenfassung
Visuell ansprechende Bilder zu erzeugen ist grundlegend für moderne Text-zu-Bild-Generierungsmodelle. Eine mögliche Lösung für bessere Ästhetik ist die direkte Präferenzoptimierung (DPO), die bei Diffusionsmodellen angewendet wird, um die allgemeine Bildqualität einschließlich Prompt-Übereinstimmung und Ästhetik zu verbessern. Beliebte DPO-Methoden übertragen Präferenzlabels von sauberen Bildpaaren auf alle Zwischenschritte entlang der zwei Generierungstrajektorien. Allerdings sind Präferenzlabels in bestehenden Datensätzen mit Layout- und ästhetischen Meinungen vermischt, was nicht mit ästhetischer Präferenz übereinstimmt. Selbst wenn ästhetische Labels (mit hohen Kosten) zur Verfügung stünden, wäre es schwer für die Zwei-Trajektorien-Methoden, feine visuelle Unterschiede in verschiedenen Schritten zu erfassen.
Um Ästhetik wirtschaftlich zu verbessern, verwendet dieses Paper vorhandene generische Präferenzdaten und führt Step-by-step Preference Optimization (SPO) ein, die die Propagationsstrategie verwirft und die Bewertung feiner Bilddetails ermöglicht. Konkret: Bei jedem Denoising-Schritt 1) wird ein Kandidatenpool durch Denoising von einem gemeinsamen verrauschten latenten Zustand gesampelt, 2) ein schrittbewusstes Präferenzmodell findet ein geeignetes Gewinn-Verlust-Paar zur Überwachung des Diffusionsmodells, und 3) ein zufälliger Kandidat aus dem Pool wird zur Initialisierung des nächsten Denoising-Schritts gewählt. Diese Strategie stellt sicher, dass Diffusionsmodelle sich auf subtile, feine visuelle Unterschiede anstatt auf Layout-Aspekte konzentrieren. Wir stellen fest, dass Ästhetik durch das Akkumulieren dieser verbesserten kleinen Unterschiede deutlich gesteigert werden kann.
Beim Feinabstimmen von Stable Diffusion v1.5 und SDXL erzielt SPO erhebliche Verbesserungen der Ästhetik im Vergleich zu bestehenden DPO-Methoden, ohne die Bild-Text-Übereinstimmung gegenüber den Vanilla-Modellen zu beeinträchtigen. Zudem konvergiert SPO aufgrund der schrittweisen Ausrichtung feiner visueller Details wesentlich schneller als DPO-Methoden. Code und Modell: https://rockeycoss.github.io/spo.github.io/
Modellbeschreibung
Dieses Modell ist feinabgestimmt von stable-diffusion-xl-base-1.0. Es wurde mit 4.000 Prompts für 10 Epochen trainiert. Dieser Checkpoint ist ein LoRA-Checkpoint. Für weitere Informationen besuchen Sie bitte hier
Zitierung
Wenn Sie unsere Arbeit nützlich finden, erwägen Sie bitte uns einen Stern zu geben und unsere Arbeit zu zitieren.
@article{liang2024step,
title={Ästhetische Post-Training-Diffusionsmodelle aus generischen Präferenzen mit Step-by-step Preference Optimization},
author={Liang, Zhanhao und Yuan, Yuhui und Gu, Shuyang und Chen, Bohan und Hang, Tiankai und Cheng, Mingxi und Li, Ji und Zheng, Liang},
journal={arXiv preprint arXiv:2406.04314},
year={2024}
}Modell-Details
Diskussion
Bitte log in um einen Kommentar zu hinterlassen.
