Anatra bianca scontrosa con becco arancione in piedi davanti a una scala di altezza sotto un drammatico gioco di luci, che tiene una targa nera da foto segnaletica.
Un personaggio antropomorfo di broccoli brusco in piedi in un prato piovoso sotto una nuvola di pioggia intensa con illuminazione volumetrica e superfici bagnate e lucide.
Una ragazza con capelli multicolori fluenti e occhi azzurri che indossa un abito di pizzo nero e una corona dorata, circondata da vivaci fiori in fiore in ambiente interno con illuminazione volumetrica.
Un demone geisha cyborg con un volto scheletrico luminoso, accovacciato su un ginocchio in armatura rosso sangue e mantello dorato, circondato da teschi in un giardino di un castello misterioso.
Illustrazione di un angelo con capelli grigi e un'ala che si china su un libro aperto, con un alone rosso che gocciola sopra la testa e un'aura minacciosa in stile manga.
Primo piano ritratto di una ragazza emaciata con capelli selvaggi e disordinati che coprono occhi scuri, un ampio sorriso sinistro con bocca insanguinata, collare con punte e dettagli scheletrici visibili sul petto in stile lineart.
Ritratto ravvicinato di una ragazza anime con capelli castani corti e lentiggini, che indossa un vestito verde e ali da fatina, circondata da uno sfondo notturno dettagliato e illuminato dolcemente con raggi di luce e particelle.
Una bambina piccola con capelli biondi corti e occhiali tondi, che indossa una felpa gialla e calzini a righe, seduta per terra circondata da cuscini e felci, legge un libro verde in una camera da letto accogliente con finestre rustiche e una libreria.
Dipinto a olio impressionista vibrante di un lupo blu e uno arancione contro sfondi a contrasto con effetto luminoso
Una ragazza bionda in stile anime che indossa un'uniforme militare rosa e stivali rossi è in una posizione dinamica di combattimento, puntando una pistola all'interno di un corridoio di un'astronave ad alta tecnologia con illuminazione vivida e dettagli retro futuristici.
Una giovane donna con occhi viola e un elegante abito da cocktail nero che canta appassionatamente in un microfono vintage su un palco di jazz club classico poco illuminato con luce volumetrica calda e strumenti musicali sullo sfondo.
Ragazza in stile anime con capelli neri di media lunghezza e occhi gialli che indossa una giacca blu, gonna scozzese rossa e guanti blu mentre spara con un fucile AR-15 all'interno di una stanza con finestre rotte e porta borse da viaggio piene di soldi.

Suggerimenti

Questo modello è un checkpoint fine-tuned LoRA.

L'addestramento ha utilizzato 4.000 prompt per 10 epoche.

Lo Step-by-step Preference Optimization permette miglioramenti visivi dettagliati ad ogni passo, migliorando efficacemente l'estetica.

Modelli di Diffusione Estetici Post-Addestramento da Preferenze Generiche con Step-by-step Preference

Articolo Arxiv

Codice Github

Pagina del Progetto

Abstract

Generare immagini visivamente attraenti è fondamentale per i modelli moderni di generazione testo-immagine. Una possibile soluzione per migliorare l'estetica è l'ottimizzazione diretta delle preferenze (DPO), applicata ai modelli di diffusione per migliorare la qualità generale delle immagini, incluso l'allineamento al prompt e l'estetica. I metodi DPO popolari propagano le etichette di preferenza da coppie di immagini pulite a tutti i passaggi intermedi lungo due traiettorie di generazione. Tuttavia, le etichette di preferenza presenti nei dataset esistenti sono confuse con opinioni sul layout e sull’estetica, che potrebbero non essere d'accordo con la vera preferenza estetica. Anche se le etichette estetiche fossero fornite (a costo significativo), sarebbe difficile per i metodi a due traiettorie catturare le sottili differenze visive a vari passaggi.

Per migliorare l'estetica in modo economico, questo lavoro usa dati di preferenza generici esistenti e introduce lo step-by-step preference optimization (SPO), che elimina la strategia di propagazione e permette di valutare dettagli fini dell'immagine. Specificamente, ad ogni passo di denoising, 1) campioniamo un insieme di candidati denoising da uno stesso rumore latente, 2) usiamo un modello di preferenza consapevole del passo per trovare una coppia vincente-perdente per supervisionare il modello di diffusione, e 3) selezioniamo casualmente un candidato dal pool per inizializzare il passo successivo di denoising. Questa strategia garantisce che i modelli di diffusione si concentrino sulle sottili differenze visive dettagliate anziché sull'aspetto del layout. Abbiamo riscontrato che l'estetica può essere significativamente migliorata accumulando queste differenze minori migliorate.

Durante il fine-tuning di Stable Diffusion v1.5 e SDXL, SPO fornisce miglioramenti significativi nell'estetica rispetto ai metodi DPO esistenti senza sacrificare l'allineamento immagine-testo rispetto ai modelli vanilla. Inoltre, SPO converge molto più rapidamente rispetto ai metodi DPO grazie all'allineamento passo-passo di dettagli visivi raffinati. Codice e modello: https://rockeycoss.github.io/spo.github.io/

Descrizione del Modello

Questo modello è fine-tuned da stable-diffusion-xl-base-1.0. È stato addestrato su 4.000 prompt per 10 epoche. Questo checkpoint è un checkpoint LoRA. Per ulteriori informazioni, visita qui

Citazione

Se trovi utile il nostro lavoro ti preghiamo di considerarci per una stella e di citare il nostro lavoro.

@article{liang2024step,
  title={Modelli di Diffusione Estetici Post-Addestramento da Preferenze Generiche con Step-by-step Preference Optimization},
  author={Liang, Zhanhao e Yuan, Yuhui e Gu, Shuyang e Chen, Bohan e Hang, Tiankai e Cheng, Mingxi e Li, Ji e Zheng, Liang},
  journal={arXiv preprint arXiv:2406.04314},
  year={2024}
}
Precedente
RealCartoon-XL - V7
Successivo
Artsy Vibe - v1 - FP8

Dettagli del Modello

Tipo di modello

LORA

Modello base

SDXL 1.0

Versione del modello

v1.0

Hash del modello

b6c2c16f3e

Creatore

Discussione

Per favore log in per lasciare un commento.

Collezione di Modelli - SPO-SDXL_4k-p_10ep_LoRA_webui

Immagini di SPO-SDXL_4k-p_10ep_LoRA_webui - v1.0

Immagini con modello base