SPO-SDXL_4k-p_10ep_LoRA_webui - v1.0
Suggerimenti
Questo modello è un checkpoint fine-tuned LoRA.
L'addestramento ha utilizzato 4.000 prompt per 10 epoche.
Lo Step-by-step Preference Optimization permette miglioramenti visivi dettagliati ad ogni passo, migliorando efficacemente l'estetica.
Modelli di Diffusione Estetici Post-Addestramento da Preferenze Generiche con Step-by-step Preference
Abstract
Generare immagini visivamente attraenti è fondamentale per i modelli moderni di generazione testo-immagine. Una possibile soluzione per migliorare l'estetica è l'ottimizzazione diretta delle preferenze (DPO), applicata ai modelli di diffusione per migliorare la qualità generale delle immagini, incluso l'allineamento al prompt e l'estetica. I metodi DPO popolari propagano le etichette di preferenza da coppie di immagini pulite a tutti i passaggi intermedi lungo due traiettorie di generazione. Tuttavia, le etichette di preferenza presenti nei dataset esistenti sono confuse con opinioni sul layout e sull’estetica, che potrebbero non essere d'accordo con la vera preferenza estetica. Anche se le etichette estetiche fossero fornite (a costo significativo), sarebbe difficile per i metodi a due traiettorie catturare le sottili differenze visive a vari passaggi.
Per migliorare l'estetica in modo economico, questo lavoro usa dati di preferenza generici esistenti e introduce lo step-by-step preference optimization (SPO), che elimina la strategia di propagazione e permette di valutare dettagli fini dell'immagine. Specificamente, ad ogni passo di denoising, 1) campioniamo un insieme di candidati denoising da uno stesso rumore latente, 2) usiamo un modello di preferenza consapevole del passo per trovare una coppia vincente-perdente per supervisionare il modello di diffusione, e 3) selezioniamo casualmente un candidato dal pool per inizializzare il passo successivo di denoising. Questa strategia garantisce che i modelli di diffusione si concentrino sulle sottili differenze visive dettagliate anziché sull'aspetto del layout. Abbiamo riscontrato che l'estetica può essere significativamente migliorata accumulando queste differenze minori migliorate.
Durante il fine-tuning di Stable Diffusion v1.5 e SDXL, SPO fornisce miglioramenti significativi nell'estetica rispetto ai metodi DPO esistenti senza sacrificare l'allineamento immagine-testo rispetto ai modelli vanilla. Inoltre, SPO converge molto più rapidamente rispetto ai metodi DPO grazie all'allineamento passo-passo di dettagli visivi raffinati. Codice e modello: https://rockeycoss.github.io/spo.github.io/
Descrizione del Modello
Questo modello è fine-tuned da stable-diffusion-xl-base-1.0. È stato addestrato su 4.000 prompt per 10 epoche. Questo checkpoint è un checkpoint LoRA. Per ulteriori informazioni, visita qui
Citazione
Se trovi utile il nostro lavoro ti preghiamo di considerarci per una stella e di citare il nostro lavoro.
@article{liang2024step,
title={Modelli di Diffusione Estetici Post-Addestramento da Preferenze Generiche con Step-by-step Preference Optimization},
author={Liang, Zhanhao e Yuan, Yuhui e Gu, Shuyang e Chen, Bohan e Hang, Tiankai e Cheng, Mingxi e Li, Ji e Zheng, Liang},
journal={arXiv preprint arXiv:2406.04314},
year={2024}
}Dettagli del Modello
Tipo di modello
Modello base
Versione del modello
Hash del modello
Creatore
Discussione
Per favore log in per lasciare un commento.
