modèles/SPO-SDXL_4k-p_10ep_LoRA_webui - v1.0

SPO-SDXL_4k-p_10ep_LoRA_webui - v1.0

7/12/2025

2:05:26 AM

Mots-clés et tags associés

génération d'image esthétique,modèle de base,optimisation directe des préférences,lora,point de contrôle lora,rockeycoss,sdxl 1.0,spo-diffusion,spo-sdxl_4k-p_10ep_lora_webui,stable diffusion xl,optimisation progressive des préférences,v1.0

Canard blanc grincheux au bec orange debout devant un tableau de taille sous un éclairage dramatique, tenant une plaque noire de photo d'identité.

Un personnage de brocoli anthropomorphe grincheux debout dans une prairie pluvieuse sous un nuage de pluie intense avec éclairage volumétrique et surfaces humides et brillantes.

Une fille aux cheveux multicolores fluides et yeux bleus portant une robe en dentelle noire et une couronne dorée, entourée de fleurs éclatantes en intérieur avec un éclairage volumétrique.

Un démon geisha cyborg avec un visage squelettique lumineux, accroupi sur un genou en armure rouge sang et une cape dorée, entouré de crânes dans le jardin d'un château mystérieux.

Illustration d'un ange aux cheveux gris et à une aile, penché sur un livre ouvert, avec un halo rouge dégoulinant au-dessus de sa tête et une aura menaçante de style manga.

Portrait en gros plan d'une fille maigre aux cheveux sauvages et désordonnés couvrant des yeux sombres, un large sourire sinistre avec une bouche ensanglantée, un collier à pointes et des détails visibles du thorax squelettique en style lineart.

Portrait en gros plan d'une fille d'anime aux cheveux bruns courts et aux taches de rousseur, portant une robe verte et des ailes de fée, entourée d'un arrière-plan nocturne détaillé et doucement éclairé avec des rayons de lumière et des particules.

Une petite fille aux cheveux blonds courts et aux lunettes rondes, portant un sweat à capuche jaune et des chaussettes rayées, assise par terre entourée de coussins et de fougères, lisant un livre vert dans une chambre cosy avec des fenêtres rustiques et une bibliothèque.

Peinture à l'huile impressionniste vibrante d'un loup bleu et d'un loup orange en silhouette sur des arrière-plans contrastés avec effet de lueur

Une fille blonde de style anime portant un uniforme militaire rose et des bottes rouges est dans une posture de combat dynamique, visant avec une arme dans un couloir de vaisseau spatial high-tech avec un éclairage vif et des détails rétro futuristes.

Une jeune femme aux yeux violets et portant une robe cocktail noire glamour chantant passionnément dans un microphone vintage sur une scène de club de jazz classique faiblement éclairée avec un éclairage volumétrique chaud et des instruments de musique en arrière-plan.

Fille style anime aux cheveux noirs mi-longs et yeux jaunes portant une veste bleue, une jupe écossaise rouge et des gants bleus tirant avec un fusil AR-15 dans une pièce aux fenêtres brisées et portant des sacs de voyage remplis d'argent.

Conseils

Ce modèle est un point de contrôle LoRA affiné.

L'entraînement a utilisé 4 000 prompts pendant 10 époques.

L'Optimisation des Préférences étape par étape permet des améliorations visuelles fines à chaque étape, améliorant efficacement l’esthétique.

Modèles de Diffusion Post-Entraînement Esthétiques à partir de Préférences Génériques avec Optimisation des Préférences étape par étape

Article Arxiv

Code Github

Page du Projet

Résumé

La génération d’images visuellement attrayantes est fondamentale pour les modèles modernes de génération texte-image. Une solution potentielle pour améliorer l’esthétique est l’optimisation directe des préférences (DPO), appliquée aux modèles de diffusion pour améliorer la qualité générale des images, y compris l’alignement prompt-image et l’esthétique. Les méthodes DPO populaires propagent les étiquettes de préférences de paires d’images nettes à toutes les étapes intermédiaires le long des deux trajectoires de génération. Cependant, les étiquettes de préférence fournies dans les jeux de données existants mélangent avis sur la mise en page et l’esthétique, ce qui peut être en désaccord avec la préférence esthétique. Même si des étiquettes esthétiques étaient fournies (à coût important), il serait difficile pour les méthodes à deux trajectoires de saisir les différences visuelles subtiles à différentes étapes.

Pour améliorer l’esthétique de façon économique, cet article utilise des données de préférences génériques existantes et introduit l’optimisation des préférences étape par étape (SPO) qui abandonne la stratégie de propagation et permet d’évaluer les détails fins de l’image. Plus précisément, à chaque étape de débruitage, nous 1) échantillonnons un pool de candidats en débruitant à partir d’un latent de bruit partagé, 2) utilisons un modèle de préférences sensible à l’étape pour trouver une paire gagnante-perdante adaptée supervisant le modèle de diffusion, et 3) sélectionnons aléatoirement un candidat du pool pour initialiser l’étape suivante de débruitage. Cette stratégie garantit que les modèles de diffusion se concentrent sur les différences visuelles subtiles et fines plutôt que sur l’aspect mise en page. Nous constatons que l’esthétique peut être significativement améliorée en accumulant ces différences mineures améliorées.

Lors du fine-tuning de Stable Diffusion v1.5 et SDXL, SPO produit des améliorations notables en esthétique par rapport aux méthodes DPO existantes sans sacrifier l’alignement image-texte par rapport aux modèles vanilles. De plus, SPO converge beaucoup plus rapidement que les méthodes DPO grâce à l’alignement étape par étape des détails visuels fins. Code et modèle : https://rockeycoss.github.io/spo.github.io/

Description du Modèle

Ce modèle est affiné à partir de stable-diffusion-xl-base-1.0. Il a été entraîné sur 4 000 prompts pendant 10 époques. Ce point de contrôle est un point de contrôle LoRA. Pour plus d’informations, veuillez visiter ici

Citation

Si vous trouvez notre travail utile, merci de nous attribuer une étoile et de citer notre travail.

@article{liang2024step,
  title={Modèles de Diffusion Post-Entraînement Esthétiques à partir de Préférences Génériques avec Optimisation Étape par Étape des Préférences},
  author={Liang, Zhanhao and Yuan, Yuhui et Gu, Shuyang et Chen, Bohan et Hang, Tiankai et Cheng, Mingxi et Li, Ji et Zheng, Liang},
  journal={arXiv preprint arXiv:2406.04314},
  year={2024}
}

Contributeur

Camille Dubois

Bonjour ! Je m’appelle Camille Dubois. Passionnée d’art visuel, j’orchestre des galeries numériques pour révéler toute la poésie des images générées par l’IA.

RealCartoon-XL - V7

Artsy Vibe - v1 - FP8

Utiliser ce modèle