Pato blanco gruñón con pico naranja parado frente a una tabla de estatura bajo un foco dramático, sosteniendo una placa negra con nombre para foto policial.
Un personaje antropomórfico de brócoli gruñón parado en un prado lluvioso bajo una nube de lluvia intensa con iluminación volumétrica y superficies húmedas y brillantes.
Una chica con cabello multicolor fluido y ojos azules que lleva un vestido de encaje negro y una corona dorada, rodeada de flores vibrantes y en flor en un interior con iluminación volumétrica.
Un demonio geisha cibernético con un rostro esquelético brillante, agachado en una rodilla con armadura roja sangrienta y una capa dorada, rodeado de calaveras en el jardín de un castillo misterioso.
Ilustración de un ángel con cabello gris y un ala, inclinándose sobre un libro abierto, con un halo rojo que gotea sobre su cabeza y un aura amenazante en estilo manga.
Retrato en primer plano de una chica demacrada con cabello salvaje y desordenado que cubre ojos oscuros, una amplia sonrisa siniestra con boca ensangrentada, collar con púas y detalles visibles del pecho esquelético en estilo lineart.
Retrato de cerca de una chica anime con cabello corto castaño y pecas, vistiendo un vestido verde y alas de hada, rodeada por un fondo detallado y suavemente iluminado de noche con rayos de luz y partículas.
Una niña pequeña con cabello rubio corto y gafas redondas, vistiendo una sudadera amarilla y calcetas a rayas, sentada en el suelo rodeada de cojines y helechos, leyendo un libro verde en un dormitorio acogedor con ventanas rústicas y una estantería.
Vibrante pintura al óleo impresionista de un lobo azul y un lobo naranja silueteados contra fondos contrastantes con efecto de brillo
Una chica rubia de estilo anime que lleva un uniforme militar rosa y botas rojas está en una postura dinámica de combate, apuntando con una pistola dentro de un corredor de nave espacial de alta tecnología con iluminación vívida y detalles retro futuristas.
Una joven con ojos morados y un vestido cóctel negro glamoroso canta apasionadamente frente a un micrófono vintage en el escenario tenuemente iluminado de un club clásico de jazz con cálida iluminación volumétrica e instrumentos musicales en el fondo.
Chica estilo anime con cabello negro medio y ojos amarillos, vistiendo una chaqueta azul, falda de cuadros roja y guantes azules disparando un rifle AR-15 dentro de una habitación con ventanas rotas y llevando bolsas de deporte llenas de dinero.

Consejos

Este modelo es un checkpoint afinado LoRA.

El entrenamiento usó 4,000 prompts durante 10 épocas.

La Optimización de Preferencias paso a paso permite mejoras visuales finas en cada paso, mejorando la estética de forma efectiva.

Modelos de Difusión Estéticos Post-Entrenamiento desde Preferencias Genéricas con Optimización de Preferencias paso a paso

Artículo en Arxiv

Código en Github

Página del Proyecto

Resumen

Generar imágenes visualmente atractivas es fundamental para los modelos modernos de generación texto-a-imagen. Una solución potencial para mejorar la estética es la optimización directa de preferencias (DPO), que ha sido aplicada a modelos de difusión para mejorar la calidad general de imagen incluyendo la alineación con el prompt y la estética. Los métodos DPO populares propagan etiquetas de preferencia desde pares de imágenes limpias a todos los pasos intermedios a lo largo de las dos trayectorias de generación. Sin embargo, las etiquetas de preferencia proporcionadas en conjuntos de datos existentes están combinadas con opiniones sobre la disposición y la estética, lo cual puede disentir con la preferencia estética. Incluso si se proporcionaran etiquetas estéticas (a un costo considerable), sería difícil para los métodos de dos trayectorias capturar diferencias visuales matizadas en diferentes pasos.

Para mejorar la estética de forma económica, este trabajo usa datos de preferencias genéricas existentes e introduce la optimización de preferencias paso a paso (SPO) que descarta la estrategia de propagación y permite evaluar detalles finos de la imagen. Específicamente, en cada paso de denoising, 1) muestreamos un conjunto de candidatos denoising a partir de un ruido latente compartido, 2) usamos un modelo de preferencia consciente del paso para encontrar un par ganador-perdedor adecuado para supervisar el modelo de difusión, y 3) seleccionamos aleatoriamente uno del conjunto para inicializar el siguiente paso de denoising. Esta estrategia asegura que los modelos de difusión se enfoquen en diferencias visuales sutiles y finas en lugar de aspectos de disposición. Encontramos que la estética puede mejorarse significativamente acumulando estas pequeñas diferencias mejoradas.

Al afinar Stable Diffusion v1.5 y SDXL, SPO produce mejoras significativas en estética en comparación con métodos DPO existentes sin sacrificar la alineación imagen-texto en comparación con modelos vanilla. Además, SPO converge mucho más rápido que los métodos DPO debido a la alineación paso a paso de detalles visuales finos. Código y modelo: https://rockeycoss.github.io/spo.github.io/

Descripción del Modelo

Este modelo está afinado a partir de stable-diffusion-xl-base-1.0. Ha sido entrenado con 4,000 prompts durante 10 épocas. Este checkpoint es un checkpoint LoRA. Para más información, visite aquí

Citación

Si encuentra útil nuestro trabajo, por favor considere darnos una estrella y citar nuestro trabajo.

@article{liang2024step,
  title={Modelos de Difusión Estéticos Post-Entrenamiento desde Preferencias Genéricas con Optimización de Preferencias paso a paso},
  author={Liang, Zhanhao y Yuan, Yuhui y Gu, Shuyang y Chen, Bohan y Hang, Tiankai y Cheng, Mingxi y Li, Ji y Zheng, Liang},
  journal={arXiv preprint arXiv:2406.04314},
  year={2024}
}
Anterior
RealCartoon-XL - V7
Siguiente
Artsy Vibe - v1 - FP8

Detalles del Modelo

Tipo de modelo

LORA

Modelo base

SDXL 1.0

Versión del modelo

v1.0

Hash del modelo

b6c2c16f3e

Creador

Discusión

Por favor log in para dejar un comentario.

Colección de Modelos - SPO-SDXL_4k-p_10ep_LoRA_webui

Imágenes por SPO-SDXL_4k-p_10ep_LoRA_webui - v1.0

Imágenes con modelo base