SPO-SDXL_4k-p_10ep_LoRA_webui - v1.0
Consejos
Este modelo es un checkpoint afinado LoRA.
El entrenamiento usó 4,000 prompts durante 10 épocas.
La Optimización de Preferencias paso a paso permite mejoras visuales finas en cada paso, mejorando la estética de forma efectiva.
Modelos de Difusión Estéticos Post-Entrenamiento desde Preferencias Genéricas con Optimización de Preferencias paso a paso
Resumen
Generar imágenes visualmente atractivas es fundamental para los modelos modernos de generación texto-a-imagen. Una solución potencial para mejorar la estética es la optimización directa de preferencias (DPO), que ha sido aplicada a modelos de difusión para mejorar la calidad general de imagen incluyendo la alineación con el prompt y la estética. Los métodos DPO populares propagan etiquetas de preferencia desde pares de imágenes limpias a todos los pasos intermedios a lo largo de las dos trayectorias de generación. Sin embargo, las etiquetas de preferencia proporcionadas en conjuntos de datos existentes están combinadas con opiniones sobre la disposición y la estética, lo cual puede disentir con la preferencia estética. Incluso si se proporcionaran etiquetas estéticas (a un costo considerable), sería difícil para los métodos de dos trayectorias capturar diferencias visuales matizadas en diferentes pasos.
Para mejorar la estética de forma económica, este trabajo usa datos de preferencias genéricas existentes e introduce la optimización de preferencias paso a paso (SPO) que descarta la estrategia de propagación y permite evaluar detalles finos de la imagen. Específicamente, en cada paso de denoising, 1) muestreamos un conjunto de candidatos denoising a partir de un ruido latente compartido, 2) usamos un modelo de preferencia consciente del paso para encontrar un par ganador-perdedor adecuado para supervisar el modelo de difusión, y 3) seleccionamos aleatoriamente uno del conjunto para inicializar el siguiente paso de denoising. Esta estrategia asegura que los modelos de difusión se enfoquen en diferencias visuales sutiles y finas en lugar de aspectos de disposición. Encontramos que la estética puede mejorarse significativamente acumulando estas pequeñas diferencias mejoradas.
Al afinar Stable Diffusion v1.5 y SDXL, SPO produce mejoras significativas en estética en comparación con métodos DPO existentes sin sacrificar la alineación imagen-texto en comparación con modelos vanilla. Además, SPO converge mucho más rápido que los métodos DPO debido a la alineación paso a paso de detalles visuales finos. Código y modelo: https://rockeycoss.github.io/spo.github.io/
Descripción del Modelo
Este modelo está afinado a partir de stable-diffusion-xl-base-1.0. Ha sido entrenado con 4,000 prompts durante 10 épocas. Este checkpoint es un checkpoint LoRA. Para más información, visite aquí
Citación
Si encuentra útil nuestro trabajo, por favor considere darnos una estrella y citar nuestro trabajo.
@article{liang2024step,
title={Modelos de Difusión Estéticos Post-Entrenamiento desde Preferencias Genéricas con Optimización de Preferencias paso a paso},
author={Liang, Zhanhao y Yuan, Yuhui y Gu, Shuyang y Chen, Bohan y Hang, Tiankai y Cheng, Mingxi y Li, Ji y Zheng, Liang},
journal={arXiv preprint arXiv:2406.04314},
year={2024}
}Detalles del Modelo
Tipo de modelo
Modelo base
Versión del modelo
Hash del modelo
Creador
Discusión
Por favor log in para dejar un comentario.
