SPO-SDXL_4k-p_10ep_LoRA_webui - v1.0
Dicas
Este modelo é um checkpoint LoRA finamente ajustado.
O treinamento utilizou 4.000 prompts por 10 épocas.
Step-by-step Preference Optimization permite melhorias visuais detalhadas em cada etapa, melhorando efetivamente a estética.
Modelos de Difusão de Pós-Treinamento Estéticos a partir de Preferências Genéricas com Otimização de Preferência Passo a Passo
Resumo
Gerar imagens visualmente atraentes é fundamental para os modelos modernos de geração de imagem a partir de texto. Uma solução potencial para melhorar a estética é a otimização direta de preferência (DPO), que tem sido aplicada a modelos de difusão para melhorar a qualidade geral da imagem, incluindo o alinhamento com o prompt e a estética. Métodos populares de DPO propagam rótulos de preferência de pares de imagens limpas para todas as etapas intermediárias ao longo das duas trajetórias de geração. No entanto, os rótulos de preferência fornecidos em conjuntos de dados existentes são misturados com opiniões sobre layout e estética, o que pode conflitar com a preferência estética. Mesmo que rótulos estéticos fossem fornecidos (a um custo substancial), seria difícil para os métodos de duas trajetórias capturar diferenças visuais sutis em diferentes etapas.
Para melhorar a estética de forma econômica, este artigo utiliza dados de preferência genéricos existentes e introduz a otimização de preferência passo a passo (SPO) que descarta a estratégia de propagação e permite avaliar detalhes finos da imagem. Especificamente, a cada etapa de denoising, nós 1) amostramos um grupo de candidatos a partir do denoising de um ruído latente compartilhado, 2) usamos um modelo de preferência consciente da etapa para encontrar um par adequado de ganhador-perdedor para supervisionar o modelo de difusão, e 3) selecionamos aleatoriamente um do grupo para iniciar a próxima etapa de denoising. Essa estratégia garante que os modelos de difusão foquem nas diferenças visuais sutis e detalhadas, em vez do aspecto do layout. Descobrimos que a estética pode ser significativamente aprimorada acumulando essas diferenças menores melhoradas.
Ao ajustar finamente Stable Diffusion v1.5 e SDXL, o SPO produz melhorias significativas na estética em comparação com métodos DPO existentes, sem sacrificar o alinhamento texto-imagem em comparação com modelos vanilla. Além disso, o SPO converge muito mais rápido que os métodos DPO devido ao alinhamento passo a passo dos detalhes visuais finos. Código e modelo: https://rockeycoss.github.io/spo.github.io/
Descrição do Modelo
Este modelo é finamente ajustado a partir do stable-diffusion-xl-base-1.0. Foi treinado com 4.000 prompts por 10 épocas. Este checkpoint é um checkpoint LoRA. Para mais informações, por favor visite aqui
Citação
Se você achar nosso trabalho útil, por favor considere nos dar uma estrela e citar nosso trabalho.
@article{liang2024step,
title={Modelos de Difusão de Pós-Treinamento Estéticos a partir de Preferências Genéricas com Otimização de Preferência Passo a Passo},
author={Liang, Zhanhao and Yuan, Yuhui and Gu, Shuyang and Chen, Bohan and Hang, Tiankai and Cheng, Mingxi and Li, Ji and Zheng, Liang},
journal={arXiv preprint arXiv:2406.04314},
year={2024}
}Detalhes do Modelo
Discussão
Por favor, faça log in para deixar um comentário.
