Pato branco rabugento com bico laranja em pé na frente de uma régua de altura sob holofote dramático, segurando uma placa preta de identificação.
Um personagem antropomórfico de brócolis mal-humorado em pé em um prado chuvoso sob uma nuvem de chuva pesada com iluminação volumétrica e superfícies molhadas e brilhantes.
Uma garota com cabelo multicolorido fluido e olhos azuis vestindo um vestido de renda preta e uma coroa dourada, cercada por flores vibrantes florescendo em ambiente interno com iluminação volumétrica.
Um demon geisha ciborgue com rosto esquelético brilhante, agachado em um joelho com armadura vermelha sangrenta e capa dourada, cercado por crânios no jardim de um castelo misterioso.
Ilustração de um anjo com cabelo cinza e uma asa inclinando-se sobre um livro aberto, com um halo vermelho escorrendo acima da cabeça e uma aura ameaçadora em estilo mangá.
Retrato em close de uma garota magra com cabelo bagunçado e selvagem cobrindo olhos escuros, um largo sorriso sinistro com boca ensanguentada, coleira com espinhos e detalhes esqueléticos visíveis no peito em estilo lineart.
Retrato em close-up de uma garota anime com cabelo castanho curto e sardas, vestindo um vestido verde e asas de fada, cercada por um fundo noturno detalhado e suavemente iluminado com raios de luz e partículas.
Uma menina pequena com cabelo loiro curto e óculos redondos, vestindo moletom amarelo e meias listradas, está sentada no chão cercada por almofadas e samambaias, lendo um livro verde em um quarto aconchegante com janelas rústicas e uma estante de livros.
Vibrante pintura a óleo impressionista de um lobo azul e um lobo laranja silhuetados contra fundos contrastantes com efeito de brilho
Uma garota loira em estilo anime vestindo uniforme militar rosa e botas vermelhas está em uma postura de luta dinâmica, mirando uma arma dentro de um corredor de espaçonave de alta tecnologia com iluminação vívida e detalhes futuristas retrô.
Uma jovem com olhos roxos e vestido de coquetel preto glamouroso cantando apaixonadamente em um microfone vintage no palco de um clube de jazz clássico pouco iluminado, com iluminação volumétrica quente e instrumentos musicais ao fundo.
Garota no estilo anime com cabelo preto médio e olhos amarelos usando jaqueta azul, saia xadrez vermelha e luvas azuis atirando com um rifle AR-15 dentro de uma sala com janelas quebradas e carregando bolsas de viagem cheias de dinheiro.

Dicas

Este modelo é um checkpoint LoRA finamente ajustado.

O treinamento utilizou 4.000 prompts por 10 épocas.

Step-by-step Preference Optimization permite melhorias visuais detalhadas em cada etapa, melhorando efetivamente a estética.

Modelos de Difusão de Pós-Treinamento Estéticos a partir de Preferências Genéricas com Otimização de Preferência Passo a Passo

Artigo Arxiv

Código no Github

Página do Projeto

Resumo

Gerar imagens visualmente atraentes é fundamental para os modelos modernos de geração de imagem a partir de texto. Uma solução potencial para melhorar a estética é a otimização direta de preferência (DPO), que tem sido aplicada a modelos de difusão para melhorar a qualidade geral da imagem, incluindo o alinhamento com o prompt e a estética. Métodos populares de DPO propagam rótulos de preferência de pares de imagens limpas para todas as etapas intermediárias ao longo das duas trajetórias de geração. No entanto, os rótulos de preferência fornecidos em conjuntos de dados existentes são misturados com opiniões sobre layout e estética, o que pode conflitar com a preferência estética. Mesmo que rótulos estéticos fossem fornecidos (a um custo substancial), seria difícil para os métodos de duas trajetórias capturar diferenças visuais sutis em diferentes etapas.

Para melhorar a estética de forma econômica, este artigo utiliza dados de preferência genéricos existentes e introduz a otimização de preferência passo a passo (SPO) que descarta a estratégia de propagação e permite avaliar detalhes finos da imagem. Especificamente, a cada etapa de denoising, nós 1) amostramos um grupo de candidatos a partir do denoising de um ruído latente compartilhado, 2) usamos um modelo de preferência consciente da etapa para encontrar um par adequado de ganhador-perdedor para supervisionar o modelo de difusão, e 3) selecionamos aleatoriamente um do grupo para iniciar a próxima etapa de denoising. Essa estratégia garante que os modelos de difusão foquem nas diferenças visuais sutis e detalhadas, em vez do aspecto do layout. Descobrimos que a estética pode ser significativamente aprimorada acumulando essas diferenças menores melhoradas.

Ao ajustar finamente Stable Diffusion v1.5 e SDXL, o SPO produz melhorias significativas na estética em comparação com métodos DPO existentes, sem sacrificar o alinhamento texto-imagem em comparação com modelos vanilla. Além disso, o SPO converge muito mais rápido que os métodos DPO devido ao alinhamento passo a passo dos detalhes visuais finos. Código e modelo: https://rockeycoss.github.io/spo.github.io/

Descrição do Modelo

Este modelo é finamente ajustado a partir do stable-diffusion-xl-base-1.0. Foi treinado com 4.000 prompts por 10 épocas. Este checkpoint é um checkpoint LoRA. Para mais informações, por favor visite aqui

Citação

Se você achar nosso trabalho útil, por favor considere nos dar uma estrela e citar nosso trabalho.

@article{liang2024step,
  title={Modelos de Difusão de Pós-Treinamento Estéticos a partir de Preferências Genéricas com Otimização de Preferência Passo a Passo},
  author={Liang, Zhanhao and Yuan, Yuhui and Gu, Shuyang and Chen, Bohan and Hang, Tiankai and Cheng, Mingxi and Li, Ji and Zheng, Liang},
  journal={arXiv preprint arXiv:2406.04314},
  year={2024}
}
Anterior
RealCartoon-XL - V7
Próximo
Artsy Vibe - v1 - FP8

Detalhes do Modelo

Tipo de modelo

LORA

Modelo base

SDXL 1.0

Versão do modelo

v1.0

Hash do modelo

b6c2c16f3e

Criador

Discussão

Por favor, faça log in para deixar um comentário.

Coleção de Modelos - SPO-SDXL_4k-p_10ep_LoRA_webui

Imagens por SPO-SDXL_4k-p_10ep_LoRA_webui - v1.0

Imagens com modelo base