Uma imagem dramática de um corvo voando com asas abertas exibindo penas laranja flamejantes contra um fundo de céu sombrio.
Um exterminador robótico coberto por padrões de dados está sobre um chão de lava brilhante rodeado por dados espalhados em uma caverna infernal surrealista.
Imagem em close-up preto e branco de lábios femininos entreabertos com dentes visíveis, sobrepostos por padrões abstratos de interferência.
Paisagem urbana em preto e branco mostrando silhuetas de pessoas caminhando por um ambiente urbano enevoado com edifícios altos ao fundo.
Vista em close-up de um alienígena curioso com grandes olhos reflexivos, textura detalhada de pele alienígena, posicionado entre flora alienígena com montanhas ao fundo sob efeito de lente grande angular e grão de filme.
Vista em close-up de rosto de alienígena altamente detalhado com grandes olhos reflexivos mostrando uma paisagem alienígena, capturado por sonda interestelar com efeito de granulação de filme.
Um retrato hiper-realista de uma jovem mulher ruiva e escultural com cabelos cacheados, ao ar livre em um panorama onírico com uma paisagem árida borrada ao fundo.
Imagem hiper-realista em close-up de um olho verde cercado por sardas, com cabelos ruivos e lábios pintados de preto.
Retrato de uma mulher com cabelos ruivos longos, sardas na pele branca, olhos verde claro, lábios pretos e detalhes intrincados em estilo hiper-realista.

Parâmetros Recomendados

resolution

525x525

Dicas

O modelo destina-se a fins de pesquisa, incluindo geração de obras de arte, ferramentas educacionais e implantação segura.

Não se destina a gerar representações factuais ou verdadeiras de pessoas ou eventos.

As limitações incluem fotorealismo imperfeito, incapacidade de renderizar texto legível, desafios com prompts composicionais e possível geração incorreta de rostos.

O modelo usa dois encoders de texto pré-treinados: OpenCLIP-ViT/G e CLIP-ViT/L.

O pipeline de duas etapas inclui geração de latentes base seguida por refinamento em alta resolução usando SDEdit (img2img).

Patrocinadores do Criador

Originalmente Publicado no Hugging Face e compartilhado aqui com permissão da Stability AI.

Originalmente Publicado no Hugging Face e compartilhado aqui com permissão da Stability AI.

O SDXL consiste em um pipeline de duas etapas para difusão latente: Primeiro, usamos um modelo base para gerar latentes no tamanho desejado da saída. Na segunda etapa, usamos um modelo especializado de alta resolução e aplicamos uma técnica chamada SDEdit (https://arxiv.org/abs/2108.01073, também conhecida como "img2img") aos latentes gerados na primeira etapa, usando o mesmo prompt.

Descrição do Modelo

  • Desenvolvido por: Stability AI

  • Tipo de modelo: Modelo generativo de texto para imagem baseado em difusão

  • Descrição do Modelo: Este é um modelo que pode ser usado para gerar e modificar imagens a partir de prompts de texto. É um Modelo de Difusão Latente que utiliza dois encoders de texto fixos e pré-treinados (OpenCLIP-ViT/G e CLIP-ViT/L).

  • Recursos para mais informações: Repositório GitHub.

Fontes do Modelo

Usos

Uso Direto

O modelo se destina apenas a fins de pesquisa. Possíveis áreas e tarefas de pesquisa incluem

  • Geração de obras de arte e uso em design e outros processos artísticos.

  • Aplicações em ferramentas educacionais ou criativas.

  • Pesquisa em modelos generativos.

  • Implantação segura de modelos que têm potencial para gerar conteúdo prejudicial.

  • Sondagem e compreensão das limitações e vieses dos modelos generativos.

Os usos excluídos são descritos abaixo.

Uso Fora do Escopo

O modelo não foi treinado para representar pessoas ou eventos de forma factual ou verdadeira, portanto usar o modelo para gerar tal conteúdo está fora do escopo das capacidades deste modelo.

Limitações e Vieses

Limitações

  • O modelo não alcança fotorealismo perfeito

  • O modelo não consegue renderizar texto legível

  • O modelo tem dificuldades com tarefas mais complexas que envolvem composição, como renderizar uma imagem correspondente a “um cubo vermelho em cima de uma esfera azul”

  • Rostos e pessoas em geral podem não ser gerados corretamente.

  • A parte de autoencodificação do modelo é com perda.

Viés

Embora as capacidades dos modelos de geração de imagem sejam impressionantes, eles também podem reforçar ou agravar vieses sociais.

O gráfico acima avalia a preferência dos usuários pelo SDXL (com e sem refinamento) em comparação com Stable Diffusion 1.5 e 2.1. O modelo base SDXL apresenta desempenho significativamente melhor que as variantes anteriores, e o modelo combinado com o módulo de refinamento alcança o melhor desempenho geral.

Anterior
epiCPhotoGasm - V1
Próximo
IlluQuaint - v0.3

Detalhes do Modelo

Tipo de modelo

Checkpoint

Modelo base

SDXL 1.0

Versão do modelo

v1.0

Hash do modelo

31e35c80fc

Discussão

Por favor, faça log in para deixar um comentário.

Imagens por SD XL - v1.0

Imagens com modelo base

Imagens com oficial

Imagens com sdxl

Imagens com stability ai