modelos/SD XL - v1.0 VAE fix

SD XL - v1.0 VAE fix

João Silva

7/2/2025

1:30:44 AM

| Discussion|

Palavras-chave e Tags Relacionadas

modelo base,checkpoint,sd xl,sdxl,sdxl 1.0,stability ai,stable diffusion xl,geração de texto para imagem

Pintura impressionista de uma mulher com jeans denim e camisa xadrez colhendo maçãs de uma árvore sob luz suave e nublada

Pintura impressionista de natureza morta mostrando uma laranja meio descascada e um saleiro sobre uma mesa com tons neutros e pastéis.

Uma paisagem urbana cyberpunk dramática apresentando um enorme arranha-céu piramidal ao estilo asteca iluminado com luzes neon, com vulcão em erupção e tempestade de raios ao fundo.

Pintura a óleo em estilo impressionista de uma mulher sedutora de pele clara com corte moderno black bob usando vestido de cetim vinho sem mangas com cinto largo preto, sobre fundo quente dourado e texturizado escuro com iluminação chiaroscuro.

Pintura no estilo impressionista de uma mulher em um café escuro à noite, bebendo vinho, com uma praça movimentada visível pela janela.

Um monstro semelhante a um rato com olhos vermelhos brilhantes, garras afiadas e asas de couro esfarrapadas usando armadura de fantasia escura detalhada, em pé sobre um tronco em uma floresta enevoada.

Pintura abstrata em aquarela de flores de lavanda em tons suaves de roxo e verde com um estilo artístico, delicado e etéreo.

Pintura abstrata em aquarela de um girassol com pétalas amarelas e centro escuro, capturando um estilo artístico e botânico suave.

Representação artística abstrata de um flamingo em estilo aquarela, apresentando tons de rosa e vermelho com um bico detalhado e suaves gotejamentos de tinta.

Pintura em aquarela de um falcão empoleirado, renderizada em um estilo artístico abstrato inspirado por Paul Lovering e Antonio J. Manzanedo.

Cisne negro feito de diamantes origami negros flutuando graciosamente em um lago com iluminação cinematográfica do pôr do sol e fundo de montanhas desfocado

Pintura impressionista representando campos no final do verão prontos para a colheita sob uma suave luz matinal com colinas suaves, nuvens dispersas, terras agrícolas e uma vila distante.

Prompts Negativos Recomendados

(deformed iris, deformed pupils), text, worst quality, low quality, jpeg artifacts, ugly, duplicate, morbid, mutilated, (extra fingers), (mutated hands), poorly drawn hands, poorly drawn face, mutation, deformed, blurry, dehydrated, bad anatomy, bad proportions, extra limbs, cloned face, disfigured, gross proportions, malformed limbs, missing arms, missing legs, extra arms, extra legs, (fused fingers), (too many fingers), long neck, camera

Parâmetros Recomendados

samplers

Euler

steps

cfg

resolution

525x525

Dicas

O modelo é destinado a fins de pesquisa, incluindo geração de obras de arte, ferramentas educacionais e implantação segura.

Não é destinado a gerar representações factuais ou verdadeiras de pessoas ou eventos.

As limitações incluem fotorealismo imperfeito, incapacidade de renderizar texto legível, desafios com prompts composicionais e possível geração incorreta de faces.

O modelo utiliza dois codificadores de texto pré-treinados: OpenCLIP-ViT/G e CLIP-ViT/L.

O pipeline em duas etapas inclui geração latente base seguida de refinamento em alta resolução usando SDEdit (img2img).

Patrocinadores do Criador

Originalmente Publicado no Hugging Face e compartilhado aqui com permissão da Stability AI.

O SDXL consiste em um pipeline de duas etapas para difusão latente: Primeiro, usamos um modelo base para gerar latentes do tamanho desejado da saída. Na segunda etapa, usamos um modelo especializado de alta resolução e aplicamos uma técnica chamada SDEdit (https://arxiv.org/abs/2108.01073, também conhecido como "img2img") nos latentes gerados na primeira etapa, usando o mesmo prompt.

Descrição do Modelo

Desenvolvido por: Stability AI
Tipo de modelo: Modelo generativo texto-imagem baseado em difusão
Descrição do modelo: Este é um modelo que pode ser usado para gerar e modificar imagens com base em prompts de texto. É um Modelo de Difusão Latente que usa dois codificadores de texto pré-treinados fixos (OpenCLIP-ViT/G e CLIP-ViT/L).
Recursos para mais informações: Repositório GitHub.

Fontes do Modelo

Repositório: https://github.com/Stability-AI/generative-models
Demo [opcional]: https://clipdrop.co/stable-diffusion

Usos

Uso Direto

O modelo é destinado apenas para fins de pesquisa. Áreas e tarefas possíveis de pesquisa incluem

Geração de obras de arte e uso em design e outros processos artísticos.
Aplicações em ferramentas educacionais ou criativas.
Pesquisa em modelos generativos.
Implantação segura de modelos com potencial para gerar conteúdo prejudicial.
Investigação e entendimento das limitações e vieses dos modelos generativos.

Usos excluídos são descritos abaixo.

Uso Fora do Escopo

O modelo não foi treinado para ser representações factuais ou verdadeiras de pessoas ou eventos, portanto, usar o modelo para gerar tais conteúdos está fora do escopo das capacidades deste modelo.

Limitações e Viés

Limitações

O modelo não alcança fotorealismo perfeito.
O modelo não consegue renderizar texto legível.
O modelo tem dificuldade com tarefas mais complexas que envolvem composição, como renderizar uma imagem correspondente a “Um cubo vermelho em cima de uma esfera azul”.
Faces e pessoas em geral podem não ser geradas corretamente.
A parte de autoencodificação do modelo é com perda.

Viés

Embora as capacidades dos modelos de geração de imagem sejam impressionantes, eles também podem reforçar ou exacerbar vieses sociais.

O gráfico acima avalia a preferência dos usuários pelo SDXL (com e sem refinamento) em comparação ao Stable Diffusion 1.5 e 2.1. O modelo base SDXL apresenta desempenho significativamente melhor que as variantes anteriores, e o modelo combinado com o módulo de refinamento alcança o melhor desempenho geral.

Colaborador

João Silva

Olá! Sou o João Silva. Especialista em curadoria visual, utilizo minha experiência em fotografia para aprimorar cada criação de IA exibida na galeria.

Plant Milk 🌿 - Pacote de Modelos - Walnut

FLUX.1 - DEV FP8 - Kijai [11 GB]

Usar este modelo