modelos/SD XL - v1.0 Corrección VAE

SD XL - v1.0 Corrección VAE

|
7/2/2025
|
1:17:09 AM
| Discussion|
0
Vista aérea de una larga cabaña rectangular situada en el fondo de un valle verde, rodeada de árboles densos y montañas imponentes bajo un cielo oscuro lleno de lluvia y nubes pesadas.
Cabaña cuadrada moderna inclinada hacia adelante en un bosque por la noche, con una gran pared de vidrio con un sofá negro interior, plantas, iluminación cálida incandescente y asientos en el porche exterior.
Cabaña de madera con invernadero de dos plantas elevada sobre columnas en una superficie inclinada del bosque rodeada de pinos, niebla y hierba amarilla.
Dos cabañas modernas de hormigón con grandes ventanas de vidrio apiladas perpendicularmente sobre columnas de hormigón, situadas en una ladera rocosa cubierta de nieve con un telón de fondo montañoso.
Cabaña moderna rectangular pintada de blanco con ventanas de vidrio y luz interior, elevada sobre los árboles del bosque sobre dos columnas de hormigón inclinadas bajo un cielo gris.
Una máscara de carbono forjado con ojos naranja brillantes rodeados de llamas vibrantes sobre un fondo oscuro.
Perfil de una mujer flotante con rostro detallado, su piel y cabello fluyen con vívidas y arremolinadas pinceladas de pintura colorida sobre un fondo oscuro.
Retrato de una joven que se asemeja a Zelda con cabello rubio, orejas de elfo, ojos azules, usando una tiara dorada y vestido medieval morado profundo con detalles dorados ornamentados.
Un gato negro con ojos naranjas brillantes se sienta entre llamas intensas dentro de un templo antiguo con pilares, rodeado de fuego y humo.
Un altar oculto de otoño con estilo de fantasía oscura que presenta café humeante en una taza, vela encendida con humo ascendente, pequeñas calabazas en platos, una tetera y un libro abierto con texturas de acuarela envejecidas.
Pintura en acuarela de un gran naufragio de nave de ciencia ficción estrellada en un paisaje desértico con un piloto varado de pie cerca, creada con líneas audaces, estilo de boceto colorido y expresivo, e iluminación de alto contraste.
Pintura en acuarela que muestra una calle de ciudad inundada bordeada de edificios ruinosos intrincados, con dos figuras en poses dinámicas, iluminadas por una luz cálida y de alto contraste.

Prompts Negativos Recomendados

(deformed iris, deformed pupils), text, worst quality, low quality, jpeg artifacts, ugly, duplicate, morbid, mutilated, (extra fingers), (mutated hands), poorly drawn hands, poorly drawn face, mutation, deformed, blurry, dehydrated, bad anatomy, bad proportions, extra limbs, cloned face, disfigured, gross proportions, malformed limbs, missing arms, missing legs, extra arms, extra legs, (fused fingers), (too many fingers), long neck, camera

Parámetros Recomendados

samplers

Euler

steps

50

cfg

8

resolution

525x525

Consejos

El modelo está destinado a fines de investigación, incluyendo generación de obras de arte, herramientas educativas y despliegue seguro.

No está destinado a generar representaciones fidedignas o verdaderas de personas o eventos.

Las limitaciones incluyen fotorrealismo imperfecto, incapacidad para renderizar texto legible, desafíos con indicaciones compositivas y posible generación incorrecta de rostros.

El modelo usa dos codificadores de texto preentrenados: OpenCLIP-ViT/G y CLIP-ViT/L.

La tubería en dos pasos incluye generación latente base seguida de refinamiento en alta resolución usando SDEdit (img2img).

Patrocinadores del Creador

Originalmente Publicado en Hugging Face y compartido aquí con permiso de Stability AI.

Originalmente Publicado en Hugging Face y compartido aquí con permiso de Stability AI.

SDXL consta de una tubería en dos pasos para difusión latente: primero, usamos un modelo base para generar tensores latentes del tamaño de salida deseado. En el segundo paso, usamos un modelo especializado de alta resolución y aplicamos una técnica llamada SDEdit (https://arxiv.org/abs/2108.01073, también conocida como "img2img") a los tensores latentes generados en el primer paso, usando el mismo prompt.

Descripción del Modelo

  • Desarrollado por: Stability AI

  • Tipo de modelo: Modelo generativo texto a imagen basado en difusión

  • Descripción del modelo: Este es un modelo que puede usarse para generar y modificar imágenes basadas en indicaciones de texto. Es un Modelo de Difusión Latente que usa dos codificadores de texto preentrenados y fijos (OpenCLIP-ViT/G y CLIP-ViT/L).

  • Recursos para más información: Repositorio en GitHub.

Fuentes del Modelo

Usos

Uso Directo

El modelo está destinado únicamente a fines de investigación. Las áreas y tareas posibles de investigación incluyen

  • Generación de obras de arte y uso en diseño y otros procesos artísticos.

  • Aplicaciones en herramientas educativas o creativas.

  • Investigación sobre modelos generativos.

  • Despliegue seguro de modelos que tienen el potencial de generar contenido dañino.

  • Explorar y comprender las limitaciones y sesgos de los modelos generativos.

Los usos excluidos se describen a continuación.

Usos Fuera de Alcance

El modelo no fue entrenado para representar fiel o verazmente personas o eventos, por lo que usarlo para generar tal contenido está fuera del alcance de las capacidades de este modelo.

Limitaciones y Sesgos

Limitaciones

  • El modelo no alcanza un fotorrealismo perfecto

  • El modelo no puede renderizar texto legible

  • El modelo tiene dificultades con tareas más complejas que involucran composición, como representar una imagen correspondiente a “Un cubo rojo encima de una esfera azul”

  • Las caras y personas en general pueden no generarse adecuadamente.

  • La parte de codificación automática del modelo es con pérdida.

Sesgos

Si bien las capacidades de los modelos de generación de imágenes son impresionantes, también pueden reforzar o agravar sesgos sociales.

El gráfico anterior evalúa la preferencia del usuario por SDXL (con y sin refinamiento) sobre Stable Diffusion 1.5 y 2.1. El modelo base SDXL rinde significativamente mejor que las variantes anteriores, y el modelo combinado con el módulo de refinamiento logra el mejor rendimiento general.

Anterior
Leche Vegetal 🌿 - Suite de Modelos - Walnut
Siguiente
FLUX.1 - DEV FP8 - Kijai [11 GB]

Detalles del Modelo

Tipo de modelo

Checkpoint

Modelo base

SDXL 1.0

Versión del modelo

v1.0 VAE fix

Hash del modelo

e6bb9ea85b

Discusión

Por favor log in para dejar un comentario.

Imágenes por SD XL - v1.0 Corrección VAE

Imágenes con modelo base

Imágenes con oficial

Imágenes con sdxl

Imágenes con stability ai