modelos/SD XL - v1.0

SD XL - v1.0

Marta García

7/8/2025

2:31:15 PM

| Discussion

Palabras Clave y Etiquetas Relacionadas

modelo base,punto de control,sd xl,sdxl,sdxl 1.0,stability ai,stable diffusion xl,generación de texto a imagen,v1.0

Póster de película animada con una joven expresiva y bonita en movimiento, ambientada en un fondo de metrópolis de ciudad brillante con estilo de arte conceptual tipo boceto.

Primer plano de un perro animado travieso apoyado en una mesa de madera con un libro abierto, ambientado en una habitación acogedora con mobiliario de madera e iluminación cálida.

Retrato en primer plano de una valiente exploradora doncella con cabello largo y castaño ondulado y ojos azules brillantes sosteniendo un amigable gatito leopardo manchado, con un fondo verde y frondoso y una cascada.

Una imagen dramática de un cuervo volando con alas extendidas que exhiben plumas naranjas ardientes contra un fondo de cielo sombrío.

Un terminador robótico cubierto de patrones de dados está sobre un suelo de lava brillante rodeado de dados dispersos en una cueva infernal surrealista.

Imagen en primer plano en blanco y negro de labios femeninos entreabiertos con dientes visibles, sobrepuestos por patrones abstractos de interferencia.

Paisaje urbano en blanco y negro que muestra siluetas de personas caminando por un entorno urbano neblinoso con altos edificios al fondo.

Vista en primer plano de un alienígena curioso con ojos grandes y reflectantes, textura detallada de piel alienígena, de pie entre flora alienígena con montañas al fondo bajo lente gran angular y efecto de grano de película.

Vista en primer plano de un rostro alienígena altamente detallado con grandes ojos reflectantes que muestran un paisaje alienígena, capturado por una sonda interestelar con efecto de grano de película.

Un retrato hiperrealista de una joven mujer pelirroja con cabello rizado de estilo escultórico, al aire libre en un panorama onírico con un paisaje árido desenfocado al fondo.

Imagen hiperrealista en primer plano de un ojo verde rodeado de pecas, con cabello rojo jengibre y labios pintados de negro.

Retrato de una mujer con cabello largo rojo, pecas en piel blanca, ojos verde claro, labios negros y detalles intrincados en un estilo hiperrealista.

Parámetros Recomendados

resolution

525x525

Consejos

El modelo está destinado para fines de investigación incluyendo generación de obras de arte, herramientas educativas y despliegue seguro.

No está destinado a generar representaciones factuales o verdaderas de personas o eventos.

Las limitaciones incluyen fotorrealismo imperfecto, incapacidad para generar texto legible, desafíos con indicaciones composicionales y posible generación incorrecta de rostros.

El modelo utiliza dos codificadores de texto preentrenados: OpenCLIP-ViT/G y CLIP-ViT/L.

El flujo de trabajo en dos pasos incluye generación base de latentes seguida de refinamiento de alta resolución usando SDEdit (img2img).

Patrocinadores del Creador

Originalmente Publicado en Hugging Face y compartido aquí con permiso de Stability AI.

SDXL consiste en un flujo de trabajo de dos pasos para la difusión latente: Primero, usamos un modelo base para generar latentes del tamaño de salida deseado. En el segundo paso, usamos un modelo especializado de alta resolución y aplicamos una técnica llamada SDEdit (https://arxiv.org/abs/2108.01073, también conocido como "img2img") a los latentes generados en el primer paso, usando el mismo prompt.

Descripción del Modelo

Desarrollado por: Stability AI
Tipo de modelo: Modelo generativo texto a imagen basado en difusión
Descripción del Modelo: Este es un modelo que puede usarse para generar y modificar imágenes basado en indicaciones de texto. Es un Modelo de Difusión Latente que utiliza dos codificadores de texto fijos y preentrenados (OpenCLIP-ViT/G y CLIP-ViT/L).
Recursos para más información: Repositorio GitHub.

Fuentes del Modelo

Repositorio: https://github.com/Stability-AI/generative-models
Demostración [opcional]: https://clipdrop.co/stable-diffusion

Usos

Uso Directo

El modelo está destinado solo para fines de investigación. Las posibles áreas y tareas de investigación incluyen

Generación de obras de arte y uso en procesos de diseño y otros procesos artísticos.
Aplicaciones en herramientas educativas o creativas.
Investigación sobre modelos generativos.
Despliegue seguro de modelos que puedan generar contenido dañino.
Exploración y comprensión de las limitaciones y sesgos de los modelos generativos.

Los usos excluidos se describen a continuación.

Uso Fuera de Alcance

El modelo no fue entrenado para representar hechos o verdades sobre personas o eventos, por lo que usar el modelo para generar dicho contenido está fuera del alcance de sus capacidades.

Limitaciones y Sesgos

Limitaciones

El modelo no alcanza un fotorrealismo perfecto
El modelo no puede generar texto legible
El modelo tiene dificultades con tareas más complejas que implican composicionalidad, como generar una imagen correspondiente a “Un cubo rojo encima de una esfera azul”
Las caras y personas en general pueden no generarse correctamente.
La parte de autoencodificación del modelo es con pérdida.

Sesgos

Aunque las capacidades de los modelos de generación de imágenes son impresionantes, también pueden reforzar o agravar sesgos sociales.

El gráfico anterior evalúa la preferencia del usuario por SDXL (con y sin refinamiento) en comparación con Stable Diffusion 1.5 y 2.1. El modelo base SDXL tiene un desempeño significativamente mejor que las variantes anteriores, y el modelo combinado con el módulo de refinamiento logra el mejor rendimiento general.