Una imagen dramática de un cuervo volando con alas extendidas que exhiben plumas naranjas ardientes contra un fondo de cielo sombrío.
Un terminador robótico cubierto de patrones de dados está sobre un suelo de lava brillante rodeado de dados dispersos en una cueva infernal surrealista.
Imagen en primer plano en blanco y negro de labios femeninos entreabiertos con dientes visibles, sobrepuestos por patrones abstractos de interferencia.
Paisaje urbano en blanco y negro que muestra siluetas de personas caminando por un entorno urbano neblinoso con altos edificios al fondo.
Vista en primer plano de un alienígena curioso con ojos grandes y reflectantes, textura detallada de piel alienígena, de pie entre flora alienígena con montañas al fondo bajo lente gran angular y efecto de grano de película.
Vista en primer plano de un rostro alienígena altamente detallado con grandes ojos reflectantes que muestran un paisaje alienígena, capturado por una sonda interestelar con efecto de grano de película.
Un retrato hiperrealista de una joven mujer pelirroja con cabello rizado de estilo escultórico, al aire libre en un panorama onírico con un paisaje árido desenfocado al fondo.
Imagen hiperrealista en primer plano de un ojo verde rodeado de pecas, con cabello rojo jengibre y labios pintados de negro.
Retrato de una mujer con cabello largo rojo, pecas en piel blanca, ojos verde claro, labios negros y detalles intrincados en un estilo hiperrealista.

Parámetros Recomendados

resolution

525x525

Consejos

El modelo está destinado para fines de investigación incluyendo generación de obras de arte, herramientas educativas y despliegue seguro.

No está destinado a generar representaciones factuales o verdaderas de personas o eventos.

Las limitaciones incluyen fotorrealismo imperfecto, incapacidad para generar texto legible, desafíos con indicaciones composicionales y posible generación incorrecta de rostros.

El modelo utiliza dos codificadores de texto preentrenados: OpenCLIP-ViT/G y CLIP-ViT/L.

El flujo de trabajo en dos pasos incluye generación base de latentes seguida de refinamiento de alta resolución usando SDEdit (img2img).

Patrocinadores del Creador

Originalmente Publicado en Hugging Face y compartido aquí con permiso de Stability AI.

Originalmente Publicado en Hugging Face y compartido aquí con permiso de Stability AI.

SDXL consiste en un flujo de trabajo de dos pasos para la difusión latente: Primero, usamos un modelo base para generar latentes del tamaño de salida deseado. En el segundo paso, usamos un modelo especializado de alta resolución y aplicamos una técnica llamada SDEdit (https://arxiv.org/abs/2108.01073, también conocido como "img2img") a los latentes generados en el primer paso, usando el mismo prompt.

Descripción del Modelo

  • Desarrollado por: Stability AI

  • Tipo de modelo: Modelo generativo texto a imagen basado en difusión

  • Descripción del Modelo: Este es un modelo que puede usarse para generar y modificar imágenes basado en indicaciones de texto. Es un Modelo de Difusión Latente que utiliza dos codificadores de texto fijos y preentrenados (OpenCLIP-ViT/G y CLIP-ViT/L).

  • Recursos para más información: Repositorio GitHub.

Fuentes del Modelo

Usos

Uso Directo

El modelo está destinado solo para fines de investigación. Las posibles áreas y tareas de investigación incluyen

  • Generación de obras de arte y uso en procesos de diseño y otros procesos artísticos.

  • Aplicaciones en herramientas educativas o creativas.

  • Investigación sobre modelos generativos.

  • Despliegue seguro de modelos que puedan generar contenido dañino.

  • Exploración y comprensión de las limitaciones y sesgos de los modelos generativos.

Los usos excluidos se describen a continuación.

Uso Fuera de Alcance

El modelo no fue entrenado para representar hechos o verdades sobre personas o eventos, por lo que usar el modelo para generar dicho contenido está fuera del alcance de sus capacidades.

Limitaciones y Sesgos

Limitaciones

  • El modelo no alcanza un fotorrealismo perfecto

  • El modelo no puede generar texto legible

  • El modelo tiene dificultades con tareas más complejas que implican composicionalidad, como generar una imagen correspondiente a “Un cubo rojo encima de una esfera azul”

  • Las caras y personas en general pueden no generarse correctamente.

  • La parte de autoencodificación del modelo es con pérdida.

Sesgos

Aunque las capacidades de los modelos de generación de imágenes son impresionantes, también pueden reforzar o agravar sesgos sociales.

El gráfico anterior evalúa la preferencia del usuario por SDXL (con y sin refinamiento) en comparación con Stable Diffusion 1.5 y 2.1. El modelo base SDXL tiene un desempeño significativamente mejor que las variantes anteriores, y el modelo combinado con el módulo de refinamiento logra el mejor rendimiento general.

Anterior
epiCPhotoGasm - V1
Siguiente
IlluQuaint - v0.3

Detalles del Modelo

Tipo de modelo

Checkpoint

Modelo base

SDXL 1.0

Versión del modelo

v1.0

Hash del modelo

31e35c80fc

Discusión

Por favor log in para dejar un comentario.

Imágenes por SD XL - v1.0

Imágenes con modelo base

Imágenes con oficial

Imágenes con sdxl

Imágenes con stability ai