Un retrato fantástico realista de una mujer con cabello rubio miel y ojos esmeralda, mirando hacia arriba con una lágrima en la mejilla, usando aretes y collar de plata.
Cuatro heroínas neo-victorianas en un conservatorio del ático bañado por el sol con cabello ondeante y chispas mágicas, con un paisaje urbano y dirigibles al atardecer.

Parámetros Recomendados

steps

10 - 20

resolution

1024x1024

Consejos

Usa la versión de 3.6 mil millones de parámetros de la Etapa C para obtener los mejores resultados, ya que el ajuste fino principal se hizo en ella.

Usa la variante de 1.5 mil millones de parámetros para la Etapa B para destacar en la reconstrucción de detalles pequeños y finos.

El modelo es muy adecuado para entrenamientos e inferencias eficientes debido al espacio latente más pequeño y soporta extensiones como finetuning, LoRA, ControlNet, IP-Adapter y LCM.

El modelo está destinado únicamente a fines de investigación y no debe usarse para generar representaciones fácticas ni violar la Política de Uso Aceptable de Stability AI.

Los rostros y personas pueden no generarse correctamente ya que la auto codificación del modelo es con pérdida.

Patrocinadores del Creador

Demostraciones:

Stable Cascade

Este modelo se basa en la arquitectura Würstchen y su principal

diferencia con otros modelos como Stable Diffusion es que funciona en un espacio latente mucho más pequeño. ¿Por qué es esto

importante? Cuanto más pequeño es el espacio latente, más rápido se puede ejecutar la inferencia y más barato se vuelve el entrenamiento.

¿Qué tan pequeño es el espacio latente? Stable Diffusion usa un factor de compresión de 8, resultando en que una imagen de 1024x1024 se

codifica a 128x128. Stable Cascade logra un factor de compresión de 42, lo que significa que es posible codificar una

imagen de 1024x1024 a 24x24, manteniendo reconstrucciones nítidas. Luego, el modelo condicionado por texto se entrena en el

espacio latente altamente comprimido. Versiones anteriores de esta arquitectura lograron una reducción del costo de 16 veces respecto a Stable

Diffusion 1.5. <br> <br>

Por lo tanto, este tipo de modelo es muy adecuado para usos donde la eficiencia es importante. Además, todas las extensiones conocidas

como finetuning, LoRA, ControlNet, IP-Adapter, LCM, etc., también son posibles con este método.

Detalles del Modelo

Descripción del Modelo

Stable Cascade es un modelo de difusión entrenado para generar imágenes a partir de un prompt de texto.

  • Desarrollado por: Stability AI

  • Financiado por: Stability AI

  • Tipo de modelo: Modelo generativo de texto a imagen

Fuentes del Modelo

Para fines de investigación, recomendamos nuestro repositorio en StableCascade en Github (https://github.com/Stability-AI/StableCascade).

Resumen del Modelo

Stable Cascade consta de tres modelos: Etapa A, Etapa B y Etapa C, representando una cascada para generar imágenes,

de ahí el nombre "Stable Cascade".

Las Etapas A y B se usan para comprimir imágenes, similar a lo que hace el VAE en Stable Diffusion.

Sin embargo, con esta configuración, se puede lograr una compresión mucho mayor de imágenes. Mientras que los modelos de Stable Diffusion usan un

factor de compresión espacial de 8, codificando una imagen con resolución de 1024 x 1024 a 128 x 128, Stable Cascade logra

un factor de compresión de 42. Esto codifica una imagen de 1024 x 1024 a 24 x 24, pudiendo decodificar la

imagen con precisión. Esto conlleva la gran ventaja de entrenamientos e inferencias más económicos. Además, la Etapa C es responsable

de generar los pequeños latentes 24 x 24 dado un texto prompt. La siguiente imagen muestra esto visualmente.

Para este lanzamiento, ofrecemos dos puntos de control para la Etapa C, dos para la Etapa B y uno para la Etapa A. La Etapa C viene con

una versión de 1 mil millones y otra de 3.6 mil millones de parámetros, pero recomendamos encarecidamente usar la versión de 3.6 mil millones, ya que la mayor parte del trabajo fue

realizado en su ajuste fino. Las dos versiones para la Etapa B tienen 700 millones y 1.5 mil millones de parámetros. Ambas logran

excelentes resultados, sin embargo, la de 1.5 mil millones destaca en reconstruir detalles pequeños y finos. Por lo tanto, se obtienen

mejores resultados si se usa la variante más grande de cada una. Finalmente, la Etapa A contiene 20 millones de parámetros y es fija debido a

su pequeño tamaño.

Evaluación

Según nuestra evaluación, Stable Cascade tiene el mejor desempeño tanto en alineación con el prompt como en calidad estética en casi todas

las comparaciones. La imagen superior muestra los resultados de una evaluación humana usando una mezcla de parti-prompts (enlace) y prompts estéticos. Específicamente, Stable Cascade (30 pasos de inferencia) se comparó contra Playground v2 (50 pasos de inferencia), SDXL (50 pasos de inferencia), SDXL Turbo (1 paso de inferencia) y Würstchen v2 (30 pasos de inferencia).

Ejemplo de Código

⚠️ Importante: Para que el código a continuación funcione, debe instalar diffusers desde esta rama mientras la PR está en desarrollo.

pip install git+https://github.com/kashif/diffusers.git@wuerstchen-v3

import torch

from diffusers import StableCascadeDecoderPipeline, StableCascadePriorPipeline

device = "cuda"

num_images_per_prompt = 2

prior = StableCascadePriorPipeline.from_pretrained("stabilityai/stable-cascade-prior", torch_dtype=torch.bfloat16).to(device)

decoder = StableCascadeDecoderPipeline.from_pretrained("stabilityai/stable-cascade", torch_dtype=torch.float16).to(device)

prompt = "Gato antropomórfico vestido como piloto"

negative_prompt = ""

prior_output = prior(

prompt=prompt,

height=1024,

width=1024,

negative_prompt=negative_prompt,

guidance_scale=4.0,

num_images_per_prompt=num_images_per_prompt,

num_inference_steps=20

)

decoder_output = decoder(

image_embeddings=prior_output.image_embeddings.half(),

prompt=prompt,

negative_prompt=negative_prompt,

guidance_scale=0.0,

output_type="pil",

num_inference_steps=10

).images

#Ahora decoder_output es una lista con tus imágenes PIL

Usos

Uso Directo

El modelo está destinado por ahora a fines de investigación. Áreas y tareas posibles de investigación incluyen

  • Investigación sobre modelos generativos.

  • Despliegue seguro de modelos que tienen el potencial de generar contenido dañino.

  • Exploración y comprensión de las limitaciones y sesgos de los modelos generativos.

  • Generación de obras de arte y uso en diseño y otros procesos artísticos.

  • Aplicaciones en herramientas educativas o creativas.

Usos excluidos se describen a continuación.

Uso Fuera del Alcance

El modelo no fue entrenado para representar fiel o verdaderamente a personas o eventos,

por lo tanto, usar el modelo para generar dicho contenido está fuera del alcance de las capacidades de este modelo.

El modelo no debe usarse de ninguna manera que viole la Política de Uso Aceptable de Stability AI.

Limitaciones y Sesgos

Limitaciones

  • Los rostros y personas en general pueden no generarse correctamente.

  • La parte de auto codificación del modelo es con pérdida.

Recomendaciones

El modelo está destinado únicamente para fines de investigación.

Cómo Comenzar con el Modelo

Consulta https://github.com/Stability-AI/StableCascade

Anterior
Midnight - v5.0
Siguiente
Emulación de Película - Halación 35mm (Sutil)

Detalles del Modelo

Tipo de modelo

Checkpoint

Modelo base

Stable Cascade

Versión del modelo

base

Hash del modelo

0d28c8562d

Discusión

Por favor log in para dejar un comentario.

Imágenes por Stable Cascade - base

Un retrato fantástico realista de una mujer con cabello rubio miel y ojos esmeralda, mirando hacia arriba con una lágrima en la mejilla, usando aretes y collar de plata.
Cuatro heroínas neo-victorianas en un conservatorio del ático bañado por el sol con cabello ondeante y chispas mágicas, con un paisaje urbano y dirigibles al atardecer.

Imágenes con anime

Femenina egipcia estilo anime arrodillada en el desierto, con piel bronceada, cabello blanco, ojos rojos, vistiendo una túnica blanca y collar egipcio, rayo de sol al fondo.
Chica anime con cabello corto de pie en un campo de flores azules por la noche, con una luz azul brillante y una galaxia en el cielo, luces de la ciudad a lo lejos.
Una chica anime estilizada con cabello negro largo y llamativos ojos verdes, vestida con un atuendo negro y medias altas adornadas con tatuajes de flores rojas, sosteniendo una katana contra un fondo rojo.
Una escena dramática de batalla steampunk con dirigibles dominando el horizonte de la ciudad, robots y exotrajes a vapor luchando en la calle mientras una explosión ilumina el centro bajo cielos tormentosos.
Una chica zorro sonriente con cabello rubio, ojos amarillos, orejas y cola de zorro, que lleva un kimono colorido con borde de piel y adornos tradicionales en el cabello, parada frente a una puerta torii.
Chica anime con cabello púrpura-azul en un vestido chino rosa sentada en un sofá verde azulado sosteniendo bandejas con bebidas en un ambiente de café.
Chica de estilo anime rubia con vestido blanco de verano y sombrero grande con decoración de girasol, parada felizmente en un campo de girasoles al atardecer con los brazos levantados.
Una mujer segura con cabello blanco corto y ojos azules penetrantes, vistiendo un suéter sin mangas tipo cuello alto negro, pantalones negros y guantes sin dedos, de pie en un callejón urbano tenuemente iluminado bajo un cielo estrellado.
Mujer rubia con armadura Helldiver negra y dorada con escote, botas sobre muslo y sujetando un casco, con ojos azules y una ligera sonrisa
Chica anime con cabello rojo en trenza, vistiendo uniforme escolar azul marino con detalles dorados, sentada con las piernas abiertas, mirando al espectador con ojos rojos y usando lazos rojos y pendientes.

Imágenes con arte

Retrato abstracto en primer plano con un rostro de ojos cerrados, creado con tinta tricolor y pinceladas explosivas, salpicaduras de naranja, azul, rojo y negro, transmitiendo intensidad emocional y energía caótica.
Ilustración digital altamente detallada de la cabeza de un mandril con cara roja vibrante, ojos amarillos, patrones intrincados en blanco y negro, y textura de pelaje plumoso sobre fondo negro.
Un boceto rojo y negro de un dragón que se cierne sobre una persona bajo la lluvia en la noche.
Pintura acrílica abstracta de un pez dorado bajo el agua con colores llamativos rojo, blanco y negro sobre un fondo oscuro
Retrato de un comandante militar decidido con cabello rojizo y ojos azules que lleva un elegante uniforme azul marino con acentos dorados que combina estilos de la era napoleónica y ciberpunk, de pie en una fortaleza urbana llena de humo.
Un retrato detallado de una mujer hemomancer elfa pecosa con capucha y túnicas escarlata, ojos rojo sangre y símbolos mágicos intrincados girando en una cueva de bosque oscuro.
Silueta de una mujer de pie contra un fondo beige con salpicaduras coloridas vívidas similares a fractales en rojo, amarillo, azul, naranja y púrpura a su alrededor.
Mujer elegante con un bralette de cuero negro y pantalones de pierna ancha de talle alto, posando con confianza con los brazos extendidos. Tiene cabello largo trenzado y tacones plataforma verdes brillantes. El fondo presenta tonos verdes con patrones de sombras.
Obra vectorial plana minimalista que muestra la silueta de una mujer delgada caminando en la playa de Cap Canaille, sur de Francia, con un gran cielo azul lleno de nubes blancas y estelas sobre la costa de la Côte d'Azur.
Silueta de una mujer con vestido de papel dorado, de pie en un lago con una luna dorada gigante de fondo, ambientada en un paisaje asiático.

Imágenes con modelo base

Escena fotorrealista de personajes no muertos incluyendo zombis y esqueletos caminando por un cementerio tenebroso iluminado por calabazas Jack-o'-lantern brillantes bajo un cielo oscuro y ominoso.

Imágenes con logo

Ilustración de un personaje humanoide grande parecido a un calamar que lleva una camisa de empleado a rayas, de pie detrás de un mostrador de tienda lleno de tazas de fideos instantáneos y varios artículos, dibujado con rayado lineal detallado y tonos terrosos.
Personaje D.Va de Overwatch arrodillada con su característico traje enterizo azul y rosa, sosteniendo una pistola, con un gran primer plano artístico de su rostro en el fondo de tema rosa con iluminación cinematográfica y efectos de humo.
Máquina de café estilo steampunk con niña sonriente, boceto acuarela.
Pixel art de la chibi Shiroko de Blue Archive con una espada en una cuadrícula isométrica.
Un bodegón detallado con varias frutas y velas encendidas, generado por IA usando Stable Diffusion.
Ilustración de estilo vintage de un hombre musculoso con cabello largo y suelto en una pose heroica rodeado de símbolos místicos y manos fantasmales, generado por IA usando stable diffusion.

Imágenes con realismo

Una joven princesa rubia con el cabello trenzado agachada junto a una hoguera en un claro del bosque durante una fiesta tribal, rodeada de figuras en el fondo cerca de hogueras.
Retrato realista de una mujer con impresionantes ojos verde esmeralda, que lleva una corona hecha de delicados fragmentos de cristal y un vestido que recuerda cascadas congeladas, iluminada por luz refractada azul hielo y plateada en una cueva glacial oscura.
Un empleado de oficina sentado en un escritorio con la cabeza entre las manos, iluminado por la pantalla brillante de un laptop, rodeado de pilas de informes y latas de bebida energética que parecen cálices dorados, bajo lujosas cortinas barrocas.
Un Tyrannosaurus Rex rugiendo persigue a una joven caminando en una jungla densa, representado en el estilo detallado de Sergey Krasovskiy.
Una mujer sosteniendo una vela encendida con un fondo completamente oscuro que ilumina la mitad de su rostro con la cálida luz de la vela.
Una pintura digital detallada de un avión militar de hélice oxidado volando en el aire sobre el océano, con hélices giratorias y una cabina abierta mostrando pasajeros, bajo un cielo azul claro con nubes.
Foto en primer plano de una chica pelirroja con pecas y ojos azules entre hierbas altas bajo luz solar intensa, mostrando rasgos naturales detallados y efecto de grano de película analógica.
Un rostro femenino sobrenatural con ojos brillantes emergiendo del follaje de la jungla y plantas luminosas, una cascada luminosa fluye de su boca, arte digital de fantasía.
Retrato dramático en primer plano de un hombre anciano con cabello blanco y ojos amarillos brillantes, vistiendo una armadura oscura detallada y sosteniendo un escudo redondo contra un fondo negro sólido.
Una cafetera vintage oxidada y averiada que emite vapor sintético, con un brazo robótico convulsionando, sobre una encimera manchada bajo luces fluorescentes parpadeantes.