modelos/Stable Cascade - base

Stable Cascade - base

9/20/2025

1:06:01 PM

Palabras Clave y Etiquetas Relacionadas

anime,arte,base,modelo base,punto de control,modelo generativo eficiente,ehristoforu,compresión del espacio latente,logo,realismo,stabilityai,cascada estable,stablecascade,texto,texto a imagen,arquitectura würstchen

Un retrato fantástico realista de una mujer con cabello rubio miel y ojos esmeralda, mirando hacia arriba con una lágrima en la mejilla, usando aretes y collar de plata.

Cuatro heroínas neo-victorianas en un conservatorio del ático bañado por el sol con cabello ondeante y chispas mágicas, con un paisaje urbano y dirigibles al atardecer.

Parámetros Recomendados

steps

10 - 20

resolution

1024x1024

Consejos

Usa la versión de 3.6 mil millones de parámetros de la Etapa C para obtener los mejores resultados, ya que el ajuste fino principal se hizo en ella.

Usa la variante de 1.5 mil millones de parámetros para la Etapa B para destacar en la reconstrucción de detalles pequeños y finos.

El modelo es muy adecuado para entrenamientos e inferencias eficientes debido al espacio latente más pequeño y soporta extensiones como finetuning, LoRA, ControlNet, IP-Adapter y LCM.

El modelo está destinado únicamente a fines de investigación y no debe usarse para generar representaciones fácticas ni violar la Política de Uso Aceptable de Stability AI.

Los rostros y personas pueden no generarse correctamente ya que la auto codificación del modelo es con pérdida.

Patrocinadores del Creador

Demostraciones:

multimodalart: https://hf.co/spaces/multimodalart/stable-cascade
ehristoforu: https://hf.co/spaces/ehristoforu/Stable-Cascade

Demostraciones:

multimodalart: https://hf.co/spaces/multimodalart/stable-cascade
ehristoforu: https://hf.co/spaces/ehristoforu/Stable-Cascade

Stable Cascade

Este modelo se basa en la arquitectura Würstchen y su principal

diferencia con otros modelos como Stable Diffusion es que funciona en un espacio latente mucho más pequeño. ¿Por qué es esto

importante? Cuanto más pequeño es el espacio latente, más rápido se puede ejecutar la inferencia y más barato se vuelve el entrenamiento.

¿Qué tan pequeño es el espacio latente? Stable Diffusion usa un factor de compresión de 8, resultando en que una imagen de 1024x1024 se

codifica a 128x128. Stable Cascade logra un factor de compresión de 42, lo que significa que es posible codificar una

imagen de 1024x1024 a 24x24, manteniendo reconstrucciones nítidas. Luego, el modelo condicionado por texto se entrena en el

espacio latente altamente comprimido. Versiones anteriores de esta arquitectura lograron una reducción del costo de 16 veces respecto a Stable

Diffusion 1.5. <br> <br>

Por lo tanto, este tipo de modelo es muy adecuado para usos donde la eficiencia es importante. Además, todas las extensiones conocidas

como finetuning, LoRA, ControlNet, IP-Adapter, LCM, etc., también son posibles con este método.

Detalles del Modelo

Descripción del Modelo

Stable Cascade es un modelo de difusión entrenado para generar imágenes a partir de un prompt de texto.

Desarrollado por: Stability AI
Financiado por: Stability AI
Tipo de modelo: Modelo generativo de texto a imagen

Fuentes del Modelo

Para fines de investigación, recomendamos nuestro repositorio en StableCascade en Github (https://github.com/Stability-AI/StableCascade).

Repositorio: https://github.com/Stability-AI/StableCascade
Artículo: https://openreview.net/forum?id=gU58d5QeGv

Resumen del Modelo

Stable Cascade consta de tres modelos: Etapa A, Etapa B y Etapa C, representando una cascada para generar imágenes,

de ahí el nombre "Stable Cascade".

Las Etapas A y B se usan para comprimir imágenes, similar a lo que hace el VAE en Stable Diffusion.

Sin embargo, con esta configuración, se puede lograr una compresión mucho mayor de imágenes. Mientras que los modelos de Stable Diffusion usan un

factor de compresión espacial de 8, codificando una imagen con resolución de 1024 x 1024 a 128 x 128, Stable Cascade logra

un factor de compresión de 42. Esto codifica una imagen de 1024 x 1024 a 24 x 24, pudiendo decodificar la

imagen con precisión. Esto conlleva la gran ventaja de entrenamientos e inferencias más económicos. Además, la Etapa C es responsable

de generar los pequeños latentes 24 x 24 dado un texto prompt. La siguiente imagen muestra esto visualmente.

Para este lanzamiento, ofrecemos dos puntos de control para la Etapa C, dos para la Etapa B y uno para la Etapa A. La Etapa C viene con

una versión de 1 mil millones y otra de 3.6 mil millones de parámetros, pero recomendamos encarecidamente usar la versión de 3.6 mil millones, ya que la mayor parte del trabajo fue

realizado en su ajuste fino. Las dos versiones para la Etapa B tienen 700 millones y 1.5 mil millones de parámetros. Ambas logran

excelentes resultados, sin embargo, la de 1.5 mil millones destaca en reconstruir detalles pequeños y finos. Por lo tanto, se obtienen

mejores resultados si se usa la variante más grande de cada una. Finalmente, la Etapa A contiene 20 millones de parámetros y es fija debido a

su pequeño tamaño.

Evaluación

Según nuestra evaluación, Stable Cascade tiene el mejor desempeño tanto en alineación con el prompt como en calidad estética en casi todas

las comparaciones. La imagen superior muestra los resultados de una evaluación humana usando una mezcla de parti-prompts (enlace) y prompts estéticos. Específicamente, Stable Cascade (30 pasos de inferencia) se comparó contra Playground v2 (50 pasos de inferencia), SDXL (50 pasos de inferencia), SDXL Turbo (1 paso de inferencia) y Würstchen v2 (30 pasos de inferencia).

Ejemplo de Código

⚠️ Importante: Para que el código a continuación funcione, debe instalar diffusers desde esta rama mientras la PR está en desarrollo.

pip install git+https://github.com/kashif/diffusers.git@wuerstchen-v3

import torch

from diffusers import StableCascadeDecoderPipeline, StableCascadePriorPipeline

device = "cuda"

num_images_per_prompt = 2

prior = StableCascadePriorPipeline.from_pretrained("stabilityai/stable-cascade-prior", torch_dtype=torch.bfloat16).to(device)

decoder = StableCascadeDecoderPipeline.from_pretrained("stabilityai/stable-cascade", torch_dtype=torch.float16).to(device)

prompt = "Gato antropomórfico vestido como piloto"

negative_prompt = ""

prior_output = prior(

prompt=prompt,

height=1024,

width=1024,

negative_prompt=negative_prompt,

guidance_scale=4.0,

num_images_per_prompt=num_images_per_prompt,

num_inference_steps=20

)

decoder_output = decoder(

image_embeddings=prior_output.image_embeddings.half(),

prompt=prompt,

negative_prompt=negative_prompt,

guidance_scale=0.0,

output_type="pil",

num_inference_steps=10

).images

#Ahora decoder_output es una lista con tus imágenes PIL

Usos

Uso Directo

El modelo está destinado por ahora a fines de investigación. Áreas y tareas posibles de investigación incluyen

Investigación sobre modelos generativos.
Despliegue seguro de modelos que tienen el potencial de generar contenido dañino.
Exploración y comprensión de las limitaciones y sesgos de los modelos generativos.
Generación de obras de arte y uso en diseño y otros procesos artísticos.
Aplicaciones en herramientas educativas o creativas.

Usos excluidos se describen a continuación.

Uso Fuera del Alcance

El modelo no fue entrenado para representar fiel o verdaderamente a personas o eventos,

por lo tanto, usar el modelo para generar dicho contenido está fuera del alcance de las capacidades de este modelo.

El modelo no debe usarse de ninguna manera que viole la Política de Uso Aceptable de Stability AI.

Limitaciones y Sesgos

Limitaciones

Los rostros y personas en general pueden no generarse correctamente.
La parte de auto codificación del modelo es con pérdida.

Recomendaciones

El modelo está destinado únicamente para fines de investigación.

Cómo Comenzar con el Modelo

Consulta https://github.com/Stability-AI/StableCascade

Colaborador

Marta García

¡Hola! Soy Marta García. Con ojo fotográfico y pasión por el arte digital, doy vida a cada imagen generada por IA para que cuente su mejor historia.

Midnight - v5.0

Emulación de Película - Halación 35mm (Sutil)

Usar este modelo

Detalles del Modelo

Tipo de modelo

Checkpoint

Modelo base

Stable Cascade

Versión del modelo

base

Hash del modelo

0d28c8562d

Creador

ehristoforu

Discusión

Por favor log in para dejar un comentario.

Colección de Modelos - Stable Cascade

Un retrato fantástico realista de una mujer con cabello rubio miel y ojos esmeralda, mirando hacia arriba con una lágrima en la mejilla, llevando pendientes y un collar de plata.

CheckpointMODELOS

Stable Cascade - base

Hash Corto:

0d28c8562d

Imágenes por Stable Cascade - base

Imágenes con anime

Una pintura digital detallada de una chica anime con cabello rubio y llamativos ojos azules, iluminada por una luz suave y onírica en estilo CGI.

Retrato en primer plano de Dio Brando con cabello rubio y cinta verde, rodeado de efectos brillantes bajo un cielo azul brillante.

Un bar cyberpunk iluminado con luces de neón violetas, lleno de clientes futuristas que llevan cascos y equipo cibernético, con pantallas holográficas y una atmósfera de alta tecnología.

Una chica de anime detallada con cabello rubio vistiendo ropa blanca y roja caminando por un arroyo del bosque rodeada de medusas naranjas luminosas al atardecer.

Retrato de una chica elfa con largas coletas blancas, ojos azules, orejas puntiagudas, vistiendo una capa blanca con borde dorado y joyas sobre fondo negro.

Chica elfa estilo anime con largas coletas plateadas y ojos verdes, de pie en un campo de flores azules, vistiendo una capa blanca, camisa a rayas y pantimedias negras.

Una joven mujer anime con ojos azules y cabello castaño frente a un fondo de mosaico floral azul cobalto en una estética de sueño.

Ilustración digital en estilo anime que muestra una gran estructura de pirámide de piedra triangular puntiaguda en tierra árida con rocas dispersas bajo un cielo estrellado y un planeta con anillos naranjas.

Guerrera femenina detallada en estilo anime con traje de cuero negro, adoptando una pose dinámica con efectos coloridos en azul y naranja en remolino de fondo.

Personaje de anime Frieren con orejas puntiagudas y ojos verdes, coletas grises, vistiendo un camisón blanco traslúcido, sentada en una cama en un dormitorio iluminado suavemente.

Imágenes con arte

Paisaje urbano futurista con altos rascacielos con luces naranjas y azules entre una densa niebla, centrado en una gran estructura circular flotante sobre las nubes.

Retrato abstracto en primer plano con un rostro de ojos cerrados, creado con tinta tricolor y pinceladas explosivas, salpicaduras de naranja, azul, rojo y negro, transmitiendo intensidad emocional y energía caótica.

Ilustración digital altamente detallada de la cabeza de un mandril con cara roja vibrante, ojos amarillos, patrones intrincados en blanco y negro, y textura de pelaje plumoso sobre fondo negro.

Un boceto rojo y negro de un dragón que se cierne sobre una persona bajo la lluvia en la noche.

Pintura acrílica abstracta de un pez dorado bajo el agua con colores llamativos rojo, blanco y negro sobre un fondo oscuro

Retrato de un comandante militar decidido con cabello rojizo y ojos azules que lleva un elegante uniforme azul marino con acentos dorados que combina estilos de la era napoleónica y ciberpunk, de pie en una fortaleza urbana llena de humo.

Un retrato detallado de una mujer hemomancer elfa pecosa con capucha y túnicas escarlata, ojos rojo sangre y símbolos mágicos intrincados girando en una cueva de bosque oscuro.

$Silueta de una mujer de pie contra un fondo beige con salpicaduras coloridas vívidas similares a fractales en rojo, amarillo, azul, naranja y púrpura a su alrededor.$