modelos/Stable Cascade - base

Stable Cascade - base

João Silva

9/20/2025

1:11:19 PM

| Discussion

Palavras-chave e Tags Relacionadas

anime,arte,modelo base,checkpoint,logo,realismo,texto,texto para imagem

Um retrato fantástico realista de uma mulher com cabelo loiro mel e olhos de esmeralda, olhando para cima com uma lágrima na bochecha, usando brincos e colar de prata.

Quatro heroínas neovitorianas em um conservatório de sótão iluminado pelo sol, com cabelos esvoaçantes e faíscas mágicas, contra uma paisagem urbana com dirigíveis na hora dourada.

Parâmetros Recomendados

steps

10 - 20

resolution

1024x1024

Dicas

Use a versão de 3,6 bilhões de parâmetros do Estágio C para melhores resultados, pois o finetuning principal foi feito nela.

Use a variante de 1,5 bilhão de parâmetros para o Estágio B para se destacar na reconstrução de detalhes pequenos e finos.

O modelo é bem adequado para treinamento e inferência eficientes devido ao espaço latente menor e suporta extensões como finetuning, LoRA, ControlNet, IP-Adapter e LCM.

O modelo é destinado apenas para fins de pesquisa e não deve ser usado para gerar representações factuais ou violar a Política de Uso Aceitável da Stability AI.

Rostos e pessoas podem não ser gerados corretamente, pois o autoencoding do modelo é com perda.

Patrocinadores do Criador

Demonstrações:

multimodalart: https://hf.co/spaces/multimodalart/stable-cascade
ehristoforu: https://hf.co/spaces/ehristoforu/Stable-Cascade

Demonstrações:

multimodalart: https://hf.co/spaces/multimodalart/stable-cascade
ehristoforu: https://hf.co/spaces/ehristoforu/Stable-Cascade

Stable Cascade

Este modelo é baseado na arquitetura Würstchen e sua principal

diferença para outros modelos como Stable Diffusion é que ele trabalha em um espaço latente muito menor. Por que isso é

importante? Quanto menor o espaço latente, mais rápida pode ser a inferência e mais barato se torna o treinamento.

Quão pequeno é o espaço latente? Stable Diffusion usa um fator de compressão de 8, resultando em uma imagem 1024x1024

codificada para 128x128. Stable Cascade alcança um fator de compressão de 42, significando que é possível codificar uma

imagem 1024x1024 para 24x24, mantendo reconstruções nítidas. O modelo condicional de texto é então treinado no

espaço latente altamente comprimido. Versões anteriores desta arquitetura alcançaram uma redução de custo de 16x sobre Stable

Diffusion 1.5. <br> <br>

Portanto, este tipo de modelo é bem adequado para usos onde a eficiência é importante. Além disso, todas as extensões conhecidas

como finetuning, LoRA, ControlNet, IP-Adapter, LCM etc. também são possíveis com este método.

Detalhes do Modelo

Descrição do Modelo

Stable Cascade é um modelo de difusão treinado para gerar imagens a partir de um prompt de texto.

Desenvolvido por: Stability AI
Financiado por: Stability AI
Tipo de modelo: Modelo generativo texto-para-imagem

Fontes do Modelo

Para fins de pesquisa, recomendamos nosso repositório StableCascade no Github (https://github.com/Stability-AI/StableCascade).

Repositório: https://github.com/Stability-AI/StableCascade
Artigo: https://openreview.net/forum?id=gU58d5QeGv

Visão Geral do Modelo

Stable Cascade consiste em três modelos: Estágio A, Estágio B e Estágio C, representando uma cascata para gerar imagens,

daí o nome "Stable Cascade".

Os Estágios A & B são usados para comprimir imagens, similar ao que o VAE faz no Stable Diffusion.

No entanto, com esta configuração, pode-se alcançar uma compressão muito maior das imagens. Enquanto os modelos do Stable Diffusion usam um

fator espacial de compressão de 8, codificando uma imagem com resolução de 1024 x 1024 para 128 x 128, o Stable Cascade alcança

um fator de compressão de 42. Isso codifica uma imagem 1024 x 1024 para 24 x 24, enquanto ainda é capaz de decodificar a imagem com precisão.

Isso traz o grande benefício de treinamento e inferência mais baratos. Além disso, o Estágio C é responsável

por gerar os pequenos latentes 24 x 24 dado um prompt de texto. A figura a seguir mostra isso visualmente.

Para este lançamento, estamos fornecendo dois checkpoints para o Estágio C, dois para o Estágio B e um para o Estágio A. O Estágio C vem com

versões de 1 bilhão e 3,6 bilhões de parâmetros, mas recomendamos fortemente usar a versão de 3,6 bilhões, pois a maior parte do trabalho foi

feita em seu finetuning. As duas versões para o Estágio B somam 700 milhões e 1,5 bilhões de parâmetros. Ambas alcançam

excelentes resultados, porém a de 1,5 bilhão se destaca na reconstrução de detalhes pequenos e finos. Portanto, você obterá

os melhores resultados se usar a variante maior de cada um. Por fim, o Estágio A contém 20 milhões de parâmetros e é fixo devido

ao seu tamanho pequeno.

Avaliação

De acordo com nossa avaliação, Stable Cascade apresenta melhor desempenho tanto no alinhamento de prompt quanto na qualidade estética em quase todas

comparações. A imagem acima mostra os resultados de uma avaliação humana usando uma mistura de parti-prompts (link) e prompts estéticos. Especificamente, Stable Cascade (30 passos de inferência) foi comparado contra Playground v2 (50 passos de inferência), SDXL (50 passos de inferência), SDXL Turbo (1 passo de inferência) e Würstchen v2 (30 passos de inferência).

Exemplo de Código

⚠️ Importante: Para o código abaixo funcionar, você deve instalar diffusers a partir deste branch enquanto o PR está em desenvolvimento.

pip install git+https://github.com/kashif/diffusers.git@wuerstchen-v3

import torch

from diffusers import StableCascadeDecoderPipeline, StableCascadePriorPipeline

device = "cuda"

num_images_per_prompt = 2

prior = StableCascadePriorPipeline.from_pretrained("stabilityai/stable-cascade-prior", torch_dtype=torch.bfloat16).to(device)

decoder = StableCascadeDecoderPipeline.from_pretrained("stabilityai/stable-cascade", torch_dtype=torch.float16).to(device)

prompt = "Gato antropomórfico vestido como piloto"

negative_prompt = ""

prior_output = prior(

prompt=prompt,

height=1024,

width=1024,

negative_prompt=negative_prompt,

guidance_scale=4.0,

num_images_per_prompt=num_images_per_prompt,

num_inference_steps=20

)

decoder_output = decoder(

image_embeddings=prior_output.image_embeddings.half(),

prompt=prompt,

negative_prompt=negative_prompt,

guidance_scale=0.0,

output_type="pil",

num_inference_steps=10

).images

#Agora decoder_output é uma lista com suas imagens PIL

Usos

Uso Direto

O modelo é destinado a fins de pesquisa por enquanto. Áreas e tarefas possíveis de pesquisa incluem

Pesquisa em modelos gerativos.
Implantação segura de modelos que têm potencial para gerar conteúdo prejudicial.
Investigar e entender limitações e vieses dos modelos gerativos.
Geração de obras de arte e uso em design e outros processos artísticos.
Aplicações em ferramentas educacionais ou criativas.

Usos excluídos são descritos abaixo.

Uso Fora do Escopo

O modelo não foi treinado para ser uma representação factual ou verdadeira de pessoas ou eventos,

e portanto usar o modelo para gerar tal conteúdo está fora do escopo das capacidades deste modelo.

O modelo não deve ser usado de forma que viole a Política de Uso Aceitável da Stability AI.

Limitações e Viés

Limitações

Rostos e pessoas em geral podem não ser gerados corretamente.
A parte de autoencoding do modelo é com perda de dados.

Recomendações

O modelo é destinado apenas para fins de pesquisa.

Como Começar com o Modelo

Confira https://github.com/Stability-AI/StableCascade

Colaborador

João Silva

Olá! Sou o João Silva. Especialista em curadoria visual, utilizo minha experiência em fotografia para aprimorar cada criação de IA exibida na galeria.

Midnight - v5.0

Emulação de Filme - Halation 35mm (Sutil)

Usar este modelo

Detalhes do Modelo

Tipo de modelo

Checkpoint

Modelo base

Stable Cascade

Versão do modelo

base

Hash do modelo

0d28c8562d

Criador

ehristoforu

Discussão

Por favor, faça log in para deixar um comentário.

Coleção de Modelos - Stable Cascade

Um retrato realista de fantasia de uma mulher com cabelo loiro mel e olhos esmeralda, olhando para cima com uma lágrima na bochecha, usando brincos de prata e um colar.

CheckpointMODELOS

Stable Cascade - base

Hash Curto:

0d28c8562d

Imagens por Stable Cascade - base

Imagens com anime

Uma pintura digital detalhada de uma garota anime com cabelo loiro e olhos azuis marcantes, iluminada por uma luz suave e onírica em estilo CGI.

Retrato em close de Dio Brando com cabelo loiro e faixa verde na cabeça, cercado por efeitos brilhantes sob um céu azul brilhante.

Um bar cyberpunk iluminado por luzes de neon violeta, cheio de frequentadores futuristas usando capacetes e equipamentos cibernéticos, com telas holográficas e uma atmosfera high-tech.

Uma garota de anime detalhada com cabelo loiro vestindo roupas brancas e vermelhas caminhando por um riacho na floresta cercada por águas-vivas laranja brilhantes ao anoitecer.

Retrato de uma garota elfa com longos cabelos brancos em twintails, olhos azuis, orelhas pontudas, usando uma capa branca com detalhes em dourado e joias sobre fundo preto.

Garota elfa em estilo anime com longos rabos de cavalo prateados e olhos verdes, em pé em um campo de flores azuis, vestindo um capuz branco, camisa listrada e meia-calça preta.

Uma jovem mulher anime com olhos azuis e cabelo castanho está diante de um fundo mosaico floral azul cobalto em uma estética sonhadora.

Ilustração digital em estilo anime mostrando uma grande estrutura pontiaguda de pirâmide de pedra triangular em terra árida com pedras espalhadas sob um céu estrelado e um planeta com anéis laranja.

Guerreira feminina detalhada em estilo anime, com traje de couro preto, em uma pose dinâmica com efeitos coloridos em azul e laranja rodopiando ao fundo.

Um retrato detalhado de um ciborgue com cabelo branco longo, olhos azuis e armadura robótica intrincada, em uma paisagem urbana futurista cyberpunk à noite.

Imagens com arte

Paisagem urbana futurista com arranha-céus altos com luzes laranja e azuis em meio a névoa densa, centrada em uma grande estrutura circular flutuante acima das nuvens.

Retrato abstrato em close-up mostrando um rosto com olhos fechados, criado com tinta tricolor e pinceladas explosivas, manchas de laranja, azul, vermelho e preto, transmitindo intensidade emocional e energia caótica.

Ilustração digital altamente detalhada da cabeça de um mandril com rosto vermelho vibrante, olhos amarelos, padrões intrincados em preto e branco, e textura de pelo emplumado em fundo preto.

Um esboço vermelho e preto de um dragão ameaçando uma pessoa na chuva à noite.

Pintura acrílica abstrata de um peixe dourado debaixo d'água com cores vibrantes vermelhas, brancas e pretas em um fundo escuro

Retrato de um comandante militar determinado com cabelo ruivo e olhos azuis vestindo um uniforme elegante azul-marinho com detalhes em ouro, misturando estilos da era napoleônica e cyberpunk, em uma fortaleza urbana com fumaça.

Um retrato detalhado de uma mulher hemomancer élfica sardenta usando capuz e vestes escarlates, com olhos vermelhos sangue e símbolos mágicos intricados girando em uma caverna sombria na floresta.

$Silhueta de uma mulher em pé contra um fundo bege com respingos vívidos de pintura em cores fractais em vermelho, amarelo, azul, laranja e roxo ao seu redor.$