Um retrato fantástico realista de uma mulher com cabelo loiro mel e olhos de esmeralda, olhando para cima com uma lágrima na bochecha, usando brincos e colar de prata.
Quatro heroínas neovitorianas em um conservatório de sótão iluminado pelo sol, com cabelos esvoaçantes e faíscas mágicas, contra uma paisagem urbana com dirigíveis na hora dourada.

Parâmetros Recomendados

steps

10 - 20

resolution

1024x1024

Dicas

Use a versão de 3,6 bilhões de parâmetros do Estágio C para melhores resultados, pois o finetuning principal foi feito nela.

Use a variante de 1,5 bilhão de parâmetros para o Estágio B para se destacar na reconstrução de detalhes pequenos e finos.

O modelo é bem adequado para treinamento e inferência eficientes devido ao espaço latente menor e suporta extensões como finetuning, LoRA, ControlNet, IP-Adapter e LCM.

O modelo é destinado apenas para fins de pesquisa e não deve ser usado para gerar representações factuais ou violar a Política de Uso Aceitável da Stability AI.

Rostos e pessoas podem não ser gerados corretamente, pois o autoencoding do modelo é com perda.

Patrocinadores do Criador

Demonstrações:

Stable Cascade

Este modelo é baseado na arquitetura Würstchen e sua principal

diferença para outros modelos como Stable Diffusion é que ele trabalha em um espaço latente muito menor. Por que isso é

importante? Quanto menor o espaço latente, mais rápida pode ser a inferência e mais barato se torna o treinamento.

Quão pequeno é o espaço latente? Stable Diffusion usa um fator de compressão de 8, resultando em uma imagem 1024x1024

codificada para 128x128. Stable Cascade alcança um fator de compressão de 42, significando que é possível codificar uma

imagem 1024x1024 para 24x24, mantendo reconstruções nítidas. O modelo condicional de texto é então treinado no

espaço latente altamente comprimido. Versões anteriores desta arquitetura alcançaram uma redução de custo de 16x sobre Stable

Diffusion 1.5. <br> <br>

Portanto, este tipo de modelo é bem adequado para usos onde a eficiência é importante. Além disso, todas as extensões conhecidas

como finetuning, LoRA, ControlNet, IP-Adapter, LCM etc. também são possíveis com este método.

Detalhes do Modelo

Descrição do Modelo

Stable Cascade é um modelo de difusão treinado para gerar imagens a partir de um prompt de texto.

  • Desenvolvido por: Stability AI

  • Financiado por: Stability AI

  • Tipo de modelo: Modelo generativo texto-para-imagem

Fontes do Modelo

Para fins de pesquisa, recomendamos nosso repositório StableCascade no Github (https://github.com/Stability-AI/StableCascade).

Visão Geral do Modelo

Stable Cascade consiste em três modelos: Estágio A, Estágio B e Estágio C, representando uma cascata para gerar imagens,

daí o nome "Stable Cascade".

Os Estágios A & B são usados para comprimir imagens, similar ao que o VAE faz no Stable Diffusion.

No entanto, com esta configuração, pode-se alcançar uma compressão muito maior das imagens. Enquanto os modelos do Stable Diffusion usam um

fator espacial de compressão de 8, codificando uma imagem com resolução de 1024 x 1024 para 128 x 128, o Stable Cascade alcança

um fator de compressão de 42. Isso codifica uma imagem 1024 x 1024 para 24 x 24, enquanto ainda é capaz de decodificar a imagem com precisão.

Isso traz o grande benefício de treinamento e inferência mais baratos. Além disso, o Estágio C é responsável

por gerar os pequenos latentes 24 x 24 dado um prompt de texto. A figura a seguir mostra isso visualmente.

Para este lançamento, estamos fornecendo dois checkpoints para o Estágio C, dois para o Estágio B e um para o Estágio A. O Estágio C vem com

versões de 1 bilhão e 3,6 bilhões de parâmetros, mas recomendamos fortemente usar a versão de 3,6 bilhões, pois a maior parte do trabalho foi

feita em seu finetuning. As duas versões para o Estágio B somam 700 milhões e 1,5 bilhões de parâmetros. Ambas alcançam

excelentes resultados, porém a de 1,5 bilhão se destaca na reconstrução de detalhes pequenos e finos. Portanto, você obterá

os melhores resultados se usar a variante maior de cada um. Por fim, o Estágio A contém 20 milhões de parâmetros e é fixo devido

ao seu tamanho pequeno.

Avaliação

De acordo com nossa avaliação, Stable Cascade apresenta melhor desempenho tanto no alinhamento de prompt quanto na qualidade estética em quase todas

comparações. A imagem acima mostra os resultados de uma avaliação humana usando uma mistura de parti-prompts (link) e prompts estéticos. Especificamente, Stable Cascade (30 passos de inferência) foi comparado contra Playground v2 (50 passos de inferência), SDXL (50 passos de inferência), SDXL Turbo (1 passo de inferência) e Würstchen v2 (30 passos de inferência).

Exemplo de Código

⚠️ Importante: Para o código abaixo funcionar, você deve instalar diffusers a partir deste branch enquanto o PR está em desenvolvimento.

pip install git+https://github.com/kashif/diffusers.git@wuerstchen-v3

import torch

from diffusers import StableCascadeDecoderPipeline, StableCascadePriorPipeline

device = "cuda"

num_images_per_prompt = 2

prior = StableCascadePriorPipeline.from_pretrained("stabilityai/stable-cascade-prior", torch_dtype=torch.bfloat16).to(device)

decoder = StableCascadeDecoderPipeline.from_pretrained("stabilityai/stable-cascade", torch_dtype=torch.float16).to(device)

prompt = "Gato antropomórfico vestido como piloto"

negative_prompt = ""

prior_output = prior(

prompt=prompt,

height=1024,

width=1024,

negative_prompt=negative_prompt,

guidance_scale=4.0,

num_images_per_prompt=num_images_per_prompt,

num_inference_steps=20

)

decoder_output = decoder(

image_embeddings=prior_output.image_embeddings.half(),

prompt=prompt,

negative_prompt=negative_prompt,

guidance_scale=0.0,

output_type="pil",

num_inference_steps=10

).images

#Agora decoder_output é uma lista com suas imagens PIL

Usos

Uso Direto

O modelo é destinado a fins de pesquisa por enquanto. Áreas e tarefas possíveis de pesquisa incluem

  • Pesquisa em modelos gerativos.

  • Implantação segura de modelos que têm potencial para gerar conteúdo prejudicial.

  • Investigar e entender limitações e vieses dos modelos gerativos.

  • Geração de obras de arte e uso em design e outros processos artísticos.

  • Aplicações em ferramentas educacionais ou criativas.

Usos excluídos são descritos abaixo.

Uso Fora do Escopo

O modelo não foi treinado para ser uma representação factual ou verdadeira de pessoas ou eventos,

e portanto usar o modelo para gerar tal conteúdo está fora do escopo das capacidades deste modelo.

O modelo não deve ser usado de forma que viole a Política de Uso Aceitável da Stability AI.

Limitações e Viés

Limitações

  • Rostos e pessoas em geral podem não ser gerados corretamente.

  • A parte de autoencoding do modelo é com perda de dados.

Recomendações

O modelo é destinado apenas para fins de pesquisa.

Como Começar com o Modelo

Confira https://github.com/Stability-AI/StableCascade

Anterior
Midnight - v5.0
Próximo
Emulação de Filme - Halation 35mm (Sutil)

Detalhes do Modelo

Tipo de modelo

Checkpoint

Modelo base

Stable Cascade

Versão do modelo

base

Hash do modelo

0d28c8562d

Discussão

Por favor, faça log in para deixar um comentário.

Imagens por Stable Cascade - base

Um retrato fantástico realista de uma mulher com cabelo loiro mel e olhos de esmeralda, olhando para cima com uma lágrima na bochecha, usando brincos e colar de prata.
Quatro heroínas neovitorianas em um conservatório de sótão iluminado pelo sol, com cabelos esvoaçantes e faíscas mágicas, contra uma paisagem urbana com dirigíveis na hora dourada.

Imagens com anime

Fêmea egípcia em estilo anime ajoelhada no deserto, com pele bronzeada, cabelos brancos, olhos vermelhos, vestindo uma túnica branca e colar egípcio, raio de sol ao fundo.
Garota anime de cabelo curto em um campo de flores azuis à noite, com uma luz azul brilhante e galáxia no céu, luzes da cidade ao longe.
Uma garota de anime estilizada com cabelo preto longo e olhos verdes marcantes, vestindo roupa preta e meias até a coxa adornadas com tatuagens de flores vermelhas, segurando uma katana contra um fundo vermelho.
Uma cena dramática de batalha steampunk com dirigíveis pairando sobre o horizonte da cidade, robôs e exoesqueletos movidos a vapor lutando na rua enquanto uma explosão ilumina o centro sob céus tempestuosos.
Uma garota raposa sorridente com cabelo loiro, olhos amarelos, orelhas de raposa e cauda de raposa, vestindo um kimono colorido com detalhes em pele e ornamentos tradicionais no cabelo, em pé diante de um portão torii.
Garota anime com cabelo roxo-azulado em vestido chinês rosa sentada em um sofá verde azulado segurando bandejas de bebidas em um ambiente de café.
Menina loira em estilo anime vestindo um vestido branco de verão e um grande chapéu de sol com decoração de girassol, felizmente posicionada em um campo de girassóis ao pôr do sol com os braços levantados.
Uma mulher confiante com cabelo branco curto e olhos azuis penetrantes vestindo um suéter preto sem mangas com gola alta, calças pretas e luvas sem dedos, parada em um beco urbano pouco iluminado sob um céu noturno estrelado.
Mulher loira vestindo armadura Helldiver preta e dourada com corte no decote, botas acima do joelho, segurando um capacete, com olhos azuis e um leve sorriso
Garota de anime com cabelo vermelho em trança, vestindo uniforme escolar azul-marinho com detalhes dourados, sentada com as pernas afastadas, olhando para o observador com olhos vermelhos, e usando fitas e brincos vermelhos.

Imagens com arte

Retrato abstrato em close-up mostrando um rosto com olhos fechados, criado com tinta tricolor e pinceladas explosivas, manchas de laranja, azul, vermelho e preto, transmitindo intensidade emocional e energia caótica.
Ilustração digital altamente detalhada da cabeça de um mandril com rosto vermelho vibrante, olhos amarelos, padrões intrincados em preto e branco, e textura de pelo emplumado em fundo preto.
Um esboço vermelho e preto de um dragão ameaçando uma pessoa na chuva à noite.
Pintura acrílica abstrata de um peixe dourado debaixo d'água com cores vibrantes vermelhas, brancas e pretas em um fundo escuro
Retrato de um comandante militar determinado com cabelo ruivo e olhos azuis vestindo um uniforme elegante azul-marinho com detalhes em ouro, misturando estilos da era napoleônica e cyberpunk, em uma fortaleza urbana com fumaça.
Um retrato detalhado de uma mulher hemomancer élfica sardenta usando capuz e vestes escarlates, com olhos vermelhos sangue e símbolos mágicos intricados girando em uma caverna sombria na floresta.
Silhueta de uma mulher em pé contra um fundo bege com respingos vívidos de pintura em cores fractais em vermelho, amarelo, azul, laranja e roxo ao seu redor.
Mulher estilosa usando um sutiã de couro preto e calças largas de cintura alta, posando confiante com os braços estendidos. Ela tem cabelo longo trançado e salto plataforma verde vibrante. O fundo apresenta tons verdes com padrões de sombra.
Arte vetorial plana minimalista mostrando a silhueta de uma mulher esguia caminhando numa praia em Cap Canaille, Sul da França, com um grande céu azul cheio de nuvens brancas e rastros de aviões acima da costa da Côte d'Azur.
Silhueta de uma mulher com vestido de folha de ouro, em pé em um lago com uma lua dourada gigante ao fundo, ambientada em uma paisagem asiática.

Imagens com modelo base

Cena fotorrealista de personagens mortos-vivos incluindo zumbis e esqueletos caminhando por um cemitério assustador iluminado por lanternas de abóbora brilhantes sob um céu escuro e ameaçador.

Imagens com logo

Ilustração de um personagem humanóide grande parecido com lula vestindo uma camisa de empregado listrada, parado atrás de um balcão de loja cheio de copos de macarrão instantâneo e vários itens, desenhado com hachura linear detalhada e tons terrosos.
Personagem D.Va de Overwatch ajoelhada em seu bodysuit azul e rosa característico, segurando um revólver, com um grande close artístico de seu rosto no fundo temático rosa apresentando iluminação cinematográfica e efeitos de fumaça.
Máquina de café em estilo steampunk com garota sorridente, esboço em aquarela.
Pixel art da chibi Shiroko de Blue Archive com uma espada em uma grade isométrica.
Uma natureza morta detalhada com várias frutas e velas acesas, gerada por IA usando Stable Diffusion.
Ilustração em estilo vintage de um homem musculoso com cabelo longo e esvoaçante em uma pose heroica, cercado por símbolos místicos e mãos fantasmagóricas, gerada por IA usando stable diffusion.

Imagens com realismo

Uma jovem princesa loira com cabelo trançado agachada ao lado de uma fogueira numa clareira da floresta durante uma festa tribal, cercada por figuras ao fundo perto de fogueiras.
Retrato realista de uma mulher com impressionantes olhos verde esmeralda, usando uma coroa feita de delicados fragmentos de cristal e um vestido que lembra cachoeiras congeladas, iluminada por refrações de luz azul gelo e prata em uma caverna glacial escura.
Um trabalhador de escritório sentado em uma mesa com a cabeça nas mãos, iluminado pela tela brilhante de um laptop, cercado por pilhas de relatórios e latas de bebida energética que se assemelham a cálices dourados, sob luxuosas cortinas barrocas.
Um Tyrannosaurus Rex rugindo perseguindo uma jovem caminhando em uma selva densa, representado no estilo detalhado de Sergey Krasovskiy.
Uma mulher segurando uma vela acesa com um fundo escuro totalmente preto iluminando metade do seu rosto com a luz quente da vela.
Uma pintura digital detalhada de um avião militar enferrujado com hélice voando no ar sobre o oceano, com hélices girando e um cockpit aberto mostrando passageiros, sob um céu azul claro com nuvens.
Foto em close de uma menina ruiva com sardas e olhos azuis entre gramíneas altas sob luz solar intensa, exibindo detalhes naturais e efeito de granulação de filme analógico.
Um rosto feminino sobrenatural com olhos brilhantes emergindo da folhagem da selva e plantas luminosas, uma cachoeira luminosa flui de sua boca, arte digital de fantasia.
Retrato dramático em close-up de um homem idoso com cabelo branco e olhos amarelos brilhantes, vestindo armadura escura detalhada e segurando um escudo redondo contra um fundo preto sólido.
Uma cafeteira vintage enferrujada e com defeito, emitindo vapor sintético, com um braço robótico tremendo, situada em uma bancada manchada sob luzes fluorescentes piscando.