Um retrato fantástico realista de uma mulher com cabelo loiro mel e olhos de esmeralda, olhando para cima com uma lágrima na bochecha, usando brincos e colar de prata.
Quatro heroínas neovitorianas em um conservatório de sótão iluminado pelo sol, com cabelos esvoaçantes e faíscas mágicas, contra uma paisagem urbana com dirigíveis na hora dourada.

Parâmetros Recomendados

steps

10 - 20

resolution

1024x1024

Dicas

Use a versão de 3,6 bilhões de parâmetros do Estágio C para melhores resultados, pois o finetuning principal foi feito nela.

Use a variante de 1,5 bilhão de parâmetros para o Estágio B para se destacar na reconstrução de detalhes pequenos e finos.

O modelo é bem adequado para treinamento e inferência eficientes devido ao espaço latente menor e suporta extensões como finetuning, LoRA, ControlNet, IP-Adapter e LCM.

O modelo é destinado apenas para fins de pesquisa e não deve ser usado para gerar representações factuais ou violar a Política de Uso Aceitável da Stability AI.

Rostos e pessoas podem não ser gerados corretamente, pois o autoencoding do modelo é com perda.

Patrocinadores do Criador

Demonstrações:

Stable Cascade

Este modelo é baseado na arquitetura Würstchen e sua principal

diferença para outros modelos como Stable Diffusion é que ele trabalha em um espaço latente muito menor. Por que isso é

importante? Quanto menor o espaço latente, mais rápida pode ser a inferência e mais barato se torna o treinamento.

Quão pequeno é o espaço latente? Stable Diffusion usa um fator de compressão de 8, resultando em uma imagem 1024x1024

codificada para 128x128. Stable Cascade alcança um fator de compressão de 42, significando que é possível codificar uma

imagem 1024x1024 para 24x24, mantendo reconstruções nítidas. O modelo condicional de texto é então treinado no

espaço latente altamente comprimido. Versões anteriores desta arquitetura alcançaram uma redução de custo de 16x sobre Stable

Diffusion 1.5. <br> <br>

Portanto, este tipo de modelo é bem adequado para usos onde a eficiência é importante. Além disso, todas as extensões conhecidas

como finetuning, LoRA, ControlNet, IP-Adapter, LCM etc. também são possíveis com este método.

Detalhes do Modelo

Descrição do Modelo

Stable Cascade é um modelo de difusão treinado para gerar imagens a partir de um prompt de texto.

  • Desenvolvido por: Stability AI

  • Financiado por: Stability AI

  • Tipo de modelo: Modelo generativo texto-para-imagem

Fontes do Modelo

Para fins de pesquisa, recomendamos nosso repositório StableCascade no Github (https://github.com/Stability-AI/StableCascade).

Visão Geral do Modelo

Stable Cascade consiste em três modelos: Estágio A, Estágio B e Estágio C, representando uma cascata para gerar imagens,

daí o nome "Stable Cascade".

Os Estágios A & B são usados para comprimir imagens, similar ao que o VAE faz no Stable Diffusion.

No entanto, com esta configuração, pode-se alcançar uma compressão muito maior das imagens. Enquanto os modelos do Stable Diffusion usam um

fator espacial de compressão de 8, codificando uma imagem com resolução de 1024 x 1024 para 128 x 128, o Stable Cascade alcança

um fator de compressão de 42. Isso codifica uma imagem 1024 x 1024 para 24 x 24, enquanto ainda é capaz de decodificar a imagem com precisão.

Isso traz o grande benefício de treinamento e inferência mais baratos. Além disso, o Estágio C é responsável

por gerar os pequenos latentes 24 x 24 dado um prompt de texto. A figura a seguir mostra isso visualmente.

Para este lançamento, estamos fornecendo dois checkpoints para o Estágio C, dois para o Estágio B e um para o Estágio A. O Estágio C vem com

versões de 1 bilhão e 3,6 bilhões de parâmetros, mas recomendamos fortemente usar a versão de 3,6 bilhões, pois a maior parte do trabalho foi

feita em seu finetuning. As duas versões para o Estágio B somam 700 milhões e 1,5 bilhões de parâmetros. Ambas alcançam

excelentes resultados, porém a de 1,5 bilhão se destaca na reconstrução de detalhes pequenos e finos. Portanto, você obterá

os melhores resultados se usar a variante maior de cada um. Por fim, o Estágio A contém 20 milhões de parâmetros e é fixo devido

ao seu tamanho pequeno.

Avaliação

De acordo com nossa avaliação, Stable Cascade apresenta melhor desempenho tanto no alinhamento de prompt quanto na qualidade estética em quase todas

comparações. A imagem acima mostra os resultados de uma avaliação humana usando uma mistura de parti-prompts (link) e prompts estéticos. Especificamente, Stable Cascade (30 passos de inferência) foi comparado contra Playground v2 (50 passos de inferência), SDXL (50 passos de inferência), SDXL Turbo (1 passo de inferência) e Würstchen v2 (30 passos de inferência).

Exemplo de Código

⚠️ Importante: Para o código abaixo funcionar, você deve instalar diffusers a partir deste branch enquanto o PR está em desenvolvimento.

pip install git+https://github.com/kashif/diffusers.git@wuerstchen-v3

import torch

from diffusers import StableCascadeDecoderPipeline, StableCascadePriorPipeline

device = "cuda"

num_images_per_prompt = 2

prior = StableCascadePriorPipeline.from_pretrained("stabilityai/stable-cascade-prior", torch_dtype=torch.bfloat16).to(device)

decoder = StableCascadeDecoderPipeline.from_pretrained("stabilityai/stable-cascade", torch_dtype=torch.float16).to(device)

prompt = "Gato antropomórfico vestido como piloto"

negative_prompt = ""

prior_output = prior(

prompt=prompt,

height=1024,

width=1024,

negative_prompt=negative_prompt,

guidance_scale=4.0,

num_images_per_prompt=num_images_per_prompt,

num_inference_steps=20

)

decoder_output = decoder(

image_embeddings=prior_output.image_embeddings.half(),

prompt=prompt,

negative_prompt=negative_prompt,

guidance_scale=0.0,

output_type="pil",

num_inference_steps=10

).images

#Agora decoder_output é uma lista com suas imagens PIL

Usos

Uso Direto

O modelo é destinado a fins de pesquisa por enquanto. Áreas e tarefas possíveis de pesquisa incluem

  • Pesquisa em modelos gerativos.

  • Implantação segura de modelos que têm potencial para gerar conteúdo prejudicial.

  • Investigar e entender limitações e vieses dos modelos gerativos.

  • Geração de obras de arte e uso em design e outros processos artísticos.

  • Aplicações em ferramentas educacionais ou criativas.

Usos excluídos são descritos abaixo.

Uso Fora do Escopo

O modelo não foi treinado para ser uma representação factual ou verdadeira de pessoas ou eventos,

e portanto usar o modelo para gerar tal conteúdo está fora do escopo das capacidades deste modelo.

O modelo não deve ser usado de forma que viole a Política de Uso Aceitável da Stability AI.

Limitações e Viés

Limitações

  • Rostos e pessoas em geral podem não ser gerados corretamente.

  • A parte de autoencoding do modelo é com perda de dados.

Recomendações

O modelo é destinado apenas para fins de pesquisa.

Como Começar com o Modelo

Confira https://github.com/Stability-AI/StableCascade

Anterior
Midnight - v5.0
Próximo
Emulação de Filme - Halation 35mm (Sutil)

Detalhes do Modelo

Tipo de modelo

Checkpoint

Modelo base

Stable Cascade

Versão do modelo

base

Hash do modelo

0d28c8562d

Discussão

Por favor, faça log in para deixar um comentário.

Imagens por Stable Cascade - base

Imagens com anime

Imagens com arte

Imagens com modelo base

Imagens com logo

Imagens com realismo