ハニヌブロンドの髪ず゚メラルドの目を持぀女性のリアルなファンタゞヌポヌトレヌト。頬に涙を浮かべながら䞊を芋䞊げ、銀のむダリングずネックレスを身に着けおいたす。
黄金時間に街䞊みず飛行船を背景に、光る魔法の火花ず共に颚になびく髪の四人のネオノィクトリアンのヒロむンが屋根裏の枩宀にいる様子。

掚奚パラメヌタ

steps

10 - 20

resolution

1024x1024

ヒント

Stage Cの36億パラメヌタ版を䜿甚するず、䞻なファむンチュヌニングが行われおいるため最良の結果が埗られたす。

Stage Bでは15億パラメヌタ版を䜿甚するず、小さく现かいディテヌルの再珟に優れおいたす。

朜圚空間が小さいため効率的なトレヌニングず掚論に適しおおり、ファむンチュヌニング、LoRA、ControlNet、IP-Adapter、LCMなどの拡匵をサポヌトしたす。

本モデルは研究目的のみに䜿甚し、事実的衚珟の生成やStability AIの蚱容䜿甚ポリシヌに違反する甚途には䜿甚しないでください。

顔や人物は正しく生成されない堎合があり、モデルの自己笊号化は損倱を䌎いたす。

クリ゚むタヌスポンサヌ

デモ:

Stable Cascade

このモデルはWÃŒrstchenアヌキテクチャを基に構築されおおり、Stable Diffusionのような他のモデルずの䞻な違いははるかに小さい朜圚空間で動䜜するこずです。

なぜこれが重芁なのか朜圚空間が小さいほど、掚論が速くなり、トレヌニングコストが安くなりたす。

朜圚空間はどれほど小さいのかStable Diffusionは圧瞮率が8で、1024x1024の画像を128x128に゚ンコヌドしたす。Stable Cascadeは圧瞮率42を実珟し、1024x1024の画像を24x24に圧瞮し぀぀鮮明な埩元が可胜です。テキスト条件付きモデルはこの高床に圧瞮された朜圚空間でトレヌニングされたす。以前のこのアヌキテクチャバヌゞョンはStable Diffusion 1.5に比べコストを16分の1に削枛したした。 <br> <br>

したがっお、このモデルは効率性が重芁な甚途に適しおいたす。さらに、ファむンチュヌニング、LoRA、ControlNet、IP-Adapter、LCMなどの既知の拡匵もこの方法で利甚可胜です。

モデル詳现

モデル説明

Stable Cascadeはテキストプロンプトに基づき画像を生成する拡散モデルです。

  • 開発: Stability AI

  • 資金提䟛: Stability AI

  • モデルタむプ: テキストから画像生成の生成モデル

モデル゜ヌス

研究目的には匊瀟のStableCascade Githubリポゞトリhttps://github.com/Stability-AI/StableCascadeをお勧めしたす。

モデル抂芁

Stable Cascadeは3぀のモデル、Stage A、Stage B、Stage Cで構成され、カスケヌド方匏で画像を生成するため、この名前が付けられおいたす。

Stage AずBは画像圧瞮に甚いられ、Stable DiffusionのVAEに盞圓する圹割を果たしたす。

この構成により、より高い圧瞮率が可胜です。Stable Diffusionが空間圧瞮率8で1024 x 1024を128 x 128ぞ゚ンコヌドするのに察し、Stable Cascadeは圧瞮率42で1024 x 1024を24 x 24に゚ンコヌドし、正確なデコヌドが可胜です。

これによりトレヌニングず掚論コストが倧幅に削枛されたす。Stage Cはテキストプロンプトに基づいお24 x 24の朜圚衚珟を生成したす。以䞋の画像はこれを芖芚的に瀺しおいたす。

今回のリリヌスでは、Stage C甚に2぀、Stage B甚に2぀、Stage A甚に1぀のチェックポむントを提䟛したす。Stage Cは10億パラメヌタ版ず36億パラメヌタ版があり、ほずんどのファむンチュヌニングが36億版で行われおいるため、そちらの䜿甚を匷く掚奚したす。Stage Bは7億ず15億パラメヌタ版があり、どちらも良奜な結果を出したすが、15億版は小さい现郚の埩元に優れおいたす。したがっお、それぞれより倧きい方のバリアントを䜿うず最良の結果が埗られたす。Stage Aは2000䞇パラメヌタで小さいため固定されおいたす。

評䟡

評䟡によれば、Stable Cascadeはほずんどの比范においおプロンプト適合床ず矎的品質の䞡方で最高のパフォヌマンスを瀺したす。䞊の画像は、人間評䟡による結果で、parti-promptsリンクず矎的プロンプトの組み合わせで実斜されたした。具䜓的には、Stable Cascade掚論ステップ30がPlayground v2掚論ステップ50、SDXL掚論ステップ50、SDXL Turbo掚論ステップ1、WÃŒrstchen v2掚論ステップ30ず比范されたした。

コヌド䟋

⚠ 重芁: 以䞋のコヌドを動䜜させるには、PRが䜜業䞭のこのブランチから diffusersをむンストヌルする必芁がありたす。

pip install git+https://github.com/kashif/diffusers.git@wuerstchen-v3

import torch

from diffusers import StableCascadeDecoderPipeline, StableCascadePriorPipeline

device = "cuda"

num_images_per_prompt = 2

prior = StableCascadePriorPipeline.from_pretrained("stabilityai/stable-cascade-prior", torch_dtype=torch.bfloat16).to(device)

decoder = StableCascadeDecoderPipeline.from_pretrained("stabilityai/stable-cascade", torch_dtype=torch.float16).to(device)

prompt = "Anthropomorphic cat dressed as a pilot"

negative_prompt = ""

prior_output = prior(

prompt=prompt,

height=1024,

width=1024,

negative_prompt=negative_prompt,

guidance_scale=4.0,

num_images_per_prompt=num_images_per_prompt,

num_inference_steps=20

)

decoder_output = decoder(

image_embeddings=prior_output.image_embeddings.half(),

prompt=prompt,

negative_prompt=negative_prompt,

guidance_scale=0.0,

output_type="pil",

num_inference_steps=10

).images

# Now decoder_output is a list with your PIL images

䜿甚䟋

盎接䜿甚

このモデルは今のずころ研究目的向けです。可胜な研究分野・課題には以䞋が含たれたす。

  • 生成モデルの研究。

  • 有害コンテンツ生成の可胜性があるモデルの安党な運甚。

  • 生成モデルの制限やバむアスの調査ず理解。

  • アヌトワヌクの生成およびデザむンやその他の芞術的プロセスぞの応甚。

  • 教育的たたは創造的なツヌルでの応甚。

陀倖される甚途に぀いおは䞋蚘を参照しおください。

察象倖の䜿甚

本モデルは人や出来事の事実的たたは真実の衚珟を目的ずしおトレヌニングされおおらず、

そのようなコンテンツの生成に䜿甚するこずはモデルの胜力の範囲倖です。

たた、モデルはStability AIの蚱容䜿甚ポリシヌに違反する方法での䜿甚は犁止されおいたす。

制限ずバむアス

制限事項

  • 顔や人物は正しく生成されない堎合がありたす。

  • モデルの自己笊号化郚分は損倱を䌎いたす。

掚奚事項

本モデルは研究目的のみに䜿甚しおください。

モデルの始め方

https://github.com/Stability-AI/StableCascade をご芧ください。

次の画像
フィルム゚ミュレヌション - ハレヌション 35mm控えめ

モデル詳现

モデルタむプ

Checkpoint

ベヌスモデル

Stable Cascade

モデルバヌゞョン

base

モデルハッシュ

0d28c8562d

䜜成者

ディスカッション

コメントを残すには log in しおください。

「Stable Cascade - ベヌス」による画像

アニメ画像

アヌト画像

基本モデル画像

ロゎ画像

リアリズム画像