ハニーブロンドの髪とエメラルドの目を持つ女性のリアルなファンタジーポートレート。頬に涙を浮かべながら上を見上げ、銀のイヤリングとネックレスを身に着けています。
黄金時間に街並みと飛行船を背景に、光る魔法の火花と共に風になびく髪の四人のネオヴィクトリアンのヒロインが屋根裏の温室にいる様子。

推奨パラメータ

steps

10 - 20

resolution

1024x1024

ヒント

Stage Cの36億パラメータ版を使用すると、主なファインチューニングが行われているため最良の結果が得られます。

Stage Bでは15億パラメータ版を使用すると、小さく細かいディテールの再現に優れています。

潜在空間が小さいため効率的なトレーニングと推論に適しており、ファインチューニング、LoRA、ControlNet、IP-Adapter、LCMなどの拡張をサポートします。

本モデルは研究目的のみに使用し、事実的表現の生成やStability AIの許容使用ポリシーに違反する用途には使用しないでください。

顔や人物は正しく生成されない場合があり、モデルの自己符号化は損失を伴います。

クリエイタースポンサー

デモ:

Stable Cascade

このモデルはWürstchenアーキテクチャを基に構築されており、Stable Diffusionのような他のモデルとの主な違いははるかに小さい潜在空間で動作することです。

なぜこれが重要なのか?潜在空間が小さいほど、推論が速くなり、トレーニングコストが安くなります。

潜在空間はどれほど小さいのか?Stable Diffusionは圧縮率が8で、1024x1024の画像を128x128にエンコードします。Stable Cascadeは圧縮率42を実現し、1024x1024の画像を24x24に圧縮しつつ鮮明な復元が可能です。テキスト条件付きモデルはこの高度に圧縮された潜在空間でトレーニングされます。以前のこのアーキテクチャバージョンはStable Diffusion 1.5に比べコストを16分の1に削減しました。 <br> <br>

したがって、このモデルは効率性が重要な用途に適しています。さらに、ファインチューニング、LoRA、ControlNet、IP-Adapter、LCMなどの既知の拡張もこの方法で利用可能です。

モデル詳細

モデル説明

Stable Cascadeはテキストプロンプトに基づき画像を生成する拡散モデルです。

  • 開発: Stability AI

  • 資金提供: Stability AI

  • モデルタイプ: テキストから画像生成の生成モデル

モデルソース

研究目的には弊社のStableCascade Githubリポジトリ(https://github.com/Stability-AI/StableCascade)をお勧めします。

モデル概要

Stable Cascadeは3つのモデル、Stage A、Stage B、Stage Cで構成され、カスケード方式で画像を生成するため、この名前が付けられています。

Stage AとBは画像圧縮に用いられ、Stable DiffusionのVAEに相当する役割を果たします。

この構成により、より高い圧縮率が可能です。Stable Diffusionが空間圧縮率8で1024 x 1024を128 x 128へエンコードするのに対し、Stable Cascadeは圧縮率42で1024 x 1024を24 x 24にエンコードし、正確なデコードが可能です。

これによりトレーニングと推論コストが大幅に削減されます。Stage Cはテキストプロンプトに基づいて24 x 24の潜在表現を生成します。以下の画像はこれを視覚的に示しています。

今回のリリースでは、Stage C用に2つ、Stage B用に2つ、Stage A用に1つのチェックポイントを提供します。Stage Cは10億パラメータ版と36億パラメータ版があり、ほとんどのファインチューニングが36億版で行われているため、そちらの使用を強く推奨します。Stage Bは7億と15億パラメータ版があり、どちらも良好な結果を出しますが、15億版は小さい細部の復元に優れています。したがって、それぞれより大きい方のバリアントを使うと最良の結果が得られます。Stage Aは2000万パラメータで小さいため固定されています。

評価

評価によれば、Stable Cascadeはほとんどの比較においてプロンプト適合度と美的品質の両方で最高のパフォーマンスを示します。上の画像は、人間評価による結果で、parti-prompts(リンク)と美的プロンプトの組み合わせで実施されました。具体的には、Stable Cascade(推論ステップ30)がPlayground v2(推論ステップ50)、SDXL(推論ステップ50)、SDXL Turbo(推論ステップ1)、Würstchen v2(推論ステップ30)と比較されました。

コード例

⚠️ 重要: 以下のコードを動作させるには、PRが作業中のこのブランチから diffusersをインストールする必要があります。

pip install git+https://github.com/kashif/diffusers.git@wuerstchen-v3

import torch

from diffusers import StableCascadeDecoderPipeline, StableCascadePriorPipeline

device = "cuda"

num_images_per_prompt = 2

prior = StableCascadePriorPipeline.from_pretrained("stabilityai/stable-cascade-prior", torch_dtype=torch.bfloat16).to(device)

decoder = StableCascadeDecoderPipeline.from_pretrained("stabilityai/stable-cascade", torch_dtype=torch.float16).to(device)

prompt = "Anthropomorphic cat dressed as a pilot"

negative_prompt = ""

prior_output = prior(

prompt=prompt,

height=1024,

width=1024,

negative_prompt=negative_prompt,

guidance_scale=4.0,

num_images_per_prompt=num_images_per_prompt,

num_inference_steps=20

)

decoder_output = decoder(

image_embeddings=prior_output.image_embeddings.half(),

prompt=prompt,

negative_prompt=negative_prompt,

guidance_scale=0.0,

output_type="pil",

num_inference_steps=10

).images

# Now decoder_output is a list with your PIL images

使用例

直接使用

このモデルは今のところ研究目的向けです。可能な研究分野・課題には以下が含まれます。

  • 生成モデルの研究。

  • 有害コンテンツ生成の可能性があるモデルの安全な運用。

  • 生成モデルの制限やバイアスの調査と理解。

  • アートワークの生成およびデザインやその他の芸術的プロセスへの応用。

  • 教育的または創造的なツールでの応用。

除外される用途については下記を参照してください。

対象外の使用

本モデルは人や出来事の事実的または真実の表現を目的としてトレーニングされておらず、

そのようなコンテンツの生成に使用することはモデルの能力の範囲外です。

また、モデルはStability AIの許容使用ポリシーに違反する方法での使用は禁止されています。

制限とバイアス

制限事項

  • 顔や人物は正しく生成されない場合があります。

  • モデルの自己符号化部分は損失を伴います。

推奨事項

本モデルは研究目的のみに使用してください。

モデルの始め方

https://github.com/Stability-AI/StableCascade をご覧ください。

前の画像
Midnight - v5.0
次の画像
フィルムエミュレーション - ハレーション 35mm(控えめ)

モデル詳細

モデルタイプ

Checkpoint

ベースモデル

Stable Cascade

モデルバージョン

base

モデルハッシュ

0d28c8562d

作成者

ディスカッション

コメントを残すには log in してください。

「Stable Cascade - ベース」による画像

ハニーブロンドの髪とエメラルドの目を持つ女性のリアルなファンタジーポートレート。頬に涙を浮かべながら上を見上げ、銀のイヤリングとネックレスを身に着けています。
黄金時間に街並みと飛行船を背景に、光る魔法の火花と共に風になびく髪の四人のネオヴィクトリアンのヒロインが屋根裏の温室にいる様子。

アニメ画像

アニメ風のエジプト系女性が砂漠に膝をつく。日焼けした肌に白髪、赤い目、白いローブとエジプトの襟飾りを着け、背景に日光が差している。
夜に青い花畑に立つショートヘアのアニメ少女。空には青く輝く光と銀河があり、遠くに街の灯りが見える。
長い黒髪と鮮やかな緑色の瞳を持ち、黒い衣装と赤い花の刺青が施された太ももまでのストッキングを着用し、赤い背景に対して刀を持つスタイライズされたアニメ少女。
都市のスカイラインに迫る空中艦隊、ストリートで戦うロボットと蒸気駆動の外骨格スーツ、激しい爆発が中心を照らし、嵐の空の下に広がる劇的な蒸気パンク戦闘シーン。
金髪で黄色い目、キツネの耳と尾を持ち、毛皮の縁取りと伝統的な髪飾りがついたカラフルな着物を着た笑顔のキツネ少女が鳥居の前に立っている。
カフェの中で、ターコイズのソファに座り、トレイに乗せたドリンクを持つピンクのチャイナドレスを着た紫青色の髪のアニメ少女。
アニメ風の金髪の少女が白いサンドレスとひまわりの飾りがついた大きなサンハットを着て、夕暮れのひまわり畑で嬉しそうに腕を挙げて立っている。
星空の下、薄暗い都市の路地に立つ、ノースリーブの黒いタートルネックセーター、黒いパンツ、指なし手袋を身に着けた、鋭い青い目と短い白髪の自信に満ちた女性。
胸元の切り抜きがある黒と金のヘルダイバーアーマーを着て、サイハイブーツを履き、ヘルメットを手に持ち、青い瞳と淡い笑みを浮かべた金髪女性
赤い編み込み髪のアニメ少女が金色の縁取りのある紺色の制服を着て、足を広げて座り、赤い目で見つめ、赤いリボンとイヤリングを着けている。

アート画像

閉じた目の顔を特徴とするクローズアップの抽象肖像画。三色インクで作成され、爆発的な筆使いとオレンジ、青、赤、黒の飛沫が感情の強さと混沌としたエネルギーを伝えています。
鮮やかな赤い顔、黄色い目、複雑な白黒の模様、羽毛のような毛皮の質感が黒い背景に描かれたマンドリルの頭部の詳細なデジタルイラスト。
夜の雨の中で人の上に迫る赤と黒のドラゴンのスケッチ。
暗い背景に際立つ赤、白、黒の色彩で描かれた水中の金魚の抽象的なアクリル画
ナポレオン時代とサイバーパンクスタイルを融合させたエレガントな金のアクセントが施された海軍制服を着た、ジンジャーヘアと青い目の決意に満ちた軍司令官の肖像。煙が立ち込める都市の要塞に立っています。
そばかすのあるエルフの女性血魔術師の詳細な肖像。スカーレットのフードとローブを身に着け、血のように赤い目と複雑な魔法の紋章が暗い森の洞窟の中で渦巻いている。
ベージュの背景に立つ女性のシルエットの周りに、赤、黄色、青、オレンジ、紫の鮮やかでカラフルなフラクタルのようなペイント飛沫が広がっている様子。
黒いレザーブラレットとハイウエストのワイドパンツを着て自信に満ちた姿で腕を広げて立つスタイリッシュな女性。彼女は長い編み込みの髪を持ち、明るい緑のプラットフォームヒールを履いています。背景は緑色のトーンと影のパターンが特徴です。
コート・ダジュール海岸上の大きな青空に白い雲と飛行機雲が広がる中、南フランス・カップ・カナイユのビーチを歩く細身の女性のシルエットを示すミニマリストのフラットベクター作品。
金箔のドレスを纏った女性のシルエットが、アジアン風景で巨大な金色の月を背景に湖に立っている。

基本モデル画像

暗く不吉な空の下、光るジャックオーランタンに照らされた不気味な墓地を歩くゾンビや骸骨を含むアンデッドキャラクターの写実的なシーン。

ロゴ画像

ストライプの従業員シャツを着て、インスタントラーメンのカップやさまざまな商品が並ぶショップカウンターの後ろに立つ、大きなイカのようなヒューマノイドキャラクターのイラスト。詳細な線画のハッチングと土色調で描かれています。
OverwatchのD.Vaキャラクターが特徴的な青とピンクのボディスーツを着てひざまずき、ハンドガンを持ち、ピンクを基調とした背景にシネマティックな照明と煙の効果を含む彼女の顔の大きな芸術的クローズアップがある。
スチームパンクスタイルのコーヒーマシンと笑顔の少女、水彩スケッチ。
ブルーアーカイブのちびシロコのピクセルアート。アイソメトリックグリッドで剣を持つ。
燃えるろうそくと果物の超リアルな静物画。
ゆがんだ解剖学の人物と背景にテキストのあるシュールなホラーイラスト。

リアリズム画像

編み込み髪の若い金髪のプリンセスが、森林の空き地での部族のパーティー中に焚き火のそばにしゃがみ込み、背景には焚き火の近くにいる人々がいる。
黒い氷河洞窟の中で、繊細なクリスタルの断片でできた冠をかぶり、凍った滝のようなガウンをまとった、鮮やかなエメラルドグリーンの瞳を持つ女性のリアルな描写。氷青色と銀色の光の屈折で照らされている。
頭を抱え机に座るオフィスワーカー、光るノートパソコンの画面に照らされ、報告書の山と金色の杯のようなエナジードリンク缶に囲まれ、豪華なバロックのカーテンの下にいる。
詳細なSergey Krasovskiy風のスタイルで描かれた、吠えるティラノサウルスが深いジャングルを歩く若い女性を追いかけている様子。
暖かいキャンドルの光で顔の半分が照らされた真っ暗な背景で灯火したキャンドルを持つ女性。
錆びた軍用プロペラ機が海上の空中を飛ぶ詳細なデジタルペイント。回転するプロペラと開いたコックピットに乗客が見え、澄んだ青空に雲が浮かんでいます。
強烈な日差しの中、背の高い草の間に立つそばかすと青い目を持つ赤毛の少女のクローズアップ写真。詳細な自然の特徴とアナログフィルムの粒子効果を示す。
ジャングルの葉と光る植物から現れる光る目を持つ超自然的な女性の顔。彼女の口からは輝く滝が流れ出る、デジタルファンタジーアート。
白髪で黄く光る目を持つ老人の劇的なクローズアップ肖像。詳細な暗色の鎧を着用し、無地の黒背景で丸い盾を持っている。
錆びつき故障したヴィンテージコーヒーメーカーが合成蒸気を放出し、ロボットアームが痙攣しながら染みのあるカウンタートップの上に置かれ、点滅する蛍光灯の下にあります。