一幅逼真的奇幻肖像,描繪一名擁有蜂蜜金髮和翡翠眼睛的女性,正向上凝視,臉頰帶有淚痕,佩戴銀色耳環和項鍊。
四位新維多利亞女英雄坐落於陽光充足的閣樓溫室,長髮飛揚且伴有魔法火花,背景為黃金時刻的城市景觀及飛艇。

推薦參數

steps

10 - 20

resolution

1024x1024

提示

使用階段 C 的 36 億參數版本以獲得最佳效果,因主要微調工作基於該版本完成。

階段 B 建議使用 15 億參數版本,能更好地重建細小且精細的細節。

模型因潛在空間較小,適合高效訓練與推理,且支持微調、LoRA、ControlNet、IP-Adapter 和 LCM 等擴展。

該模型僅限於研究用途,禁止用於生成事實性內容或違反 Stability AI 可接受使用政策。

由於模型的自動編碼有損失,面孔和人物生成可能不夠準確。

創作者贊助

演示:

Stable Cascade

此模型基於 Würstchen 架構,與 Stable Diffusion 等其他模型的主要區別在於它在更小的潛在空間中運作。

這點為何重要?潛在空間越小,推理速度越快,且訓練成本越低

潛在空間有多小?Stable Diffusion 使用 8 倍壓縮因子,將 1024x1024 的圖像編碼為 128x128。Stable Cascade 則達到 42 倍壓縮,能將 1024x1024 圖像編碼成 24x24,同時保持清晰的重建效果。該文本條件模型在高度壓縮的潛在空間中進行訓練。該架構的先前版本相較 Stable Diffusion 1.5 實現 16 倍的成本降低。<br> <br>

因此,此類模型非常適合重視效率的使用場景。此外,所有已知擴展如微調、LoRA、ControlNet、IP-Adapter、LCM 等也皆可透過此方法實現。

模型細節

模型描述

Stable Cascade 是一款訓練用以根據文本提示生成圖像的擴散模型。

  • 開發者: Stability AI

  • 資助者: Stability AI

  • 模型類型: 生成文本到圖像模型

模型來源

研究用途推薦訪問我們的 StableCascade Github 倉庫 (https://github.com/Stability-AI/StableCascade)。

模型概述

Stable Cascade 由三個模型組成:階段 A、階段 B 和階段 C,組成生成圖像的級聯,故名“Stable Cascade”。

階段 A 和 B 用於圖像壓縮,類似 Stable Diffusion 中 VAE 的作用。

但該設置能實現更高比例的圖像壓縮。Stable Diffusion 使用 8 倍空間壓縮,將解析度為 1024 x 1024 的圖像編碼為 128 x 128,Stable Cascade 則達到 42 倍壓縮,將 1024 x 1024 編碼為 24 x 24,且能精確解碼圖像。這帶來了訓練和推理成本更低的巨大好處。此外,階段 C 負責根據文本提示生成小尺寸的 24 x 24 潛在向量。以下圖片為該流程的視覺展示。

此次發布提供階段 C 兩個檢查點,階段 B 兩個檢查點和階段 A 一個檢查點。階段 C 有 10 億和 36 億參數版本,強烈建議使用 36 億版本,因大部分微調工作在此版本完成。階段 B 的兩個版本分別為 7 億和 15 億參數,兩者均有優秀表現,但 15 億版本更擅長重建細小細節。因此,使用較大版本可獲得最佳效果。階段 A 由於規模小(2000 萬參數)故為固定模型。

評估

根據我們的評估,Stable Cascade 幾乎在所有比較中,在提示對齊和美學質量方面表現最佳。上述圖片展示了使用混合部分提示(連結)和美學提示的人類評估結果。具體而言,Stable Cascade(30 推理步驟)對比 Playground v2(50 推理步驟)、SDXL(50 推理步驟)、SDXL Turbo(1 推理步驟)以及 Würstchen v2(30 推理步驟)。

代碼示例

⚠️ 注意:為使以下代碼正常運行,你需要安裝當前 PR 正在進行中的 diffusers 分支。

pip install git+https://github.com/kashif/diffusers.git@wuerstchen-v3

import torch

from diffusers import StableCascadeDecoderPipeline, StableCascadePriorPipeline

device = "cuda"

num_images_per_prompt = 2

prior = StableCascadePriorPipeline.from_pretrained("stabilityai/stable-cascade-prior", torch_dtype=torch.bfloat16).to(device)

decoder = StableCascadeDecoderPipeline.from_pretrained("stabilityai/stable-cascade", torch_dtype=torch.float16).to(device)

prompt = "Anthropomorphic cat dressed as a pilot"

negative_prompt = ""

prior_output = prior(

prompt=prompt,

height=1024,

width=1024,

negative_prompt=negative_prompt,

guidance_scale=4.0,

num_images_per_prompt=num_images_per_prompt,

num_inference_steps=20

)

decoder_output = decoder(

image_embeddings=prior_output.image_embeddings.half(),

prompt=prompt,

negative_prompt=negative_prompt,

guidance_scale=0.0,

output_type="pil",

num_inference_steps=10

).images

#現在 decoder_output 是包含你的 PIL 圖像的列表

用途

直接使用

該模型目前主要服務於研究用途。可能的研究領域和任務包括:

  • 生成模型研究。

  • 安全部署具有生成有害內容潛力的模型。

  • 探查並理解生成模型的限制與偏差。

  • 藝術創作生成及設計等藝術過程應用。

  • 教育或創意工具中的應用。

以下描述的用途不在模型適用範圍內。

超出適用範圍的用途

該模型未經訓練用以生成人物或事件的事實性或真實表徵,

因此將其用於生成此類內容不屬於模型能力範圍內。

模型不得用於任何違反 Stability AI 可接受使用政策的方式。

限制與偏差

限制

  • 人物與面孔生成可能不夠準確。

  • 模型的自動編碼部分存在資料損失。

建議

該模型僅用於研究目的。

如何開始使用該模型

詳見 https://github.com/Stability-AI/StableCascade

上一個
Midnight - v5.0
下一個
膠片仿真 - Halation 35mm(微妙)

模型詳情

模型類型

Checkpoint

基礎模型

Stable Cascade

模型版本

base

模型雜湊值

0d28c8562d

創作者

討論

log in以發表評論。

Stable Cascade - 基礎版 的圖片

一幅逼真的奇幻肖像,描繪一名擁有蜂蜜金髮和翡翠眼睛的女性,正向上凝視,臉頰帶有淚痕,佩戴銀色耳環和項鍊。
四位新維多利亞女英雄坐落於陽光充足的閣樓溫室,長髮飛揚且伴有魔法火花,背景為黃金時刻的城市景觀及飛艇。

動畫 圖片

動漫風格的埃及女性跪在沙漠中,棕褐色皮膚,白髮,紅眼睛,穿著白色長袍和埃及項圈,背景有陽光照射。
短髮動漫少女夜晚站立於藍色花田,天空中有發光的藍色光芒與銀河,遠處有城市燈光。
一位風格化的動漫女孩,長黑髮和鮮明綠眼,穿著黑色服裝及飾有紅花刺青的大腿高筒襪,手持刀,紅色背景襯托。
一個戲劇性的蒸汽朋克戰鬥場景,空戰船盤旋於城市天際線之上,機械人和蒸汽動力外骨骼在街道上激戰,一場爆炸照亮中心,暴風雨的天空下。
一位微笑的狐女,金髮、黃眼、狐耳與狐尾,穿著帶有毛皮邊飾和傳統髮飾的色彩繽紛和服,站在鳥居前。
紫藍色頭髮的動漫女孩穿著粉紅色唐裝,坐在青綠色沙發上,手持托盤端飲料,背景是咖啡館環境。
動漫風格的金髮少女,穿著白色無袖洋裝和帶有向日葵裝飾的大太陽帽,在夕陽中的向日葵田裡快樂地舉起雙臂站立。
一位自信的女子,短白髮與銳利藍眼,穿著無袖黑色高領毛衣、黑褲及無指手套,站在微暗的城市巷道內,星空璀璨。
穿著黑金色helldiver盔甲,帶有乳溝剪裁和過膝長靴的金髮女性,手持頭盔,擁有藍眼睛和淡淡微笑
辮著紅髮、穿著海軍藍帶金邊校服的動漫女孩,雙腿分開坐著,紅眼睛看著觀眾,佩戴紅色緞帶和耳環。

藝術 圖片

特寫抽象肖像,描繪閉眼的面孔,使用三色墨水和爆炸性筆觸繪製,橙色、藍色、紅色及黑色飛濺,傳達情感強度與混沌能量。
高度細緻的Mandrill頭部數碼插畫,面部鮮紅,黃色眼睛,黑白複雜圖案及羽毛毛皮質感,黑色背景。
雨夜中一條紅黑色龍在一個人頭頂上方籠罩的素描畫。
水中金魚抽象壓克力畫,醒目的紅、白、黑色調配以深色背景
一位具有決心的軍事指揮官肖像,擁有薑黃色頭髮和藍色眼睛,穿著優雅且以金色點綴的海軍制服,融合了拿破崙時代與賽博朋克風格,站立於煙霧瀰漫的都市據點中。
一位雀斑精靈女性血魔法師的細緻肖像,她戴著紅色頭巾和長袍,擁有血紅色眼睛和錯綜複雜的魔法符號,在黑暗森林洞穴中盤旋。
一名女人的輪廓站立在米色背景前,周圍有鮮艷多彩的分形狀油漆飛濺,色彩包括紅、黃、藍、橙和紫色。
時尚女性穿著黑色皮革背心和高腰寬褲,自信地站立,雙臂張開。她有長長的編織髮型和亮綠色厚底高跟鞋。背景為綠色調,帶有陰影圖案。
極簡平面矢量藝術,展現一位纖瘦女子剪影在法國南部 Cap Canaille 海灘漫步,背景為滿布白雲與飛機尾跡的藍色天空及蔚藍海岸 Côte d'Azur。
一位穿著金箔裙的女性剪影,站立於湖中,背景是巨大的金色月亮,設定為亞洲景致。

基礎模型 圖片

寫實風不死角色場景,包括殭屍與骷髏穿行於由發光南瓜燈照亮的陰暗、詭譎天空下的恐怖墳場。

logo 圖片

一幅穿著條紋員工衫的大型魷魚樣人形角色插畫,站在擺滿即食麵杯和各種商品的店舖櫃檯後,以詳盡的線性剖面和泥土色調繪製。
Overwatch 的 D.Va 角色,穿著她標誌性的藍粉色緊身衣膝跪,手持手槍,背景為粉紅主題,配有電影風格燈光和煙霧效果,並有她面部的藝術大特寫。
蒸汽龐克風格咖啡機與微笑女孩,水彩素描。
Blue Archive中chibi Shiroko的像素藝術,持劍,處於等角格子上。
使用 Stable Diffusion AI 生成的詳細靜物圖像,包含多種水果與燃燒的蠟燭。
復古風格的插圖,描繪一位長髮飄逸、肌肉發達的男子擺出英雄姿勢,周圍環繞著神秘符號與幽靈般的手掌,使用 stable diffusion AI 生成。

寫實主義 圖片

一位金髮年輕公主編著辮子,蹲伏在森林空地一堆篝火旁,背景中圍繞著多個人物,近篝火處於部落派對場景。
逼真描繪一名女子擁有醒目翡翠綠眼,戴著由精緻水晶碎片組成的冠冕,穿著如冰凍瀑布般的禮服,於黑暗冰川洞穴中,受到冰藍和銀色光線折射照亮。
一名上班族坐在書桌前,頭埋在雙手中,被發光的筆記本電腦屏幕照亮,周圍堆滿報告和像金色聖杯般的能量飲料罐,置於豪華的巴洛克窗簾下。
一隻咆哮的暴龍在茂密的叢林中追趕一名年輕女子,採用 Sergey Krasovskiy 細緻風格描繪。
一名女子手持點燃的蠟燭,漆黑背景中溫暖的燭光照亮她半邊臉龐。
一幅細緻的數碼繪畫,描繪一架鐵鏽的軍用螺旋槳飛機在海洋上空飛行,螺旋槳快速旋轉,開放駕駛艙內有乘客,背景是晴朗藍天與白雲。
烈日下,紅髮有雀斑藍眼女孩站立於高草中之特寫照片,展示細緻自然特徵與類比膠片粒子效果。
一張超自然女性面孔,發光眼睛從叢林葉子和發光植物中浮現,嘴巴流出一條光芒瀑布,數碼幻想藝術。
戲劇性特寫肖像,展現一位白髮且擁有發光黃眼的老者,穿著細節豐富的黑暗盔甲,手持圓盾,背景為純黑色。
一台生鏽且故障的復古咖啡機散發合成蒸汽,機械手臂抽搐,放置在有污漬的檯面上,背景是閃爍的熒光燈。