허니 블론드 머리와 에메랄드 눈을 가진 여성의 사실적인 판타지 초상화로, 눈가에 눈물이 맺히고 은색 귀걸이와 목걸이를 착용한 채 위를 바라보고 있음
황금 시간대 도시 전경과 비행선이 배경인 햇살 가득한 다락 온실에서 머리카락이 휘날리고 마법 불꽃이 번쩍이는 네 명의 네오-빅토리안 영웅들.

추천 매개변수

steps

10 - 20

resolution

1024x1024

최상의 결과를 위해 주로 파인튜닝이 이루어진 스테이지 C의 36억 파라미터 버전을 사용하세요.

스테이지 B에서는 작은 세부 묘사 복원에 강한 15억 파라미터 버전을 사용하세요.

모델은 작은 잠재 공간 덕분에 효율적인 학습 및 추론에 적합하며, 파인튜닝, LoRA, ControlNet, IP-Adapter, LCM과 같은 확장 기능을 지원합니다.

모델은 연구 목적용이며, 사실적인 표현 생성이나 Stability AI의 허용 가능한 사용 정책 위반에 사용되어서는 안 됩니다.

얼굴 및 사람 이미지가 제대로 생성되지 않을 수 있으며, 모델의 자동 인코딩은 손실이 있습니다.

크리에이터 스폰서

데모:

Stable Cascade

이 모델은 Würstchen 아키텍처를 기반으로 하며, 다른 Stable Diffusion과 같은 모델들과의 주요 차이점은 훨씬 더 작은 잠재 공간에서 작동한다는 점입니다.

왜 중요할까요? 잠재 공간이 작을수록 더 빠르게 추론을 실행할 수 있고, 더 저렴하게 학습이 가능합니다.

얼마나 작은 잠재 공간인가요? Stable Diffusion은 압축 계수 8을 사용하여 1024x1024 이미지를 128x128로 인코딩합니다. Stable Cascade는 압축 계수 42를 달성하여 1024x1024 이미지를 24x24로 인코딩하면서도 선명한 복원이 가능합니다. 텍스트 조건 모델은 이렇게 고도로 압축된 잠재 공간에서 학습됩니다. 이전 버전의 이 아키텍처는 Stable Diffusion 1.5 대비 16배의 비용 절감을 이뤘습니다.<br> <br>

따라서, 효율성이 중요한 용도에 매우 적합한 모델입니다. 또한, 파인튜닝, LoRA, ControlNet, IP-Adapter, LCM 등 알려진 모든 확장 기능들이 이 방법으로도 가능합니다.

모델 세부 정보

모델 설명

Stable Cascade는 텍스트 프롬프트 입력 시 이미지를 생성하도록 훈련된 확산 모델입니다.

  • 개발자: Stability AI

  • 자금 지원: Stability AI

  • 모델 유형: 생성 텍스트-이미지 모델

모델 소스

연구 목적을 위해, 저희는 StableCascade 깃허브 저장소를 추천합니다 (https://github.com/Stability-AI/StableCascade).

모델 개요

Stable Cascade는 이미지 생성을 위한 세 개의 모델, 즉 스테이지 A, B, C로 구성되어 있어, 이름처럼 '안정적인 단계적' 생성을 구현합니다.

스테이지 A와 B는 이미지를 압축하는 역할을 하며, 이는 Stable Diffusion의 VAE와 유사합니다.

그러나 이 설정을 통해 더 높은 압축률을 달성할 수 있습니다. Stable Diffusion 모델이 8배 공간 압축을 사용해 1024 x 1024 이미지를 128 x 128로 인코딩하는 반면, Stable Cascade는 42배 압축을 달성하여 1024 x 1024 이미지를 24 x 24로 인코딩하면서 정확한 복원이 가능합니다.

이로 인해 학습과 추론 비용이 크게 절감됩니다. 또한, 스테이지 C는 텍스트 프롬프트를 받아 24 x 24 크기의 잠재 표현을 생성하는 역할을 합니다. 아래 이미지는 이를 시각적으로 보여줍니다.

이번 릴리즈에서는 스테이지 C용 체크포인트 2개, 스테이지 B용 2개, 스테이지 A용 1개를 제공합니다. 스테이지 C는 10억과 36억 파라미터 버전을 제공하지만, 대부분의 파인튜닝이 36억 버전에 이루어져 있어 이 버전 사용을 권장합니다.

스테이지 B의 두 버전은 각각 7억과 15억 파라미터이며, 둘 다 훌륭한 결과를 내지만 15억 버전이 작은 세부 묘사 복원에 뛰어납니다. 따라서 각 단계별로 더 큰 버전을 사용할 때 최상의 결과를 얻을 수 있습니다. 마지막으로, 스테이지 A는 2000만 파라미터로 크기가 작아 고정되어 있습니다.

평가

저희 평가에 따르면, Stable Cascade는 거의 모든 비교에서 프롬프트 정렬과 미적 품질 면에서 최고 성능을 보였습니다. 위 이미지는 parti-prompts(링크)와 미적 프롬프트 혼합을 사용한 인간 평가 결과를 보여줍니다. 특히 Stable Cascade(30 추론 단계)는 Playground v2(50 추론 단계), SDXL(50 추론 단계), SDXL Turbo(1 추론 단계), 그리고 Würstchen v2(30 추론 단계)와 비교되었습니다.

코드 예제

⚠️ 중요: 아래 코드를 실행하려면 diffusers의 PR이 진행 중인 이 브랜치에서 설치해야 합니다.

pip install git+https://github.com/kashif/diffusers.git@wuerstchen-v3

import torch

from diffusers import StableCascadeDecoderPipeline, StableCascadePriorPipeline

device = "cuda"

num_images_per_prompt = 2

prior = StableCascadePriorPipeline.from_pretrained("stabilityai/stable-cascade-prior", torch_dtype=torch.bfloat16).to(device)

decoder = StableCascadeDecoderPipeline.from_pretrained("stabilityai/stable-cascade", torch_dtype=torch.float16).to(device)

prompt = "Anthropomorphic cat dressed as a pilot"

negative_prompt = ""

prior_output = prior(

prompt=prompt,

height=1024,

width=1024,

negative_prompt=negative_prompt,

guidance_scale=4.0,

num_images_per_prompt=num_images_per_prompt,

num_inference_steps=20

)

decoder_output = decoder(

image_embeddings=prior_output.image_embeddings.half(),

prompt=prompt,

negative_prompt=negative_prompt,

guidance_scale=0.0,

output_type="pil",

num_inference_steps=10

).images

#이제 decoder_output은 PIL 이미지 리스트입니다

활용법

직접 사용

이 모델은 현재 연구 목적을 위해 설계되었습니다. 가능한 연구 영역 및 작업은 다음과 같습니다.

  • 생성 모델에 대한 연구.

  • 유해 콘텐츠 생성 가능성이 있는 모델의 안전한 배포.

  • 생성 모델의 한계 및 편향성 조사 및 이해.

  • 예술 작품 생성 및 디자인 등 예술적 과정에 활용.

  • 교육적 또는 창작 도구로의 응용.

제외되는 사용 사례는 아래에 설명되어 있습니다.

적용 범위 외 사용

이 모델은 사람이나 사건에 대한 사실적 또는 진실한 표현을 위해 훈련되지 않았으므로, 그러한 콘텐츠 생성을 목적으로 하는 사용은 모델 능력의 범위를 벗어납니다.

또한 모델은 Stability AI의 허용 가능한 사용 정책를 위반하는 방식으로 사용되어서는 안 됩니다.

제한 사항 및 편향

제한 사항

  • 얼굴과 일반적인 사람 인식이 제대로 생성되지 않을 수 있습니다.

  • 모델의 자동 인코딩 부분은 손실이 발생합니다.

권장 사항

이 모델은 연구 용도로만 사용하도록 설계되었습니다.

모델 시작 가이드

자세한 내용은 https://github.com/Stability-AI/StableCascade 를 확인하세요.

이전
Midnight - v5.0
다음
필름 에뮬레이션 - 할레이션 35mm (미묘한)

모델 세부사항

모델 유형

Checkpoint

기본 모델

Stable Cascade

모델 버전

base

모델 해시

0d28c8562d

제작자

토론

댓글을 남기려면 log in하세요.

Stable Cascade - 기본 제작 이미지

허니 블론드 머리와 에메랄드 눈을 가진 여성의 사실적인 판타지 초상화로, 눈가에 눈물이 맺히고 은색 귀걸이와 목걸이를 착용한 채 위를 바라보고 있음
황금 시간대 도시 전경과 비행선이 배경인 햇살 가득한 다락 온실에서 머리카락이 휘날리고 마법 불꽃이 번쩍이는 네 명의 네오-빅토리안 영웅들.

애니메 이미지

사막에 무릎을 꿇은 애니메 스타일의 이집트 여성, 흰 피부, 흰 머리, 붉은 눈, 흰색 로브와 이집트식 목걸이 착용, 배경에 햇살.
짧은 머리를 한 애니메 소녀가 밤의 파란 꽃밭에 서 있으며, 하늘에는 빛나는 파란 빛과 은하수가 있고, 멀리 도시의 불빛이 보인다.
길고 검은 머리와 선명한 초록색 눈을 가진 스타일리시한 애니메이션 소녀가 검은색 의상과 빨간 꽃 문신이 장식된 무릎 위까지 오는 스타킹을 착용하고 빨간 배경 앞에서 카타나를 들고 있음.
폭풍우가 몰아치는 하늘 아래 도시 스카이라인을 배경으로 한 비행선이 떠 있는 극적인 스팀펑크 전투 장면, 거리에서 로봇과 증기 동력 외골격 수트가 싸우고 있으며 중심에서 폭발이 빛나고 있다.
전통 머리 장식과 털 트림이 있는 화려한 기모노를 입고, 금발 머리와 노란 눈, 여우 귀와 꼬리를 가진 미소 짓는 여우 소녀가 토리이 문 앞에 서 있다.
핑크 치파오를 입은 보라-파란 머리의 애니메이션 소녀가 카페에서 청록색 소파에 앉아 음료가 담긴 쟁반을 들고 있습니다.
흰색 원피스와 해바라기 장식이 달린 큰 선햇을 쓴 애니메이션 스타일 금발 소녀가 해가 지는 해바라기 밭에서 팔을 들고 행복하게 서 있습니다.
민소매 검은 터틀넥 스웨터, 검은 바지, 손가락 없는 장갑을 착용하고 짧은 흰 머리와 찌르는 듯한 파란 눈을 가진 자신감 있는 여성이 별이 빛나는 밤하늘 아래 어둑한 도시 골목에 서 있다.
가슴 파임이 있는 검정과 금색 헬다이버 갑옷, 허벅지 부츠를 착용하고 헬멧을 든 금발 여성, 파란 눈과 은은한 미소
빨간 머리를 땋은 땋은 머리 스타일의 애니메 소녀, 금색 트림이 있는 해군색 학교 교복을 입고 다리를 벌리고 앉아 있으며 빨간 눈으로 시청자를 바라보고 빨간 리본과 귀걸이를 착용하고 있습니다.

예술 이미지

감정적 강도와 혼란스러운 에너지를 전달하는 오렌지, 파랑, 빨강, 검정의 스플래시와 폭발적인 붓 터치로 만들어진 눈을 감은 얼굴이 강조된 클로즈업 추상 초상화
검은 배경에 생생한 빨간 얼굴, 노란 눈, 정교한 흑백 패턴과 깃털 같은 털 질감이 표현된 Mandrill 머리의 매우 상세한 디지털 일러스트.
비 오는 밤에 사람 위에 드리운 빨간색과 검은색 용의 스케치.
어두운 배경 위에 강렬한 빨강, 흰색, 검정 색상의 수중 금붕어를 그린 추상 아크릴화
복합된 나폴레옹 시대와 사이버펑크 스타일의 우아한 금장 해군 제복을 입은 진홍색 머리와 파란 눈을 가진 결연한 군사 지휘관의 초상화, 연기 낀 도시 요새에 서 있음.
주근깨가 있는 엘프 Hemomancer 여성의 정교한 초상화로, 주홍색 후드와 로브를 입고 피처럼 붉은 눈과 복잡한 마법 기호들이 어두운 숲 동굴에서 소용돌이치는 모습입니다.
베이지색 배경에 서 있는 여성의 실루엣과 그녀 주변으로 붉은색, 노란색, 파란색, 주황색, 보라색의 선명한 프랙탈 같은 페인트 스플래시.
검은 가죽 브라렛과 하이웨이스트 와이드 팬츠를 입고 팔을 뻗으며 자신감 있게 서 있는 스타일리시한 여성. 그녀는 긴 땋은 머리와 밝은 녹색 플랫폼 힐을 신고 있습니다. 배경은 녹색 톤과 그림자 패턴으로 구성되어 있습니다.
코트다쥐르 해안을 배경으로 푸른 하늘과 흰 구름, 비행기 꼬리 구름이 가득한 남프랑스 캡 카나이유 해변을 걸어가는 날씬한 여성 실루엣을 보여주는 미니멀리스트 평면 벡터 아트워크.
아시아 풍경을 배경으로 한 거대한 황금 달 앞 호수에 서 있는 금박 드레스를 입은 여성의 실루엣

기본 모델 이미지

어둡고 불길한 하늘 아래 빛나는 잭오랜턴 조명으로 밝힌 음산한 무덤을 걷는 좀비와 해골을 포함한 언데드 캐릭터들의 사진 같은 장면.

logo 이미지

줄무늬 직원 셔츠를 입은 큰 오징어 같은 인간형 캐릭터가 즉석 라면 컵과 다양한 물품이 가득한 가게 계산대 뒤에 서 있는 모습을 세밀한 선형 해칭과 어스톤 색조로 그린 일러스트.
오버워치 D.Va 캐릭터가 대표 파란색과 분홍색 바디수트를 입고 무릎을 꿇은 채 핸드건을 들고 있으며, 분홍색 테마의 배경에 영화적 조명과 연기 효과가 특징인 얼굴 클로즈업 아트워크가 크게 나타나 있습니다.
스팀펑크 스타일 커피 머신과 미소 짓는 소녀, 수채화 스케치.
아이소메트릭 격자 위에서 검을 들고 있는 블루 아카이브의 치비 시로코 픽셀 아트.
Stable Diffusion을 사용하여 AI가 생성한 다양한 과일과 켜진 촛불이 있는 세밀한 정물화.
근육질 남성이 영웅적인 자세로 긴 흘러내리는 머리를 하고 신비로운 상징과 유령 손에 둘러싸인 빈티지 스타일 일러스트, stable diffusion으로 AI 생성.

리얼리즘 이미지

숲속 공터에서 부족 파티 중 모닥불 옆에 앉아 있는 땋은 머리의 금발 어린 공주, 배경에는 불 근처에 사람들이 모여 있습니다.
어두운 빙하 동굴에서 얼음빛과 은빛 빛이 굴절되어 비치는 가운데, 섬세한 수정 조각으로 만든 왕관을 쓴 선명한 에메랄드 녹색 눈을 가진 여성의 사실적인 묘사, 얼어붙은 폭포를 닮은 드레스를 입고 있음.
호화로운 바로크 커튼 아래에서 빛나는 노트북 화면에 의해 조명된 채 머리를 감싸쥐고 책상에 앉아 있는 회사원, 보고서 더미와 금빛 성배를 닮은 에너지 음료 캔들이 주변에 쌓여 있다.
Sergey Krasovskiy의 세밀한 스타일로 묘사된, 조밀한 정글 속을 걷는 젊은 여성을 쫓는 포효하는 티라노사우루스 렉스.
어두운 배경에서 촛불을 들고 따뜻한 촛불 빛으로 얼굴의 절반이 밝혀진 여성.
맑은 파란 하늘과 구름 아래, 회전하는 프로펠러와 승객이 보이는 열린 조종석을 가진 녹슨 군용 프로펠러기가 바다 위 공중에서 비행하는 정교한 디지털 페인팅.
강렬한 햇빛 속 키 큰 풀들 사이에 서 있는 주근깨와 파란 눈을 가진 붉은 머리 소녀의 클로즈업 사진으로, 자세한 자연스러운 특징과 아날로그 필름 그레인 효과를 보여줌.
정글 잎사귀와 빛나는 식물 사이에서 나타나는 빛나는 눈을 가진 초자연적 여성 얼굴, 입에서 빛나는 폭포가 흐르는 디지털 판타지 아트.
흰 머리에 노란 눈이 빛나는 노인이 자세히 묘사된 검은 갑옷을 입고 단색 검은 배경 앞에서 둥근 방패를 들고 있는 극적인 클로즈업 초상화.
녹슬고 고장난 빈티지 커피 메이커가 합성 증기를 내뿜고 있으며, 로봇 팔이 떨리고 있는 모습이 얼룩진 조리대 위에 있고, 깜박이는 형광등 아래에 있습니다.