모델/SD XL - v1.0 VAE 수정

SD XL - v1.0 VAE 수정

김지훈 (Kim Ji-hoon)

7/2/2025

1:21:51 AM

| Discussion

팁

이 모델은 예술 작품 생성, 교육 도구, 안전한 배치 등 연구 목적으로 설계되었습니다.

사람이나 사건에 대한 사실적 또는 진실한 묘사를 생성하는 용도가 아닙니다.

제한사항으로 완벽한 사진 현실감 부재, 읽을 수 있는 텍스트 렌더링 불가, 구성적 프롬프트 처리의 어려움, 얼굴 생성 불완전함 등이 있습니다.

모델은 OpenCLIP-ViT/G와 CLIP-ViT/L 두 개의 사전 학습 텍스트 인코더를 사용합니다.

2단계 파이프라인은 기본 잠재 생성 후 SDEdit (img2img)를 이용한 고해상도 세부 조정 단계를 포함합니다.

크리에이터 스폰서

원래 Hugging Face에 게시되었으며 Stability AI의 허가를 받아 여기서 공유되었습니다.

SDXL은 잠재 확산을 위한 2단계 파이프라인으로 구성됩니다: 첫 번째 단계에서는 베이스 모델을 사용해 원하는 출력 크기의 잠재 표현을 생성합니다. 두 번째 단계에서는 특수한 고해상도 모델을 사용하며, SDEdit(https://arxiv.org/abs/2108.01073, "img2img"라고도 함)라는 기법을 이용해 첫 번째 단계에서 생성한 잠재 표현에 동일한 프롬프트로 적용합니다.

모델 설명

개발자: Stability AI
모델 유형: 확산 기반 텍스트-이미지 생성 모델
모델 설명: 이 모델은 텍스트 프롬프트를 기반으로 이미지를 생성하고 수정할 수 있습니다. 이는 두 개의 고정된 사전 학습 텍스트 인코더(OpenCLIP-ViT/G 및 CLIP-ViT/L)를 사용하는 잠재 확산 모델입니다.
추가 정보 자료: GitHub 저장소.

모델 소스

저장소: https://github.com/Stability-AI/generative-models
데모 [선택]: https://clipdrop.co/stable-diffusion

사용 사례

직접 사용

이 모델은 연구 목적으로 설계되었습니다. 가능한 연구 분야 및 작업은 다음과 같습니다

예술 작품 생성 및 디자인과 기타 예술적 과정에 활용.
교육용 또는 창작 도구에의 응용.
생성 모델에 대한 연구.
해로운 콘텐츠를 생성할 가능성이 있는 모델의 안전한 배치.
생성 모델의 한계와 편향을 탐색하고 이해하기.

제외된 사용은 아래에 설명되어 있습니다.

범위 벗어난 사용

이 모델은 사람이나 사건에 대한 사실적 또는 진실한 표현을 위해 훈련되지 않았으므로, 그러한 콘텐츠 생성을 위한 사용은 이 모델의 능력 범위 밖입니다.

제한사항 및 편향

제한사항

모델은 완벽한 사진 현실감을 달성하지 못합니다.
모델은 읽을 수 있는 텍스트를 렌더링할 수 없습니다.
“파란 구 위에 빨간 큐브”와 같은 구성적 프롬프트와 같은 어려운 작업에 어려움을 겪습니다.
얼굴 및 사람은 일반적으로 제대로 생성되지 않을 수 있습니다.
모델의 오토인코딩 부분은 손실이 있습니다.

편향

이미지 생성 모델의 성능은 인상적이지만, 사회적 편향을 강화하거나 악화시킬 수 있습니다.

위 차트는 Stable Diffusion 1.5 및 2.1에 비해 SDXL(세부 조정 포함 및 미포함)에 대한 사용자 선호도를 평가한 것입니다. SDXL 베이스 모델은 이전 버전보다 훨씬 뛰어난 성능을 보이며, 세부 조정 모듈과 결합된 모델이 전체적으로 가장 우수한 성능을 달성합니다.