SD XL - v1.0
Powiązane słowa kluczowe i tagi
Zalecane parametry
resolution
Wskazówki
Model jest przeznaczony do celów badawczych, w tym generowania dzieł sztuki, narzędzi edukacyjnych i bezpiecznego wdrażania.
Nie jest przeznaczony do generowania faktograficznych lub prawdziwych przedstawień osób czy wydarzeń.
Ograniczenia obejmują niedoskonały fotorealizm, niemożność generowania czytelnego tekstu, trudności z promptami kompozycyjnymi oraz możliwe błędy w generowaniu twarzy.
Model wykorzystuje dwa wytrenowane enkodery tekstu: OpenCLIP-ViT/G oraz CLIP-ViT/L.
Dwustopniowy pipeline obejmuje bazowe generowanie latentów oraz refinowanie w wysokiej rozdzielczości przy użyciu SDEdit (img2img).
Sponsorzy twórcy
Pierwotnie opublikowany na Hugging Face i udostępniony tutaj za zgodą Stability AI.
Pierwotnie opublikowany na Hugging Face i udostępniony tutaj za zgodą Stability AI.

SDXL składa się z dwustopniowego pipeline'u dla latentnej dyfuzji: najpierw używamy modelu bazowego do wygenerowania latentów o żądanym rozmiarze wyjściowym. W drugim kroku stosujemy wyspecjalizowany model wysokiej rozdzielczości oraz technikę nazwaną SDEdit (https://arxiv.org/abs/2108.01073, znaną również jako "img2img") na latentach wygenerowanych w pierwszym kroku, używając tego samego polecenia tekstowego.
Opis modelu
Opracowany przez: Stability AI
Typ modelu: Dyfuzyjny model generatywny tekst-na-obraz
Opis modelu: Jest to model służący do generowania i modyfikowania obrazów na podstawie tekstowych promptów. To Latent Diffusion Model, który wykorzystuje dwa stałe, wytrenowane enkodery tekstu (OpenCLIP-ViT/G oraz CLIP-ViT/L).
Zasoby dla dalszych informacji: Repozytorium GitHub.
Źródła modelu
Repozytorium: https://github.com/Stability-AI/generative-models
Demo [opcjonalne]: https://clipdrop.co/stable-diffusion
Zastosowania
Bezpośrednie użycie
Model jest przeznaczony wyłącznie do celów badawczych. Możliwe obszary badań i zadania obejmują
Generowanie dzieł sztuki i zastosowanie w projektowaniu oraz innych procesach artystycznych.
Zastosowania w narzędziach edukacyjnych lub kreatywnych.
Badania nad modelami generatywnymi.
Bezpieczne wdrażanie modeli o potencjale generowania szkodliwych treści.
Analiza ograniczeń i uprzedzeń modeli generatywnych.
Użycia wykluczone opisane są poniżej.
Użycie poza zakresem
Model nie został wytrenowany do wiernego odwzorowywania faktów ani rzeczywistych osób czy zdarzeń, dlatego generowanie takich treści wykracza poza jego możliwości.
Ograniczenia i uprzedzenia
Ograniczenia
Model nie osiąga perfekcyjnego fotorealizmu
Model nie potrafi generować czytelnego tekstu
Model ma trudności z bardziej złożonymi zadaniami wymagającymi komponowania, np. wygenerowanie obrazu odpowiadającego opisowi „czerwony sześcian na niebieskiej kuli”
Twarze i osoby w ogólności mogą być generowane niepoprawnie.
Część autoenkodera modelu jest stratna.
Uprzedzenia
Chociaż możliwości modeli generowania obrazów są imponujące, mogą one również wzmacniać lub pogłębiać społeczne uprzedzenia.

Powyższy wykres ocenia preferencje użytkowników dla SDXL (z i bez udoskonalenia) w porównaniu do Stable Diffusion 1.5 i 2.1. Model bazowy SDXL wypada znacznie lepiej od poprzednich wariantów, a połączony z modułem udoskonalającym osiąga najlepsze wyniki.
Szczegóły modelu
Typ modelu
Model bazowy
Wersja modelu
Hash modelu
Dyskusja
Proszę się log in, aby dodać komentarz.
