Dramatyczny obraz wrony lecącej z rozpostartymi skrzydłami, prezentujący ogniste pomarańczowe pióra na tle ponurego nieba.
Robotyczny terminator pokryty wzorami kości stoi na świecącej podłodze z lawy otoczony rozrzuconymi kośćmi w surrealistycznej piekielnej jaskini.
Zbliżenie czarno-białego obrazu kobiecych rozchylonych ust z widocznymi zębami, nałożone abstrakcyjne wzory interferencyjne.
Czarno-biała panorama miasta pokazująca sylwetki ludzi spacerujących przez mglisty miejski krajobraz z wysokimi budynkami w tle.
Widok zbliżenia ciekawego obcego z dużymi refleksyjnymi oczami, szczegółową teksturą skóry obcego, stojącego wśród obcej flory z górami w tle, pod efektami obiektywu szerokokątnego i ziarnistości filmu.
Widok z bliska na wysoce szczegółową twarz obcego z dużymi odbijającymi się oczami pokazującymi obcy krajobraz, uchwycony przez międzygwiezdną sondę z efektem ziarnistości filmu.
Hiperrealistyczny portret rzeźbiarskiej młodej rudej kobiety z kręconymi włosami na zewnątrz w marzycielskim panoramie z rozmytym, jałowym krajobrazem w tle.
Hiperrealistyczne zbliżenie zielonego oka otoczonego piegami, z rudymi włosami i czarnie pomalowanymi ustami.
Portret kobiety z długimi rudymi włosami, piegami na białej skórze, jasnozielonymi oczami, czarnymi ustami oraz misternymi detalami w stylu hiperrealistycznym.

Zalecane parametry

resolution

525x525

Wskazówki

Model jest przeznaczony do celów badawczych, w tym generowania dzieł sztuki, narzędzi edukacyjnych i bezpiecznego wdrażania.

Nie jest przeznaczony do generowania faktograficznych lub prawdziwych przedstawień osób czy wydarzeń.

Ograniczenia obejmują niedoskonały fotorealizm, niemożność generowania czytelnego tekstu, trudności z promptami kompozycyjnymi oraz możliwe błędy w generowaniu twarzy.

Model wykorzystuje dwa wytrenowane enkodery tekstu: OpenCLIP-ViT/G oraz CLIP-ViT/L.

Dwustopniowy pipeline obejmuje bazowe generowanie latentów oraz refinowanie w wysokiej rozdzielczości przy użyciu SDEdit (img2img).

Sponsorzy twórcy

Pierwotnie opublikowany na Hugging Face i udostępniony tutaj za zgodą Stability AI.

Pierwotnie opublikowany na Hugging Face i udostępniony tutaj za zgodą Stability AI.

SDXL składa się z dwustopniowego pipeline'u dla latentnej dyfuzji: najpierw używamy modelu bazowego do wygenerowania latentów o żądanym rozmiarze wyjściowym. W drugim kroku stosujemy wyspecjalizowany model wysokiej rozdzielczości oraz technikę nazwaną SDEdit (https://arxiv.org/abs/2108.01073, znaną również jako "img2img") na latentach wygenerowanych w pierwszym kroku, używając tego samego polecenia tekstowego.

Opis modelu

  • Opracowany przez: Stability AI

  • Typ modelu: Dyfuzyjny model generatywny tekst-na-obraz

  • Opis modelu: Jest to model służący do generowania i modyfikowania obrazów na podstawie tekstowych promptów. To Latent Diffusion Model, który wykorzystuje dwa stałe, wytrenowane enkodery tekstu (OpenCLIP-ViT/G oraz CLIP-ViT/L).

  • Zasoby dla dalszych informacji: Repozytorium GitHub.

Źródła modelu

Zastosowania

Bezpośrednie użycie

Model jest przeznaczony wyłącznie do celów badawczych. Możliwe obszary badań i zadania obejmują

  • Generowanie dzieł sztuki i zastosowanie w projektowaniu oraz innych procesach artystycznych.

  • Zastosowania w narzędziach edukacyjnych lub kreatywnych.

  • Badania nad modelami generatywnymi.

  • Bezpieczne wdrażanie modeli o potencjale generowania szkodliwych treści.

  • Analiza ograniczeń i uprzedzeń modeli generatywnych.

Użycia wykluczone opisane są poniżej.

Użycie poza zakresem

Model nie został wytrenowany do wiernego odwzorowywania faktów ani rzeczywistych osób czy zdarzeń, dlatego generowanie takich treści wykracza poza jego możliwości.

Ograniczenia i uprzedzenia

Ograniczenia

  • Model nie osiąga perfekcyjnego fotorealizmu

  • Model nie potrafi generować czytelnego tekstu

  • Model ma trudności z bardziej złożonymi zadaniami wymagającymi komponowania, np. wygenerowanie obrazu odpowiadającego opisowi „czerwony sześcian na niebieskiej kuli”

  • Twarze i osoby w ogólności mogą być generowane niepoprawnie.

  • Część autoenkodera modelu jest stratna.

Uprzedzenia

Chociaż możliwości modeli generowania obrazów są imponujące, mogą one również wzmacniać lub pogłębiać społeczne uprzedzenia.

Powyższy wykres ocenia preferencje użytkowników dla SDXL (z i bez udoskonalenia) w porównaniu do Stable Diffusion 1.5 i 2.1. Model bazowy SDXL wypada znacznie lepiej od poprzednich wariantów, a połączony z modułem udoskonalającym osiąga najlepsze wyniki.

Poprzedni
epiCPhotoGasm - V1
Następny
IlluQuaint - v0.3

Szczegóły modelu

Typ modelu

Checkpoint

Model bazowy

SDXL 1.0

Wersja modelu

v1.0

Hash modelu

31e35c80fc

Dyskusja

Proszę się log in, aby dodać komentarz.

Obrazy autorstwa SD XL - v1.0

Obrazy z model bazowy

Obrazy z oficjalny

Obrazy z sdxl

Obrazy z stability ai