modele/Stable Diffusion 3.5 Large - Large

Stable Diffusion 3.5 Large - Large

7/2/2025

1:09:13 PM

Powiązane słowa kluczowe i tagi

model bazowy,checkpoint,duży,multimodalny transformator dyfuzji,qk-normalizacja,sd 3.5 duży,sd3.5,stability ai,stable diffusion,stable diffusion 3.5,stable diffusion 3.5 duży,model generatywny tekst-na-obraz,theally

Punkowa baletnica w startych butach i podartym tutu, uchwycona w półpozie na tle wirującej karmazynowej i złotej mgławicy, wykonana pociągnięciami pędzla impasto i punktowym detalem.

Abstrakcyjna twarz wyłaniająca się z wirującego wiru głębokiej czerni, przedstawiona chaotycznymi bazgrołami i minimalistycznymi liniami oświetlonymi miękkim, migoczącym białym światłem.

Cyfrowa ilustracja pointylistyczna przedstawiająca małą dziewczynkę w zwiewnej białej sukience siedzącą obok czarnego kota na wzgórzu, na tle monochromatycznego zachodu słońca z fakturowanym wzorem przypominającym gwiaździste kropki.

Nogi ubrane w czarne rajstopy noszące żywe czerwone szpilki z paskami wokół kostek, na tle dynamicznego abstrakcyjnego tła z fakturami złotego listka i pociągnięć pędzla.

Samotna kobieta stoi na polu oświetlona światłem złotej godziny podczas dramatycznego zachodu słońca, otoczona kołyszącymi się trawami i odległymi postrzępionymi górami w eterycznym, abstrakcyjnym stylu ekspresjonistycznym.

Wysoka szkieletowa wieża wykonana ze skorodowanego metalu stoi samotnie na pękniętej, płaskiej ziemi. Scena ma minimalistyczny, impresjonistyczny styl z miękkim białym światłem podkreślającym linearne kształty wieży na ciemnym tle.

Monochromatyczna sylwetka paryskiego flâneur z kapeluszem i laską na brukowanej ulicy, otoczona minimalistyczną architekturą Haussmanna i drzewem.

Minimalistyczna cyfrowa ilustracja samotnej blondynki z gładkimi prostymi włosami siedzącej na krześle na tle głębokiego niebieskiego koloru, trzymającej żywy fuksjowy kubek kawy.

Para idąca blisko pod ciemnym parasolem podczas burzy deszczowej o zachodzie słońca, z kroplami deszczu na mokrym oknie i rozmytym teksturowanym tłem.

Abstrakcyjne artystyczne przedstawienie liści miłorzębu wirujących w żywych jesiennych kolorach, takich jak karmazyn, złoto i ocre, na teksturowanym papierze washi.

Mały, delikatny robot o gładkich krawędziach stoi w mglistym otoczeniu wypełnionym miękkimi różowymi kwiatami wiśni, nawiązując do stylu tradycyjnego japońskiego drzeworytu.

Samotna kobieta wojownik o bladej lawendowej skórze stoi w futurystycznej zbroi, namalowana odważnymi pociągnięciami akwareli w kolorach czarnym, białym i czerwonym na minimalistycznym lawendowym tle.

Zalecane podpowiedzi

a detailed illustration of a cute rainbow colorful boba tea sitting in a window sill, tiki bar looking out onto a tropical oceanfront background, shallow depth of field, cinematic lighting, dappled sunlight, lens flare bokeh

Zalecane parametry

samplers

DPM++ 2M

steps

cfg

4.5

Sponsorzy twórcy

Proszę zapoznać się z naszym Przewodnikiem szybkiego startu do Stable Diffusion 3.5 dla wszystkich najnowszych informacji!

Stable Diffusion 3.5 Large to Multimodal Diffusion Transformer (MMDiT) — model generatywny tekst-na-obraz, który oferuje poprawioną wydajność w jakości obrazu, typografii, złożonym rozumieniu promptów oraz efektywności zasobów.

Proszę zauważyć: Ten model jest udostępniany na podstawie Stability Community License. Odwiedź Stability AI, aby się dowiedzieć lub skontaktować się z nami w sprawie licencji komercyjnej.

Opis modelu

Opracowany przez: Stability AI
Typ modelu: MMDiT generatywny model tekst-na-obraz
Opis modelu: Ten model generuje obrazy na podstawie tekstowych promptów. Jest to Multimodal Diffusion Transformer, który używa trzech stałych, wytrenowanych enkoderów tekstu oraz normalizacji QK, aby poprawić stabilność treningu.

Licencja

Licencja społecznościowa: Darmowa do użytku badawczego, niekomercyjnego i komercyjnego dla organizacji lub osób z rocznym dochodem poniżej 1 mln USD. Więcej szczegółów można znaleźć w Umowie licencyjnej społeczności. Przeczytaj więcej na https://stability.ai/license.
Dla osób i organizacji z rocznym dochodem powyżej 1 mln USD: prosimy o kontakt w celu uzyskania licencji Enterprise.

Szczegóły implementacji

Normalizacja QK: Wdraża technikę normalizacji QK w celu poprawy stabilności treningu.
Enkodery tekstu：
- CLIPs: OpenCLIP-ViT/G, CLIP-ViT/L, długość kontekstu 77 tokenów
- T5: T5-xxl, długość kontekstu 77/256 tokenów na różnych etapach treningu
Dane i strategia treningowa:
Model był trenowany na szerokim zakresie danych, w tym danych syntetycznych i przefiltrowanych danych publicznie dostępnych.

Więcej technicznych szczegółów dotyczących oryginalnej architektury MMDiT można znaleźć w publikacji naukowej.

Współtwórca

Zofia Nowak

Cześć! Nazywam się Zofia Nowak. Łączę pasję do fotografii z technologią, by prezentować najbardziej inspirujące obrazy tworzone przez sztuczną inteligencję.

Poprzedni

Styl Anime Cyberpunk - Flux.1 D v1

Następny

ZavyChromaXL - v10.0

Użyj tego modelu