Stable Diffusion 3.5 Large - Large
Zalecane podpowiedzi
a detailed illustration of a cute rainbow colorful boba tea sitting in a window sill, tiki bar looking out onto a tropical oceanfront background, shallow depth of field, cinematic lighting, dappled sunlight, lens flare bokeh
Zalecane parametry
samplers
steps
cfg
Sponsorzy twórcy
Proszę zapoznać się z naszym Przewodnikiem szybkiego startu do Stable Diffusion 3.5 dla wszystkich najnowszych informacji!
Proszę zapoznać się z naszym Przewodnikiem szybkiego startu do Stable Diffusion 3.5 dla wszystkich najnowszych informacji!
Stable Diffusion 3.5 Large to Multimodal Diffusion Transformer (MMDiT) — model generatywny tekst-na-obraz, który oferuje poprawioną wydajność w jakości obrazu, typografii, złożonym rozumieniu promptów oraz efektywności zasobów.
Proszę zauważyć: Ten model jest udostępniany na podstawie Stability Community License. Odwiedź Stability AI, aby się dowiedzieć lub skontaktować się z nami w sprawie licencji komercyjnej.
Opis modelu
Opracowany przez: Stability AI
Typ modelu: MMDiT generatywny model tekst-na-obraz
Opis modelu: Ten model generuje obrazy na podstawie tekstowych promptów. Jest to Multimodal Diffusion Transformer, który używa trzech stałych, wytrenowanych enkoderów tekstu oraz normalizacji QK, aby poprawić stabilność treningu.
Licencja
Licencja społecznościowa: Darmowa do użytku badawczego, niekomercyjnego i komercyjnego dla organizacji lub osób z rocznym dochodem poniżej 1 mln USD. Więcej szczegółów można znaleźć w Umowie licencyjnej społeczności. Przeczytaj więcej na https://stability.ai/license.
Dla osób i organizacji z rocznym dochodem powyżej 1 mln USD: prosimy o kontakt w celu uzyskania licencji Enterprise.
Szczegóły implementacji
Normalizacja QK: Wdraża technikę normalizacji QK w celu poprawy stabilności treningu.
Enkodery tekstu:
CLIPs: OpenCLIP-ViT/G, CLIP-ViT/L, długość kontekstu 77 tokenów
T5: T5-xxl, długość kontekstu 77/256 tokenów na różnych etapach treningu
Dane i strategia treningowa:
Model był trenowany na szerokim zakresie danych, w tym danych syntetycznych i przefiltrowanych danych publicznie dostępnych.
Więcej technicznych szczegółów dotyczących oryginalnej architektury MMDiT można znaleźć w publikacji naukowej.
Szczegóły modelu
Dyskusja
Proszę się log in, aby dodać komentarz.









