Stable Diffusion 3.5 Large Turbo - Large Turbo
Zalecane parametry
steps
Sponsorzy twórcy
Zapoznaj się z naszym Przewodnikiem szybkiego startu Stable Diffusion 3.5 z najnowszymi informacjami!
Zapoznaj się z naszym Przewodnikiem szybkiego startu Stable Diffusion 3.5 z najnowszymi informacjami!
Stable Diffusion 3.5 Large Turbo to model tekst-na-obraz Multimodal Diffusion Transformer (MMDiT) z Adversarial Diffusion Distillation (ADD), który charakteryzuje się ulepszoną jakością obrazu, typografią, zrozumieniem złożonych promptów oraz efektywnością zasobową, skupiając się na mniejszej liczbie kroków inferencji.
Uwaga: Ten model jest udostępniany na podstawie Stability Community License. Odwiedź Stability AI, aby dowiedzieć się więcej lub skontaktować się z nami w celu uzyskania informacji o licencjach komercyjnych.
Opis modelu
Opracowany przez: Stability AI
Typ modelu: model generujący obrazy z tekstu MMDiT
Opis modelu: Model generuje obrazy na podstawie tekstowych promptów. Jest to ADD-destylowany Multimodal Diffusion Transformer używający trzech stałych, wstępnie wytrenowanych enkoderów tekstu oraz normalizacji QK.
Licencja
Licencja społecznościowa: Darmowa do celów badawczych, niekomercyjnych oraz komercyjnych dla organizacji lub osób z rocznym przychodem poniżej 1 miliona dolarów. Szczegóły dostępne są w Community License Agreement. Czytaj więcej na https://stability.ai/license.
Dla osób i organizacji z rocznym przychodem powyżej 1 miliona dolarów: Prosimy o kontakt w celu uzyskania licencji Enterprise.
Źródła modelu
Do lokalnego lub samodzielnego użytku zalecamy ComfyUI jako interfejs nodyfikujący dla inferencji, lub diffusers albo GitHub do wykorzystania programistycznego.
ComfyUI: Github, Przykładowy workflow
Huggingface Space: Space
Diffusers: Zobacz poniżej.
GitHub: GitHub.
Końcówki API:
Szczegóły implementacji
Normalizacja QK: Wdraża technikę normalizacji QK w celu poprawy stabilności treningu.
Adversarial Diffusion Distillation (ADD) (patrz raport techniczny), która pozwala na próbkowanie z 4 krokami przy wysokiej jakości obrazu.
Enkodery tekstu:
CLIPs: OpenCLIP-ViT/G, CLIP-ViT/L, długość kontekstu 77 tokenów
T5: T5-xxl, długość kontekstu 77/256 tokenów na różnych etapach treningu
Dane treningowe i strategia:
Model był trenowany na szerokim zakresie danych, w tym danych syntetycznych oraz filtrowanych danych dostępnych publicznie.
Więcej technicznych szczegółów oryginalnej architektury MMDiT znajduje się w artykułe naukowym.
Szczegóły modelu
Typ modelu
Model bazowy
Wersja modelu
Hash modelu
Twórca
Dyskusja
Proszę się log in, aby dodać komentarz.
