modele/Stable Diffusion 3.5 Large Turbo - Large Turbo

Stable Diffusion 3.5 Large Turbo - Large Turbo

8/31/2025

12:47:36 AM

Powiązane słowa kluczowe i tagi

adversarial diffusion distillation,model bazowy,checkpoint,large turbo,multimodalny transformator dyfuzji,sd 3.5 large turbo,sd3.5,stability ai,stable diffusion 3.5,stable diffusion 3.5 large turbo,model generatywny tekst-na-obraz,theally

Profil boczny abstrakcyjnej pięknej kobiety z delikatnym makijażem i tradycyjnymi ozdobami do włosów, na tle nocnego miasta z górami i dużym księżycem.

Abstrakcyjna ilustracja kobiety o uderzających rudych włosach i piegach, ubranej w ciemne ubrania, na tle szczegółowego nocnego nieba z gwiazdami i niebiańskimi wzorami.

Zalecane parametry

steps

4 - null

Sponsorzy twórcy

Zapoznaj się z naszym Przewodnikiem szybkiego startu Stable Diffusion 3.5 z najnowszymi informacjami!

Stable Diffusion 3.5 Large Turbo to model tekst-na-obraz Multimodal Diffusion Transformer (MMDiT) z Adversarial Diffusion Distillation (ADD), który charakteryzuje się ulepszoną jakością obrazu, typografią, zrozumieniem złożonych promptów oraz efektywnością zasobową, skupiając się na mniejszej liczbie kroków inferencji.

Uwaga: Ten model jest udostępniany na podstawie Stability Community License. Odwiedź Stability AI, aby dowiedzieć się więcej lub skontaktować się z nami w celu uzyskania informacji o licencjach komercyjnych.

Opis modelu

Opracowany przez: Stability AI
Typ modelu: model generujący obrazy z tekstu MMDiT
Opis modelu: Model generuje obrazy na podstawie tekstowych promptów. Jest to ADD-destylowany Multimodal Diffusion Transformer używający trzech stałych, wstępnie wytrenowanych enkoderów tekstu oraz normalizacji QK.

Licencja

Licencja społecznościowa: Darmowa do celów badawczych, niekomercyjnych oraz komercyjnych dla organizacji lub osób z rocznym przychodem poniżej 1 miliona dolarów. Szczegóły dostępne są w Community License Agreement. Czytaj więcej na https://stability.ai/license.
Dla osób i organizacji z rocznym przychodem powyżej 1 miliona dolarów: Prosimy o kontakt w celu uzyskania licencji Enterprise.

Źródła modelu

Do lokalnego lub samodzielnego użytku zalecamy ComfyUI jako interfejs nodyfikujący dla inferencji, lub diffusers albo GitHub do wykorzystania programistycznego.

ComfyUI: Github, Przykładowy workflow
Huggingface Space: Space
Diffusers: Zobacz poniżej.
GitHub: GitHub.
Końcówki API:
- Stability AI API
- Deepinfra

Szczegóły implementacji

Normalizacja QK: Wdraża technikę normalizacji QK w celu poprawy stabilności treningu.
Adversarial Diffusion Distillation (ADD) (patrz raport techniczny), która pozwala na próbkowanie z 4 krokami przy wysokiej jakości obrazu.
Enkodery tekstu：
- CLIPs: OpenCLIP-ViT/G, CLIP-ViT/L, długość kontekstu 77 tokenów
- T5: T5-xxl, długość kontekstu 77/256 tokenów na różnych etapach treningu
Dane treningowe i strategia:
Model był trenowany na szerokim zakresie danych, w tym danych syntetycznych oraz filtrowanych danych dostępnych publicznie.

Więcej technicznych szczegółów oryginalnej architektury MMDiT znajduje się w artykułe naukowym.

Współtwórca

Zofia Nowak

Cześć! Nazywam się Zofia Nowak. Łączę pasję do fotografii z technologią, by prezentować najbardziej inspirujące obrazy tworzone przez sztuczną inteligencję.

Poprzedni

Pikuson | Style Shiiro - v1.0

Następny

Dragonhead - v1.0

Użyj tego modelu