modelle/Stable Diffusion 3.5 Large Turbo - Large Turbo

Stable Diffusion 3.5 Large Turbo - Large Turbo

Anna Müller

8/31/2025

12:39:37 AM

| Discussion|

Empfohlene Parameter

steps

4 - null

Ersteller-Sponsoren

Bitte sehen Sie sich unseren Schnellstart-Leitfaden für Stable Diffusion 3.5 für alle neuesten Informationen an!

Stable Diffusion 3.5 Large Turbo ist ein Multimodal Diffusion Transformer (MMDiT) Text-zu-Bild-Modell mit Adversarial Diffusion Distillation (ADD), das verbesserte Leistung bei Bildqualität, Typografie, komplexem Prompt-Verständnis und Ressourceneffizienz bietet, mit Schwerpunkt auf weniger Inferenzschritten.

Bitte beachten Sie: Dieses Modell wird unter der Stability Community License veröffentlicht. Besuchen Sie Stability AI, um mehr zu erfahren oder kontaktieren Sie uns für Details zu kommerziellen Lizenzen.

Modellbeschreibung

Entwickelt von: Stability AI
Modelltyp: MMDiT Text-zu-Bild Generativmodell
Modellbeschreibung: Dieses Modell generiert Bilder basierend auf Textprompts. Es ist ein ADD-verdichteter Multimodal Diffusion Transformer, der drei feste, vortrainierte Text-Encoder verwendet sowie QK-Normalisierung.

Lizenz

Community Lizenz: Kostenlos für Forschung, nicht-kommerzielle sowie kommerzielle Nutzung für Organisationen oder Einzelpersonen mit weniger als 1 Mio. $ Jahresumsatz. Details finden sich in der Community License Agreement. Weitere Informationen unter https://stability.ai/license.
Für Einzelpersonen und Organisationen mit Jahresumsatz über 1 Mio. $: Bitte kontaktieren Sie uns, um eine Enterprise-Lizenz zu erhalten.

Modellquellen

Für lokale oder selbstgehostete Nutzung empfehlen wir ComfyUI für eine node-basierte UI-Inferenz, oder diffusers bzw. GitHub für programmatische Nutzung.

ComfyUI: Github, Beispiel-Workflow
Huggingface Space: Space
Diffusers: Siehe unten.
GitHub: GitHub.
API Endpunkte:
- Stability AI API
- Deepinfra

Implementierungsdetails

QK-Normalisierung: Implementiert die QK-Normalisierungstechnik zur Verbesserung der Trainingsstabilität.
Adversarial Diffusion Distillation (ADD) (siehe den technischen Bericht), welches Sampling mit 4 Schritten bei hoher Bildqualität ermöglicht.
Textencoder：
- CLIPs: OpenCLIP-ViT/G, CLIP-ViT/L, Kontextlänge 77 Tokens
- T5: T5-xxl, Kontextlänge 77/256 Token in verschiedenen Trainingsphasen
Trainingsdaten und Strategie:
Dieses Modell wurde mit einer großen Vielfalt an Daten trainiert, einschließlich synthetischer Daten und gefilterter öffentlich verfügbarer Daten.

Für weitere technische Details der ursprünglichen MMDiT-Architektur verweisen wir auf das Research Paper.

Mitwirkende

Anna Müller

Hallo! Ich bin Anna Müller und kuratiere seit über zehn Jahren digitale Fotogalerien. Mein geschultes Auge für Farbe und Komposition bringt jede KI-Kreation zum Strahlen.

Zurück

Pikuson | Shiiro's Styles - v1.0

Weiter

Dragonhead - v1.0

Dieses Modell verwenden