Stable Diffusion 3.5 Large Turbo - Large Turbo
Empfohlene Parameter
steps
Ersteller-Sponsoren
Bitte sehen Sie sich unseren Schnellstart-Leitfaden für Stable Diffusion 3.5 für alle neuesten Informationen an!
Bitte sehen Sie sich unseren Schnellstart-Leitfaden für Stable Diffusion 3.5 für alle neuesten Informationen an!
Stable Diffusion 3.5 Large Turbo ist ein Multimodal Diffusion Transformer (MMDiT) Text-zu-Bild-Modell mit Adversarial Diffusion Distillation (ADD), das verbesserte Leistung bei Bildqualität, Typografie, komplexem Prompt-Verständnis und Ressourceneffizienz bietet, mit Schwerpunkt auf weniger Inferenzschritten.
Bitte beachten Sie: Dieses Modell wird unter der Stability Community License veröffentlicht. Besuchen Sie Stability AI, um mehr zu erfahren oder kontaktieren Sie uns für Details zu kommerziellen Lizenzen.
Modellbeschreibung
Entwickelt von: Stability AI
Modelltyp: MMDiT Text-zu-Bild Generativmodell
Modellbeschreibung: Dieses Modell generiert Bilder basierend auf Textprompts. Es ist ein ADD-verdichteter Multimodal Diffusion Transformer, der drei feste, vortrainierte Text-Encoder verwendet sowie QK-Normalisierung.
Lizenz
Community Lizenz: Kostenlos für Forschung, nicht-kommerzielle sowie kommerzielle Nutzung für Organisationen oder Einzelpersonen mit weniger als 1 Mio. $ Jahresumsatz. Details finden sich in der Community License Agreement. Weitere Informationen unter https://stability.ai/license.
Für Einzelpersonen und Organisationen mit Jahresumsatz über 1 Mio. $: Bitte kontaktieren Sie uns, um eine Enterprise-Lizenz zu erhalten.
Modellquellen
Für lokale oder selbstgehostete Nutzung empfehlen wir ComfyUI für eine node-basierte UI-Inferenz, oder diffusers bzw. GitHub für programmatische Nutzung.
ComfyUI: Github, Beispiel-Workflow
Huggingface Space: Space
Diffusers: Siehe unten.
GitHub: GitHub.
API Endpunkte:
Implementierungsdetails
QK-Normalisierung: Implementiert die QK-Normalisierungstechnik zur Verbesserung der Trainingsstabilität.
Adversarial Diffusion Distillation (ADD) (siehe den technischen Bericht), welches Sampling mit 4 Schritten bei hoher Bildqualität ermöglicht.
Textencoder:
CLIPs: OpenCLIP-ViT/G, CLIP-ViT/L, Kontextlänge 77 Tokens
T5: T5-xxl, Kontextlänge 77/256 Token in verschiedenen Trainingsphasen
Trainingsdaten und Strategie:
Dieses Modell wurde mit einer großen Vielfalt an Daten trainiert, einschließlich synthetischer Daten und gefilterter öffentlich verfügbarer Daten.
Für weitere technische Details der ursprünglichen MMDiT-Architektur verweisen wir auf das Research Paper.
Modell-Details
Modelltyp
Basismodell
Modellversion
Modell-Hash
Ersteller
Diskussion
Bitte log in um einen Kommentar zu hinterlassen.
