Stable Diffusion 3.5 Large - Large
Empfohlene Prompts
a detailed illustration of a cute rainbow colorful boba tea sitting in a window sill, tiki bar looking out onto a tropical oceanfront background, shallow depth of field, cinematic lighting, dappled sunlight, lens flare bokeh
Empfohlene Parameter
samplers
steps
cfg
Ersteller-Sponsoren
Bitte sehen Sie unser Schnellstart-Handbuch für Stable Diffusion 3.5 für alle aktuellen Informationen!
Bitte sehen Sie unser Schnellstart-Handbuch für Stable Diffusion 3.5 für alle aktuellen Informationen!
Stable Diffusion 3.5 Large ist ein Multimodal Diffusion Transformer (MMDiT) Text-zu-Bild-Modell, das verbesserte Leistung bei Bildqualität, Typografie, komplexem Prompt-Verständnis und Ressourceneffizienz bietet.
Bitte beachten Sie: Dieses Modell wird unter der Stability Community License veröffentlicht. Besuchen Sie Stability AI für weitere Informationen oder kontaktieren Sie uns, um Details zur kommerziellen Lizenzierung zu erhalten.
Modellbeschreibung
Entwickelt von: Stability AI
Modelltyp: MMDiT Text-zu-Bild-Generierungsmodell
Modellbeschreibung: Dieses Modell erzeugt Bilder basierend auf Text-Prompts. Es ist ein Multimodal Diffusion Transformer, das drei feste, vortrainierte Text-Encoder verwendet und mit QK-Normalisierung die Trainingsstabilität verbessert.
Lizenz
Community Lizenz: Kostenlos für Forschungs-, Nicht-Kommerzielle und kommerzielle Nutzung für Organisationen oder Einzelpersonen mit einem Gesamtjahresumsatz von weniger als 1 Mio. USD. Weitere Details finden Sie in der Community Lizenzvereinbarung. Mehr Infos unter https://stability.ai/license.
Für Personen und Organisationen mit einem Jahresumsatz über 1 Mio. USD: Bitte kontaktieren Sie uns, um eine Enterprise-Lizenz zu erhalten.
Implementierungsdetails
QK Normalisierung: Implementiert die QK-Normalisierungsmethode zur Verbesserung der Trainingsstabilität.
Text-Encoder:
CLIPs: OpenCLIP-ViT/G, CLIP-ViT/L, Kontextlänge 77 Tokens
T5: T5-xxl, Kontextlänge 77/256 Tokens in verschiedenen Trainingsphasen
Trainingsdaten und Strategie:
Dieses Modell wurde mit einer großen Vielfalt an Daten trainiert, einschließlich synthetischer Daten und gefilterter öffentlich zugänglicher Daten.
Für weitere technische Details zur ursprünglichen MMDiT-Architektur verweisen wir auf das Forschungspaper.
Modell-Details
Diskussion
Bitte log in um einen Kommentar zu hinterlassen.









