Stable Diffusion 3.5 Large Turbo - Large Turbo
Paramètres recommandés
steps
Sponsors du créateur
Veuillez consulter notre Guide de démarrage rapide de Stable Diffusion 3.5 pour toutes les dernières informations !
Veuillez consulter notre Guide de démarrage rapide de Stable Diffusion 3.5 pour toutes les dernières informations !
Stable Diffusion 3.5 Large Turbo est un modèle texte-à-image Multimodal Diffusion Transformer (MMDiT) avec Adversarial Diffusion Distillation (ADD) qui offre une performance améliorée en qualité d'image, typographie, compréhension de prompts complexes, et efficacité des ressources, avec un accent mis sur un nombre réduit d'étapes d'inférence.
Veuillez noter : Ce modèle est publié sous la Licence Communautaire Stability. Visitez Stability AI pour en savoir plus ou nous contacter pour les détails de licence commerciale.
Description du Modèle
Développé par : Stability AI
Type de modèle : Modèle génératif texte-à-image MMDiT
Description du modèle : Ce modèle génère des images à partir de prompts textuels. Il s'agit d'un Multimodal Diffusion Transformer distillé avec ADD utilisant trois encodeurs de texte fixes et pré-entraînés, avec une normalisation QK.
Licence
Licence Communautaire : Gratuite pour la recherche, usage non commercial et commercial pour les organisations ou individus ayant moins de 1 million de dollars de revenu annuel total. Plus de détails sont disponibles dans le Contrat de Licence Communautaire. Plus d'informations sur https://stability.ai/license.
Pour les individus et organisations avec un revenu annuel supérieur à 1 million de dollars : Veuillez nous contacter pour obtenir une Licence Entreprise.
Sources du Modèle
Pour un usage local ou en hébergement autonome, nous recommandons ComfyUI pour une interface utilisateur basée sur des nœuds, ou diffusers ou GitHub pour une utilisation programmatique.
ComfyUI : Github, Exemple de flux de travail
Huggingface Space : Space
Diffusers : Voir ci-dessous.
GitHub : GitHub.
Points d’API :
Détails de mise en œuvre
Normalisation QK : Met en œuvre la technique de normalisation QK pour améliorer la stabilité de l'entraînement.
Adversarial Diffusion Distillation (ADD) (voir le rapport technique), qui permet un échantillonnage en 4 étapes avec une haute qualité d'image.
Encodeurs de texte :
CLIPs : OpenCLIP-ViT/G, CLIP-ViT/L, longueur de contexte de 77 tokens
T5 : T5-xxl, longueur de contexte de 77/256 tokens à différentes étapes de l'entraînement
Données d'entraînement et stratégie :
Ce modèle a été entraîné sur un large éventail de données, incluant des données synthétiques et des données publiques filtrées.
Pour plus de détails techniques sur l'architecture originale MMDiT, veuillez consulter le papier de recherche.
Détails du modèle
Type de modèle
Modèle de base
Version du modèle
Hash du modèle
Créateur
Discussion
Veuillez vous log in pour laisser un commentaire.
