Stable Diffusion 3.5 Large Turbo - Large Turbo
Parametri Consigliati
steps
Sponsor del Creatore
Consulta la nostra Guida rapida a Stable Diffusion 3.5 per tutte le ultime informazioni!
Consulta la nostra Guida rapida a Stable Diffusion 3.5 per tutte le ultime informazioni!
Stable Diffusion 3.5 Large Turbo è un modello text-to-image Multimodal Diffusion Transformer (MMDiT) con Adversarial Diffusion Distillation (ADD) che presenta prestazioni migliorate nella qualità dell'immagine, tipografia, comprensione di prompt complessi e efficienza delle risorse, con un'attenzione particolare a un numero ridotto di passaggi di inferenza.
Nota bene: Questo modello è rilasciato sotto la Stability Community License. Visita Stability AI per apprendere o contattarci per dettagli sulla licenza commerciale.
Descrizione del Modello
Sviluppato da: Stability AI
Tipo di modello: modello generativo text-to-image MMDiT
Descrizione del modello: Questo modello genera immagini basate su prompt testuali. È un Multimodal Diffusion Transformer ADD-distillato che utilizza tre encoder testuali fissi e pre-addestrati, con normalizzazione QK.
Licenza
Licenza Comunitaria: Gratuito per uso di ricerca, non commerciale e commerciale per organizzazioni o individui con un fatturato annuo totale inferiore a 1 milione di dollari. Maggiori dettagli sono disponibili nel Community License Agreement. Leggi di più su https://stability.ai/license.
Per individui e organizzazioni con fatturato superiore a 1 milione di dollari: Si prega di contattarci per ottenere una licenza Enterprise.
Fonti del Modello
Per uso locale o self-hosted, consigliamo ComfyUI per inferenza con interfaccia basata su nodi, o diffusers o GitHub per uso programmatico.
ComfyUI: Github, Workflow di esempio
Huggingface Space: Space
Diffusers: Vedi sotto.
GitHub: GitHub.
API Endpoints:
Dettagli di Implementazione
Normalizzazione QK: Implementa la tecnica di normalizzazione QK per migliorare la stabilità dell'addestramento.
Adversarial Diffusion Distillation (ADD) (vedi il rapporto tecnico), che consente campionamenti con 4 passaggi mantenendo alta qualità dell'immagine.
Encoder Testuali:
CLIPs: OpenCLIP-ViT/G, CLIP-ViT/L, lunghezza contesto 77 token
T5: T5-xxl, lunghezza contesto 77/256 token in differenti fasi di addestramento
Dati e Strategia di Addestramento:
Questo modello è stato addestrato su una vasta gamma di dati, inclusi dati sintetici e dati pubblicamente disponibili filtrati.
Per maggiori dettagli tecnici sull'architettura originale MMDiT, si rimanda al paper di ricerca.
Dettagli del Modello
Tipo di modello
Modello base
Versione del modello
Hash del modello
Creatore
Discussione
Per favore log in per lasciare un commento.
