Stable Diffusion 3.5 Large Turbo - Large Turbo
Parámetros Recomendados
steps
Patrocinadores del Creador
Por favor vea nuestra Guía Rápida para Stable Diffusion 3.5 para toda la información más reciente!
Por favor vea nuestra Guía Rápida para Stable Diffusion 3.5 para toda la información más reciente!
Stable Diffusion 3.5 Large Turbo es un modelo de texto a imagen Multimodal Diffusion Transformer (MMDiT) con Adversarial Diffusion Distillation (ADD) que presenta un rendimiento mejorado en calidad de imagen, tipografía, entendimiento de prompts complejos y eficiencia en recursos, con un enfoque en menos pasos de inferencia.
Por favor note: Este modelo se publica bajo la Licencia Comunitaria de Stability. Visite Stability AI para más información o contáctenos para detalles de licenciamiento comercial.
Descripción del Modelo
Desarrollado por: Stability AI
Tipo de modelo: modelo generativo MMDiT de texto a imagen
Descripción del Modelo: Este modelo genera imágenes basadas en prompts de texto. Es un ADD-distilled Multimodal Diffusion Transformer que usa tres codificadores de texto fijos y preentrenados, con normalización QK.
Licencia
Licencia Comunitaria: Gratuita para investigación, uso no comercial y uso comercial para organizaciones o individuos con menos de $1M en ingresos anuales totales. Más detalles en el Acuerdo de Licencia Comunitaria. Lea más en https://stability.ai/license.
Para individuos y organizaciones con ingresos anuales superiores a $1M: Por favor contáctenos para obtener una Licencia Empresarial.
Fuentes del Modelo
Para uso local o autoalojado, recomendamos ComfyUI para inferencia con UI basada en nodos, o diffusers o GitHub para uso programático.
ComfyUI: Github, Ejemplo de Flujo de Trabajo
Huggingface Space: Space
Diffusers: Ver abajo.
GitHub: GitHub.
Puntos de acceso API:
Detalles de Implementación
Normalización QK: Implementa la técnica de normalización QK para mejorar la estabilidad del entrenamiento.
Adversarial Diffusion Distillation (ADD) (véase el informe técnico), que permite muestrear con 4 pasos manteniendo alta calidad de imagen.
Codificadores de Texto:
CLIPs: OpenCLIP-ViT/G, CLIP-ViT/L, longitud de contexto 77 tokens
T5: T5-xxl, longitud de contexto 77/256 tokens en diferentes etapas de entrenamiento
Datos y Estrategia de Entrenamiento:
Este modelo fue entrenado con una amplia variedad de datos, incluyendo datos sintéticos y datos públicos filtrados.
Para más detalles técnicos sobre la arquitectura original MMDiT, por favor consulte el artículo de investigación.
Detalles del Modelo
Tipo de modelo
Modelo base
Versión del modelo
Hash del modelo
Creador
Discusión
Por favor log in para dejar un comentario.
