Stable Diffusion 3.5 Large Turbo - Large Turbo
Parâmetros Recomendados
steps
Patrocinadores do Criador
Por favor, consulte nosso Guia Rápido para Stable Diffusion 3.5 para todas as informações mais recentes!
Por favor, consulte nosso Guia Rápido para Stable Diffusion 3.5 para todas as informações mais recentes!
Stable Diffusion 3.5 Large Turbo é um modelo Multimodal Diffusion Transformer (MMDiT) texto para imagem com Adversarial Diffusion Distillation (ADD) que apresenta desempenho aprimorado em qualidade de imagem, tipografia, compreensão de prompts complexos e eficiência de recursos, com foco em menos etapas de inferência.
Por favor, note: Este modelo é lançado sob a Licença Comunitária Stability. Visite Stability AI para aprender ou contate-nos para detalhes sobre licenciamento comercial.
Descrição do Modelo
Desenvolvido por: Stability AI
Tipo de modelo: modelo generativo MMDiT texto para imagem
Descrição do Modelo: Este modelo gera imagens com base em prompts de texto. É um ADD-distilled Multimodal Diffusion Transformer que usa três codificadores de texto fixos e pré-treinados, com normalização QK.
Licença
Licença Comunitária: Gratuita para pesquisa, uso não comercial e comercial para organizações ou indivíduos com receita anual total inferior a $1M. Mais detalhes podem ser encontrados no Acordo de Licença Comunitária. Leia mais em https://stability.ai/license.
Para indivíduos e organizações com receita anual acima de $1M: Por favor, contate-nos para obter uma Licença Empresarial.
Fontes do Modelo
Para uso local ou auto-hospedado, recomendamos ComfyUI para inferência com interface baseada em nós, ou diffusers ou GitHub para uso programático.
ComfyUI: Github, Fluxo de Trabalho Exemplo
Huggingface Space: Space
Diffusers: Veja abaixo.
GitHub: GitHub.
Pontos de Extremidade da API:
Detalhes da Implementação
QK Normalization: Implementa a técnica de normalização QK para melhorar a estabilidade do treinamento.
Adversarial Diffusion Distillation (ADD) (veja o relatório técnico), que permite amostragem em 4 passos com alta qualidade de imagem.
Codificadores de Texto:
CLIPs: OpenCLIP-ViT/G, CLIP-ViT/L, comprimento do contexto 77 tokens
T5: T5-xxl, comprimento do contexto 77/256 tokens em diferentes estágios de treinamento
Dados de Treinamento e Estratégia:
Este modelo foi treinado com uma ampla variedade de dados, incluindo dados sintéticos e dados públicos filtrados.
Para mais detalhes técnicos da arquitetura original MMDiT, consulte o artigo de pesquisa.
Detalhes do Modelo
Tipo de modelo
Modelo base
Versão do modelo
Hash do modelo
Criador
Discussão
Por favor, faça log in para deixar um comentário.
