SD XL - v1.0
Parole Chiave e Tag Correlati
Parametri Consigliati
resolution
Suggerimenti
Il modello è destinato a scopi di ricerca inclusa la generazione di opere d'arte, strumenti educativi e deployment sicuro.
Non è inteso per generare rappresentazioni fattuali o veritiere di persone o eventi.
Le limitazioni includono fotorealismo imperfetto, incapacità di rendere testo leggibile, difficoltà con prompt composizionali e possibile generazione impropria di volti.
Il modello utilizza due encoder testuali preaddestrati: OpenCLIP-ViT/G e CLIP-ViT/L.
La pipeline a due fasi include generazione di latenti base seguita da raffinamento ad alta risoluzione usando SDEdit (img2img).
Sponsor del Creatore
Originariamente pubblicato su Hugging Face e condiviso qui con il permesso di Stability AI.
Originariamente pubblicato su Hugging Face e condiviso qui con il permesso di Stability AI.

SDXL consiste in una pipeline a due fasi per la diffusione latente: prima, utilizziamo un modello base per generare latenti della dimensione desiderata. Nella seconda fase, utilizziamo un modello specializzato ad alta risoluzione e applichiamo una tecnica chiamata SDEdit (https://arxiv.org/abs/2108.01073, nota anche come "img2img") ai latenti generati nella prima fase, usando lo stesso prompt.
Descrizione del Modello
Sviluppato da: Stability AI
Tipo di modello: Modello generativo testo-immagine basato sulla diffusione
Descrizione del modello: Questo è un modello che può essere utilizzato per generare e modificare immagini basate su prompt testuali. È un Latent Diffusion Model che utilizza due encoder testuali fissi e preaddestrati (OpenCLIP-ViT/G e CLIP-ViT/L).
Risorse per maggiori informazioni: Repository GitHub.
Fonti del Modello
Repository: https://github.com/Stability-AI/generative-models
Demo [opzionale]: https://clipdrop.co/stable-diffusion
Usi
Uso Diretto
Il modello è destinato esclusivamente a scopi di ricerca. Possibili aree di ricerca e compiti includono
Generazione di opere d'arte e uso nel design e altri processi artistici.
Applicazioni in strumenti educativi o creativi.
Ricerca su modelli generativi.
Deployment sicuro di modelli con potenziale per generare contenuti dannosi.
Indagine e comprensione delle limitazioni e dei bias dei modelli generativi.
Gli usi esclusi sono descritti di seguito.
Uso Fuori Scopo
Il modello non è stato addestrato per rappresentazioni fattuali o veritiere di persone o eventi, pertanto l'utilizzo del modello per generare tali contenuti è fuori dallo scopo delle sue capacità.
Limitazioni e Bias
Limitazioni
Il modello non raggiunge un fotorealismo perfetto
Il modello non è in grado di rendere testo leggibile
Il modello fatica con compiti più complessi che richiedono composizionalità, come renderizzare un'immagine corrispondente a “Un cubo rosso sopra una sfera blu”
Volti e persone in generale possono non essere generati correttamente.
La parte di autoencoding del modello è lossy.
Bias
Nonostante le capacità impressionanti dei modelli di generazione immagini, essi possono anche rinforzare o esacerbare bias sociali.

Il grafico sopra valuta la preferenza degli utenti per SDXL (con e senza raffinamento) rispetto a Stable Diffusion 1.5 e 2.1. Il modello base SDXL performa significativamente meglio rispetto alle varianti precedenti, e il modello combinato con il modulo di raffinamento raggiunge la migliore performance complessiva.
Dettagli del Modello
Tipo di modello
Modello base
Versione del modello
Hash del modello
Discussione
Per favore log in per lasciare un commento.
