Un'immagine drammatica di un corvo che vola con ali spiegate mostrando piume arancioni infuocate contro uno sfondo di cielo cupo.
Un terminator robotico coperto da motivi a dadi si trova su un pavimento di lava luminosa circondato da dadi sparsi in una grotta infernale surreale.
Immagine in bianco e nero a primo piano di labbra femminili socchiuse con denti visibili, sovrapposte da motivi astratti a interferenza.
Paesaggio urbano in bianco e nero che mostra sagome di persone che camminano attraverso un ambiente urbano nebbioso con alti edifici sullo sfondo.
Vista ravvicinata di un alieno curioso con grandi occhi riflettenti, texture dettagliata della pelle aliena, in piedi tra la flora aliena con montagne sullo sfondo sotto effetto lente grandangolare e grana della pellicola.
Vista ravvicinata di un volto alieno altamente dettagliato con grandi occhi riflettenti che mostrano un paesaggio alieno, catturato da una sonda interstellare con effetto grana film.
Un ritratto iperrealistico di una giovane donna rossa e scultorea con capelli ricci, all'aperto in un panorama da sogno con uno sfondo paesaggistico arido sfocato.
Immagine iperrealistica in primo piano di un occhio verde circondato da lentiggini, con capelli rosso zenzero e labbra dipinte di nero.
Ritratto di una donna con lunghi capelli rossi, lentiggini sulla pelle bianca, occhi verde chiaro, labbra nere e dettagli intricati in uno stile iperrealistico.

Parametri Consigliati

resolution

525x525

Suggerimenti

Il modello è destinato a scopi di ricerca inclusa la generazione di opere d'arte, strumenti educativi e deployment sicuro.

Non è inteso per generare rappresentazioni fattuali o veritiere di persone o eventi.

Le limitazioni includono fotorealismo imperfetto, incapacità di rendere testo leggibile, difficoltà con prompt composizionali e possibile generazione impropria di volti.

Il modello utilizza due encoder testuali preaddestrati: OpenCLIP-ViT/G e CLIP-ViT/L.

La pipeline a due fasi include generazione di latenti base seguita da raffinamento ad alta risoluzione usando SDEdit (img2img).

Sponsor del Creatore

Originariamente pubblicato su Hugging Face e condiviso qui con il permesso di Stability AI.

Originariamente pubblicato su Hugging Face e condiviso qui con il permesso di Stability AI.

SDXL consiste in una pipeline a due fasi per la diffusione latente: prima, utilizziamo un modello base per generare latenti della dimensione desiderata. Nella seconda fase, utilizziamo un modello specializzato ad alta risoluzione e applichiamo una tecnica chiamata SDEdit (https://arxiv.org/abs/2108.01073, nota anche come "img2img") ai latenti generati nella prima fase, usando lo stesso prompt.

Descrizione del Modello

  • Sviluppato da: Stability AI

  • Tipo di modello: Modello generativo testo-immagine basato sulla diffusione

  • Descrizione del modello: Questo è un modello che può essere utilizzato per generare e modificare immagini basate su prompt testuali. È un Latent Diffusion Model che utilizza due encoder testuali fissi e preaddestrati (OpenCLIP-ViT/G e CLIP-ViT/L).

  • Risorse per maggiori informazioni: Repository GitHub.

Fonti del Modello

Usi

Uso Diretto

Il modello è destinato esclusivamente a scopi di ricerca. Possibili aree di ricerca e compiti includono

  • Generazione di opere d'arte e uso nel design e altri processi artistici.

  • Applicazioni in strumenti educativi o creativi.

  • Ricerca su modelli generativi.

  • Deployment sicuro di modelli con potenziale per generare contenuti dannosi.

  • Indagine e comprensione delle limitazioni e dei bias dei modelli generativi.

Gli usi esclusi sono descritti di seguito.

Uso Fuori Scopo

Il modello non è stato addestrato per rappresentazioni fattuali o veritiere di persone o eventi, pertanto l'utilizzo del modello per generare tali contenuti è fuori dallo scopo delle sue capacità.

Limitazioni e Bias

Limitazioni

  • Il modello non raggiunge un fotorealismo perfetto

  • Il modello non è in grado di rendere testo leggibile

  • Il modello fatica con compiti più complessi che richiedono composizionalità, come renderizzare un'immagine corrispondente a “Un cubo rosso sopra una sfera blu”

  • Volti e persone in generale possono non essere generati correttamente.

  • La parte di autoencoding del modello è lossy.

Bias

Nonostante le capacità impressionanti dei modelli di generazione immagini, essi possono anche rinforzare o esacerbare bias sociali.

Il grafico sopra valuta la preferenza degli utenti per SDXL (con e senza raffinamento) rispetto a Stable Diffusion 1.5 e 2.1. Il modello base SDXL performa significativamente meglio rispetto alle varianti precedenti, e il modello combinato con il modulo di raffinamento raggiunge la migliore performance complessiva.

Precedente
epiCPhotoGasm - V1
Successivo
IlluQuaint - v0.3

Dettagli del Modello

Tipo di modello

Checkpoint

Modello base

SDXL 1.0

Versione del modello

v1.0

Hash del modello

31e35c80fc

Discussione

Per favore log in per lasciare un commento.

Immagini di SD XL - v1.0

Un'immagine drammatica di un corvo che vola con ali spiegate mostrando piume arancioni infuocate contro uno sfondo di cielo cupo.
Un terminator robotico coperto da motivi a dadi si trova su un pavimento di lava luminosa circondato da dadi sparsi in una grotta infernale surreale.
Immagine in bianco e nero a primo piano di labbra femminili socchiuse con denti visibili, sovrapposte da motivi astratti a interferenza.
Paesaggio urbano in bianco e nero che mostra sagome di persone che camminano attraverso un ambiente urbano nebbioso con alti edifici sullo sfondo.
Vista ravvicinata di un alieno curioso con grandi occhi riflettenti, texture dettagliata della pelle aliena, in piedi tra la flora aliena con montagne sullo sfondo sotto effetto lente grandangolare e grana della pellicola.
Vista ravvicinata di un volto alieno altamente dettagliato con grandi occhi riflettenti che mostrano un paesaggio alieno, catturato da una sonda interstellare con effetto grana film.
Un ritratto iperrealistico di una giovane donna rossa e scultorea con capelli ricci, all'aperto in un panorama da sogno con uno sfondo paesaggistico arido sfocato.
Immagine iperrealistica in primo piano di un occhio verde circondato da lentiggini, con capelli rosso zenzero e labbra dipinte di nero.
Ritratto di una donna con lunghi capelli rossi, lentiggini sulla pelle bianca, occhi verde chiaro, labbra nere e dettagli intricati in uno stile iperrealistico.

Immagini con modello base

Scena fotorealistica di personaggi non morti tra zombie e scheletri che camminano attraverso un cimitero spettrale illuminato da jack-o'-lantern luminosi sotto un cielo scuro e minaccioso.

Immagini con ufficiale

Un ritratto iper-dettagliato di una guerriera con capelli blu scuro e occhi gialli ipnotizzanti, che tiene un orbe dorato luminoso in armatura dorata sotto illuminazione cinematografica.

Immagini con sdxl

Un drago dettagliato con lucentezza metallica e intricate vene pulsanti rosse e blu ais-vesselz che coprono il suo corpo.
Un paesaggio urbano abbandonato con edifici fatiscenti avvolti e intrecciati con ais-vesselz rossi pulsanti, strade rivestite da un liquido viscoso rosso.
Primo piano di una testa di drago robotico con piastre di armatura blu, evidenziata da scintille celesti e cel shading netto contro lo skyline della città al crepuscolo.

Immagini con stability ai

Ragazza bionda in stile anime che indossa un abito estivo bianco e un grande cappello di paglia con decorazione di girasoli, che sta felice in un campo di girasoli al tramonto con le braccia alzate.
Personaggio Ffixgarnet con lunghi capelli neri e occhi marroni, che indossa una tuta arancione incrociata con maniche bianche vaporose e guanti rossi, che scala una scala di corda di legno su sfondo cielo blu, arrossendo e guardando indietro
Personaggio anime con capelli rosa acceso e ali infuocate accovacciato in una posa dinamica contro uno sfondo viola e dark fantasy con rocce frastagliate e appuntite.
Vista ravvicinata di multiple sfere nere testurizzate che fluttuano su uno sfondo cosmico scuro con luci bokeh colorate e da sogno.
Primo piano di un cyborg con elmo opaco nero senza volto, lunghi capelli neri e intricata armatura rossa e nera che si illumina leggermente di rosso in un ambiente cupo.
Guerriera maggiordoma con codini verdi che impugna un'alabarda a sega circolare in una fabbrica di robot scarsamente illuminata piena di parti meccaniche e cavi, spruzzi di sangue sul pavimento.