Un'immagine drammatica di un corvo che vola con ali spiegate mostrando piume arancioni infuocate contro uno sfondo di cielo cupo.
Un terminator robotico coperto da motivi a dadi si trova su un pavimento di lava luminosa circondato da dadi sparsi in una grotta infernale surreale.
Immagine in bianco e nero a primo piano di labbra femminili socchiuse con denti visibili, sovrapposte da motivi astratti a interferenza.
Paesaggio urbano in bianco e nero che mostra sagome di persone che camminano attraverso un ambiente urbano nebbioso con alti edifici sullo sfondo.
Vista ravvicinata di un alieno curioso con grandi occhi riflettenti, texture dettagliata della pelle aliena, in piedi tra la flora aliena con montagne sullo sfondo sotto effetto lente grandangolare e grana della pellicola.
Vista ravvicinata di un volto alieno altamente dettagliato con grandi occhi riflettenti che mostrano un paesaggio alieno, catturato da una sonda interstellare con effetto grana film.
Un ritratto iperrealistico di una giovane donna rossa e scultorea con capelli ricci, all'aperto in un panorama da sogno con uno sfondo paesaggistico arido sfocato.
Immagine iperrealistica in primo piano di un occhio verde circondato da lentiggini, con capelli rosso zenzero e labbra dipinte di nero.
Ritratto di una donna con lunghi capelli rossi, lentiggini sulla pelle bianca, occhi verde chiaro, labbra nere e dettagli intricati in uno stile iperrealistico.

Parametri Consigliati

resolution

525x525

Suggerimenti

Il modello è destinato a scopi di ricerca inclusa la generazione di opere d'arte, strumenti educativi e deployment sicuro.

Non è inteso per generare rappresentazioni fattuali o veritiere di persone o eventi.

Le limitazioni includono fotorealismo imperfetto, incapacità di rendere testo leggibile, difficoltà con prompt composizionali e possibile generazione impropria di volti.

Il modello utilizza due encoder testuali preaddestrati: OpenCLIP-ViT/G e CLIP-ViT/L.

La pipeline a due fasi include generazione di latenti base seguita da raffinamento ad alta risoluzione usando SDEdit (img2img).

Sponsor del Creatore

Originariamente pubblicato su Hugging Face e condiviso qui con il permesso di Stability AI.

Originariamente pubblicato su Hugging Face e condiviso qui con il permesso di Stability AI.

SDXL consiste in una pipeline a due fasi per la diffusione latente: prima, utilizziamo un modello base per generare latenti della dimensione desiderata. Nella seconda fase, utilizziamo un modello specializzato ad alta risoluzione e applichiamo una tecnica chiamata SDEdit (https://arxiv.org/abs/2108.01073, nota anche come "img2img") ai latenti generati nella prima fase, usando lo stesso prompt.

Descrizione del Modello

  • Sviluppato da: Stability AI

  • Tipo di modello: Modello generativo testo-immagine basato sulla diffusione

  • Descrizione del modello: Questo è un modello che può essere utilizzato per generare e modificare immagini basate su prompt testuali. È un Latent Diffusion Model che utilizza due encoder testuali fissi e preaddestrati (OpenCLIP-ViT/G e CLIP-ViT/L).

  • Risorse per maggiori informazioni: Repository GitHub.

Fonti del Modello

Usi

Uso Diretto

Il modello è destinato esclusivamente a scopi di ricerca. Possibili aree di ricerca e compiti includono

  • Generazione di opere d'arte e uso nel design e altri processi artistici.

  • Applicazioni in strumenti educativi o creativi.

  • Ricerca su modelli generativi.

  • Deployment sicuro di modelli con potenziale per generare contenuti dannosi.

  • Indagine e comprensione delle limitazioni e dei bias dei modelli generativi.

Gli usi esclusi sono descritti di seguito.

Uso Fuori Scopo

Il modello non è stato addestrato per rappresentazioni fattuali o veritiere di persone o eventi, pertanto l'utilizzo del modello per generare tali contenuti è fuori dallo scopo delle sue capacità.

Limitazioni e Bias

Limitazioni

  • Il modello non raggiunge un fotorealismo perfetto

  • Il modello non è in grado di rendere testo leggibile

  • Il modello fatica con compiti più complessi che richiedono composizionalità, come renderizzare un'immagine corrispondente a “Un cubo rosso sopra una sfera blu”

  • Volti e persone in generale possono non essere generati correttamente.

  • La parte di autoencoding del modello è lossy.

Bias

Nonostante le capacità impressionanti dei modelli di generazione immagini, essi possono anche rinforzare o esacerbare bias sociali.

Il grafico sopra valuta la preferenza degli utenti per SDXL (con e senza raffinamento) rispetto a Stable Diffusion 1.5 e 2.1. Il modello base SDXL performa significativamente meglio rispetto alle varianti precedenti, e il modello combinato con il modulo di raffinamento raggiunge la migliore performance complessiva.

Precedente
epiCPhotoGasm - V1
Successivo
IlluQuaint - v0.3

Dettagli del Modello

Tipo di modello

Checkpoint

Modello base

SDXL 1.0

Versione del modello

v1.0

Hash del modello

31e35c80fc

Discussione

Per favore log in per lasciare un commento.

Immagini di SD XL - v1.0

Immagini con modello base

Immagini con ufficiale

Immagini con sdxl

Immagini con stability ai