modelli/SD XL - v1.0 correzione VAE

SD XL - v1.0 correzione VAE

7/2/2025

1:13:08 AM

Parole Chiave e Tag Correlati

modello base,checkpoint,modello di diffusione latente,ufficiale,sd xl,sdxl,sdxl 1.0,stability ai,stable diffusion xl,generazione da testo a immagine,correzione v1.0 vae

Dipinto impressionista di una donna con jeans di denim e camicia a quadri che raccoglie mele da un albero sotto una luce soffusa e nuvolosa

Dipinto di natura morta impressionista che mostra un'arancia mezza sbucciata e una saliera su un tavolo con toni neutri e pastello.

Uno scenario drammatico di città cyberpunk con un enorme grattacielo a piramide in stile azteco illuminato da luci al neon, con vulcano in eruzione e tempesta di fulmini sullo sfondo.

Dipinto a olio in stile impressionista di una donna dalla pelle chiara e sensuale con un moderno caschetto nero che indossa un abito di raso bordeaux senza maniche con una cintura nera larga, su sfondo caldo dorato e scuro con texture e illuminazione chiaroscuro.

Dipinto in stile impressionista di una donna in un caffè scuro di notte, che sorseggia vino, con una piazza vivace visibile attraverso la finestra.

Un mostro simile a un ratto con occhi rossi luminosi, artigli affilati e ali di pelle logore che indossa un'armatura dark fantasy dettagliata, in piedi su un tronco in una foresta nebbiosa.

Dipinto ad acquerello astratto di fiori di lavanda in morbidi viola e verdi con uno stile artistico, delicato ed etereo.

Dipinto astratto ad acquerello di un girasole con petali gialli e centro scuro, che cattura uno stile artistico e botanico soffice.

Rappresentazione artistica astratta di un fenicottero in stile acquerello, con tonalità rosa e rosse, becco dettagliato e morbide gocce di vernice.

Dipinto ad acquerello di un falco posato, realizzato in uno stile artistico astratto ispirato a Paul Lovering e Antonio J. Manzanedo.

Cigno nero realizzato con origami di diamanti neri che fluttua con grazia su un lago con illuminazione cinematografica al tramonto e sfondo montano sfocato

Dipinto impressionista che raffigura campi di fine estate pronti per il raccolto sotto una luce mattutina soffice con dolci colline, nuvole sparse morbide, terreni agricoli e un villaggio distante.

Prompt Negativi Consigliati

(deformed iris, deformed pupils), text, worst quality, low quality, jpeg artifacts, ugly, duplicate, morbid, mutilated, (extra fingers), (mutated hands), poorly drawn hands, poorly drawn face, mutation, deformed, blurry, dehydrated, bad anatomy, bad proportions, extra limbs, cloned face, disfigured, gross proportions, malformed limbs, missing arms, missing legs, extra arms, extra legs, (fused fingers), (too many fingers), long neck, camera

Parametri Consigliati

samplers

Euler

steps

cfg

resolution

525x525

Suggerimenti

Il modello è destinato a scopi di ricerca inclusi generazione di opere d’arte, strumenti educativi e implementazioni sicure.

Non è destinato a generare rappresentazioni fattuali o veritiere di persone o eventi.

Le limitazioni includono fotorealismo non perfetto, incapacità di rendere testo leggibile, difficoltà con prompt composizionali e possibile generazione imprecisa di volti.

Il modello utilizza due encoder testuali pretrained: OpenCLIP-ViT/G e CLIP-ViT/L.

La pipeline in due fasi include la generazione base dei latenti seguita dal raffinamento ad alta risoluzione usando SDEdit (img2img).

Sponsor del Creatore

Originariamente Pubblicato su Hugging Face e condiviso qui con il permesso di Stability AI.

SDXL consiste in una pipeline in due fasi per la diffusione latente: prima, utilizziamo un modello base per generare latenti della dimensione desiderata dell’output. Nella seconda fase, usiamo un modello specializzato ad alta risoluzione e applichiamo una tecnica chiamata SDEdit (https://arxiv.org/abs/2108.01073, conosciuta anche come "img2img") ai latenti generati nella prima fase, usando lo stesso prompt.

Descrizione del Modello

Sviluppato da: Stability AI
Tipo di modello: Modello generativo testo-immagine basato su diffusione
Descrizione del modello: Questo è un modello che può essere usato per generare e modificare immagini basate su prompt testuali. È un Modello di Diffusione Latente che usa due encoder testuali pretrained fissi (OpenCLIP-ViT/G e CLIP-ViT/L).
Risorse per maggiori informazioni: Repository GitHub.

Fonti del Modello

Repository: https://github.com/Stability-AI/generative-models
Demo [opzionale]: https://clipdrop.co/stable-diffusion

Utilizzi

Uso Diretto

Il modello è destinato esclusivamente a scopi di ricerca. Aree e compiti di ricerca possibili includono

Generazione di opere d’arte e utilizzo in processi di design e altri processi artistici.
Applicazioni in strumenti educativi o creativi.
Ricerca sui modelli generativi.
Implementazione sicura di modelli che possono generare contenuti nocivi.
Analisi e comprensione delle limitazioni e dei bias dei modelli generativi.

Gli usi esclusi sono descritti di seguito.

Uso Fuori Scopo

Il modello non è stato addestrato per rappresentazioni fattuali o veritiere di persone o eventi, pertanto l’uso del modello per generare tali contenuti è fuori dallo scopo delle capacità di questo modello.

Limitazioni e Bias

Limitazioni

Il modello non raggiunge un fotorealismo perfetto
Il modello non può rendere testo leggibile
Il modello fatica con compiti più complessi che coinvolgono la composizionalità, come rendere un'immagine corrispondente a “Un cubo rosso sopra una sfera blu”
Volti e persone in generale possono non essere generati correttamente.
La parte di autoencoding del modello è lossy.

Bias

Pur essendo impressionanti, le capacità dei modelli di generazione immagini possono anche rafforzare o esacerbare pregiudizi sociali.

Il grafico sopra valuta la preferenza degli utenti per SDXL (con e senza raffinamento) rispetto a Stable Diffusion 1.5 e 2.1. Il modello base SDXL ha prestazioni significativamente migliori rispetto alle versioni precedenti, e il modello combinato con il modulo di raffinamento ottiene la migliore performance complessiva.

Contributore

Luca Bianchi

Ciao! Sono Luca Bianchi, editor visivo con un debole per l’estetica minimal. Seleziono e rifinisco immagini AI per trasformarle in piccole opere d’arte.

Plant Milk 🌿 - Suite Modello - Walnut

FLUX.1 - DEV FP8 - Kijai [11 GB]

Usa questo modello