Ritratto dettagliato di un gatto furry bianco con occhi rossi adornato da gioielli intricati con gemme blu e rosse, su sfondo nero.
Ritratto di una ragazza dai capelli rossi con orecchie animali e occhi verdi che indossa orecchini e una collana, con tema scuro e stile pittorico

Prompt Consigliati

masterpiece, best quality, 1girl

Prompt Negativi Consigliati

worst quality,low quality,watermark

worst quality, low quality

Parametri Consigliati

samplers

Euler_a, CFG++, Euler Ancestral CFG++, Euler CFG++, Euler a

steps

20 - 28

cfg

1.4 - 9

resolution

1024x1024, 1216x832, 832x1216, 1344x800, 1216x832, 896x1152, 800x1280

vae

sdxl_vae.safetensors

Parametri Consigliati per Alta Risoluzione

upscaler

Latent

upscale

1.5

steps

15 - 22

denoising strength

0.6 - 0.7

Suggerimenti

I tag artista/stile DEVONO essere in un chunk CLIP separato o posti alla fine del prompt, separati da BREAK (per A1111) o concat conditioning (per Comfy) per evitare degrado significativo.

Usa solo quattro tag di qualità: masterpiece, best quality (positivo) e low quality, worst quality (negativo). Evita altri meta-tag come lowres.

Per la versione vpred, abbassa CFG a 3..5 per i migliori risultati.

Usa tag di luminosità/meta per controllare luminosità, saturazione, gamma e contrasto per una migliore fedeltà dei colori.

Quando mischi stili di artisti, usa il prefisso "by " per evitare problemi di miscelazione dello stile.

Mantieni i prompt puliti e concisi; evita descrizioni in linguaggio naturale troppo lunghe o confuse.

Punti Salienti della Versione

Versione Vpred

Sponsor del Creatore

Riadattamento approfondito di Illustrious per ottenere la migliore aderenza al prompt, conoscenza e prestazioni all'avanguardia.

Grandi sogni che diventano realtà

Il numero di versione è solo un indice dell'attuale rilascio finale, non una frazione dell'addestramento pianificato.

Repo HF

Finetuning su larga scala usando cluster GPU con un dataset di ~13M immagini (~4M con didascalie in testo naturale)

  • Conoscenza fresca e aggiornata su personaggi, concetti, stili, cultura e argomenti correlati

  • La migliore aderenza al prompt tra i modelli anime SDXL al momento del rilascio

  • Risolti i principali problemi di bleeding e bias nei tag, comuni a Illustrious, NoobAi e altri checkpoint

  • Eccellente estetica e conoscenza in un'ampia gamma di stili (oltre 50.000 artisti (esempi), inclusi centinaia di dataset unici selezionati da gallerie private, anche ricevuti direttamente dagli artisti)

  • Alta flessibilità e varietà senza compromessi sulla stabilità

  • Niente più fastidiosi watermark per stili popolari grazie a un dataset pulito

  • Colori vibranti e gradienti uniformi senza tracce di bruciature, gamma completa anche con epsilon

  • Addestramento puro da Illustrious v0.1 senza coinvolgere checkpoint di terze parti, Lora, tweaker, ecc.

Sono presenti anche alcuni problemi e cambiamenti rispetto alla versione precedente, si prega di leggere attentamente il manuale.

Cut-off del dataset - fine aprile 2025.

Caratteristiche e prompting:

Cambiamento importante:

Quando usi stili di artisti, specialmente con miscele di più stili, I loro tag DEVONO ESSERE in un chunk CLIP separato. Basta aggiungere BREAK dopo (per A1111 e derivati), usare il nodo di concatenamento per il conditioning (per Comfy) o almeno metterli alla fine del prompt. Altrimenti, è probabile un significativo degrado dei risultati.

Base:

Il checkpoint funziona sia con prompt brevi e semplici che lunghi e complessi. Tuttavia, se ci sono contraddizioni o cose strane - a differenza di altri, non verranno ignorate influenzando l'output. Nessuna guida, nessuna protezione, nessuna lobotomia.

Scrivi semplicemente ciò che vuoi vedere e non scrivere ciò che non dovrebbe apparire nell'immagine. Se vuoi una vista dall'alto - non mettere un soffitto nel positivo; se vuoi una vista ritagliata con la testa fuori campo - non descrivere dettagliatamente le caratteristiche del volto del personaggio e così via. Molto semplice, ma a volte viene dimenticato.

La versione 0.8 include una avanzata comprensione dei prompt in testo naturale. Non significa che sei obbligato a usarla, solo tag sono perfettamente validi, soprattutto perché la comprensione della combinazione di tag è migliorata.

Non aspettarti che funzioni come Flux o altri modelli basati su T5 o encoders LLM. L'intera dimensione del checkpoint SDXL è inferiore a quella del solo encoder testuale, inoltre illustrious-v0.1, base utilizzata, ha dimenticato molte cose generali rispetto a vanilla sdxl-base.

Tuttavia, anche nello stato attuale funziona molto meglio, permette di fare cose nuove normalmente impossibili senza una guida esterna, rendendo più comodi editing manuali, inpainting, ecc.

Per ottenere le migliori prestazioni devi tenere conto dei chunk CLIP. In SDXL il prompt è diviso in chunk da 75 (77 includendo BOS e EOS) token, processati separatamente da CLIP, poi concatenati e inviati come condizioni all'unet.

Se vuoi specificare alcune caratteristiche di personaggi/oggetti separandole da altre parti del prompt - assicurati che siano nello stesso chunk e opzionalmente separale con BREAK. Non risolverà completamente il problema del mescolamento dei tratti, ma può ridurlo migliorando la comprensione, poiché gli encoders testuali di RouWei sono in grado di processare l'intera sequenza meglio di altri.

Il dataset contiene solo tag in stile booru e espressioni in testo naturale. Nonostante includa una quota di furry, foto reali, media occidentali ecc., tutte le didascalie sono state convertite allo stile classico booru per evitare problemi dovuti alla miscelazione di sistemi diversi. Quindi i tag e621 non saranno compresi correttamente.

Parametri di campionamento:

  • ~1 megapixel per txt2img, qualsiasi AR con risoluzione multipla di 32 (1024x1024, 1056x, 1152x, 1216x832,...). Euler_a, 20..28 passi.

  • CFG: per la versione epsilon 4..9 (7 è il migliore), per la versione vpred 3..5

  • La moltiplicazione dei sigmas può migliorare leggermente i risultati, i sampler CFG++ funzionano bene. LCM/PCM/DMD/... e sampler esotici non testati.

  • Alcuni scheduler non funzionano bene.

  • Highresfix - x1.5 latente + denoise 0.6 o qualsiasi gan + denoise 0.3..0.55.

  • Per la versione vpred serve CFG più basso 3..5!

Per la versione vpred serve CFG più basso 3..5!

Classificazione della qualità:

Sono usati solo 4 tag di qualità:

masterpiece, best quality

per il positivo e

low quality, worst quality

per il negativo.

Nient'altro. In realtà puoi anche omettere il positivo e ridurre il negativo a solo low quality, dato che influenzano stile e composizione di base.

Meta-tag come lowres sono stati rimossi e non funzionano, è meglio non usarli. Le immagini a bassa risoluzione sono state o rimosse o migliorate e pulite con DAT a seconda della loro importanza.

Prompt negativo:

worst quality, low quality, watermark

Questo è tutto, non serve "rusty trombone", "farting on prey" e simili. Non mettere tag come greyscale, monochrome nel negativo a meno che tu non sappia cosa stai facendo. Puoi usare i tag extra per luminosità/colori/contrasto riportati sotto.

Stili degli artisti:

Griglie con esempi, lista/wildcard (si trovano anche nei "dati di training").

Deve essere usato con "by " è obbligatorio. Non funzionerà correttamente senza.

"by " è un meta-token per gli stili per evitare mescolamenti/malintesi con tag/personaggi di nome simile o vicino. Questo permette risultati migliori per gli stili ed evita fluttuazioni casuali di stile presenti in altri checkpoint.

Usarne più di uno dà risultati molto interessanti, controllabili con i pesi del prompt e incantesimi.

DEVI AGGIUNGERE BREAK dopo i tag artista/stile (per A1111) o concat conditioning (per Comfy) o metterli alla fine assoluta del prompt.

Per esempio:

by kantoku, by wlop, best quality, masterpiece BREAK 1girl, ...

Stili generali:

2.5d, anime screencap, bold line, sketch, cgi, digital painting, flat colors, smooth shading, minimalistic, ink style, oil style, pastel style

Stili tag booru:

1950s (style), 1960s (style), 1970s (style), 1980s (style), 1990s (style), 2000s (style), animification, art nouveau, pinup (style), toon (style), western comics (style), nihonga, shikishi, minimalism, fine art parody

e tutto da questo gruppo.

Possono essere usati in combinazioni (anche con artisti), con pesi, sia in prompt positivi che negativi.

Personaggi:

Usa il tag booru con nome completo e formattazione corretta, per esempio karin_(blue_archive) -> karin \(blue archive\), usa tag per la pelle per una migliore riproduzione, come karin \(bunny\) \(blue archive\). L'autocompletamento potrebbe essere molto utile.

La maggior parte dei personaggi è riconosciuta solo dal tag booru, ma è più preciso se descrivi le caratteristiche base. Qui puoi facilmente vestire la tua waifu/husbendo solo con il prompt senza soffrire di tipiche perdite di caratteristiche base.

Testo naturale:

Usalo in combinazione con tag booru, funziona benissimo. Usa solo testo naturale dopo aver digitato stili e tag di qualità. Usa solo tag booru e dimentica il resto, sta a te decidere. Per ottenere le migliori prestazioni tieni traccia dei chunk CLIP da 75 token.

Circa 4M di immagini nel dataset avevano didascalie ibride in testo naturale, create da Claude, GPT, Gemini, ToriiGate, poi rifattorizzate, pulite e combinate con tag in varie modalità per l'augmentation.

A differenza delle didascalie tipiche, queste contengono nomi di personaggi, molto utili. Meglio mantenere descrizioni brevi, pulite e funzionali. Meglio non usare descrizioni lunghe e prolisse come

Un'entità femminile misteriosamente incantevole di essenza indefinita ma giovanile, il cui volto celestiale irradia la luminanza eterea di mille stelle morenti, benedetta da chiome che scorrono come fiumi dorati della mitologia antica, forse acconciate in modo simile alle mode contemporanee, sebbene non aderiscano a un paradigma estetico specifico. I suoi occhi, pozzi di profondità e colore insondabili, brillano della saggezza di millenni ma mantengono una qualità innocente che sfida i vincoli temporali...

Per la creazione delle didascalie puoi usare ToriiGate in modalità breve.

E non aspettarti che sia buono come Flux e altri, comunque ci prova duramente e dopo diversi tentativi di solito ottieni ciò che vuoi, ma non è così stabile e dettagliato.

Oh sì

censura coda, tenere la propria coda, abbracciare la propria coda, tenere la coda di un altro, afferrare la coda, coda alzata, coda abbassata, orecchie abbassate, mano sull'orecchio proprio, coda intorno alla gamba, coda intorno al pene, tailjob, coda attraverso i vestiti, coda sotto i vestiti, sollevato dalla coda, mordere la coda, penetrazione con la coda (anche indicazioni vaginali/anali), masturbazione con la coda, tenere con la coda, mutandine sulla coda, reggiseno sulla coda, attenzione alla coda, presentare la propria coda...

(significato booru, non e621) e molti altri con testo naturale. La maggior parte funziona perfettamente, alcuni richiedono molti tentativi.

Luminosità/colori/contrasto:

Puoi usare meta-tag extra per controllarli:

bassa luminosità, alta luminosità, bassa saturazione, alta saturazione, basso gamma, alto gamma, colori nitidi, colori soft, hdr, sdr

Esempio

Funzionano sia nella versione epsilon che vpred e sono efficaci.

La versione epsilon si affida troppo a questi. Senza bassa luminosità o basso gamma o gamma limitata (in negativo) può essere difficile ottenere un nero vero (0,0,0), lo stesso spesso accade per il bianco.

Entrambe le versioni epsilon e vpred hanno un vero zsnr, gamma completa di colori e luminosità senza difetti comuni osservati. Ma si comportano in modo diverso, basta provarle.

Versione Vpred

La cosa principale da sapere - abbassa il CFG da 7 a 5 (o meno). Per il resto l'uso è simile con vantaggi.

Sembra che dalla v0.7 vpred funzioni senza problemi. Non dovrebbe soffrire di ignoranza dei tag vicino ai bordi dei chunk da 75 token come nai. È più difficile ottenere immagini bruciate - anche a cfg7 di solito è solo sovra-saturato ma con gradienti morbidi, utile per alcuni stili. Sì, può generare qualsiasi valore da (0,0,0) a (255,255,255). Troverai utili i meta-tag di luminosità sopra descritti per prompt più semplici o pigri, funzionano anche le espressioni in testo naturale. Per ottenere l'immagine più scura - metti high brightness nel negativo e/o usa i tag low brightness, low gamma. Se non ti piace pelle molto luminosa su sfondo scuro e vuoi ridurre il contrasto (o al contrario intensificarlo) - usa hdr/sdr nel negativo/positivo.

È stato segnalato che in rari casi con alcuni prompt c'è una perdita di contrasto. Sembra che altri modelli vpred abbiano lo stesso comportamento con tali prompt, aggiungere un "separatore" vicino al bordo del chunk da 75 token risolve. Tuttavia con 0.7 non ho riscontrato personalmente questo.

Per lanciare la versione vpred ti servirà una build dev di A1111, Comfy (con nodo loader speciale), Forge o Reforge. Usa stessi parametri (Euler a, cfg 3..5, 20..28 passi) come epsilon. Non serve usare Cfg rescale, ma puoi provarlo, il cfg++ funziona bene.

Modello base:

Il modello qui ha un piccolo ritocco unet dopo l'addestramento principale per migliorare dettagli, risoluzione e altro. Tuttavia, potresti essere interessato anche a RouWei-Base, che a volte funziona meglio con prompt complessi nonostante piccoli errori nei dettagli. È disponibile anche in FP32, per esempio se vuoi usare nodi fp32 encoder testuale in Comfy, fonderlo o fare finetune.

Lo trovi in repo Huggingface

Problemi noti:

Certo che ci sono:

  • Tag di artisti e stili devono essere separati in un chunk diverso dal prompt principale o messi alla fine

  • In rari casi può esserci bias posizionale o combinatorio, ma non è ancora chiaro.

  • Ci sono alcune lamentele su pochi stili generali.

  • La versione epsilon si affida troppo ai meta-tag di luminosità, a volte devi usarli per ottenere la luminosità desiderata

  • Alcuni stili/personaggi appena aggiunti potrebbero non essere così buoni e distinti come meritano

  • Da scoprire

Le richieste per artisti/personaggi in modelli futuri sono aperte. Se trovi artista/personaggio/concept che funziona male, inaccurato o ha watermark forte - segnala, li aggiungeremo esplicitamente. Segui per nuove versioni.

ISCRIVITI AL SERVER DISCORD

Licenza:

Uguale a Illustrious. Sentiti libero di usarlo nei tuoi merge, finetune, ecc. ma lascia un link o una menzione, è obbligatorio.

Come è stato fatto

Considererò di fare un report o qualcosa del genere più avanti. Sicuramente.

In breve, il 98% del lavoro è legato alla preparazione del dataset. Invece di affidarsi ciecamente al loss-weighting basato sulla frequenza dei tag del paper nai, è stata usata un'implementazione personalizzata di loss-weighting guidato insieme a un collator asincrono per bilanciamento. Ztsnr (o simile) con previsione Epsilon è stato ottenuto con augmentazione dello scheduler del rumore.

Computazione spesa - oltre 8k ore di H100 (oltre a ricerca e tentativi falliti)

Ringraziamenti:

Prima di tutto voglio ringraziare tutti quelli che supportano open source, sviluppano e migliorano il codice. Grazie agli autori di Illustrious per il rilascio del modello, grazie al team NoobAI per essere pionieri nel finetuning open su larga scala, condividendo esperienza, segnalando e risolvendo problemi prima inosservati.

Personale:

Gli artisti vogliono rimanere anonimi per aver condiviso opere private; alcune persone anonime - donazioni, codice, didascalie, ecc., Soviet Cat - sponsorizzazione GPU; Sv1. - accesso llm, didascalie, codice; K. - codice addestramento; Bakariso - datasets, test, consigli, informazioni; NeuroSenko - donazioni, test, codice; LOL2024 - molti dataset unici; T.,[] - dataset, test, consigli; rred, dga, Fi., ello - donazioni; TekeshiX - dataset. E altri fratelli che hanno aiutato. Vi amo tanto ❤️.

E ovviamente tutti quelli che hanno dato feedback e richieste, è molto prezioso.

Se ho dimenticato qualcuno, per favore segnalamelo.

Donazioni

Se vuoi supportare - condividi i miei modelli, lascia un feedback, crea un'immagine carina con una ragazza kemonomimi. E ovviamente, supporta gli artisti originali.

L'IA è un mio hobby, spendo soldi su questo e non chiedo donazioni. Tuttavia, è diventato un progetto grande e costoso. Considera di supportare per accelerare nuovi training e ricerche.

(Tieni presente che potrei spenderli in alcol o cosplay girls)

BTC: bc1qwv83ggq8rvv07uk6dv4njs0j3yygj3aax4wg6c

ETH/USDT(e): 0x04C8a749F49aE8a56CB84cF0C99CD9E92eDB17db

XMR: 47F7JAyKP8tMBtzwxpoZsUVB8wzg2VrbtDKBice9FAS1FikbHEXXPof4PAb42CQ5ch8p8Hs4RvJuzPHDtaVSdQzD6ZbA5TZ

Se puoi offrire tempo GPU (a100+) - contattami in privato.

Precedente
RedCraft | 红潮 CADS | Aggiornato-GIU29 | Ultimo - Red-K Kontext DEV NSFW - Reveal5[SFW]ULTRA
Successivo
RedCraft | 红潮 CADS | Aggiornato-GIU29 | Ultimo - Red-K Kontext DEV NSFW - 赩梦|REDiDream(NSFW i1)

Dettagli del Modello

Tipo di modello

Checkpoint

Modello base

Illustrious

Versione del modello

v0.7 vpred

Hash del modello

66076a003a

Creatore

Discussione

Per favore log in per lasciare un commento.

Immagini di RouWei - v0.7 vpred

Immagini con anime

Immagini con modello base

Immagini con illustre