modelli/RouWei - v0.8.0 vpred

RouWei - v0.8.0 vpred

Luca Bianchi

10/16/2025

1:09:24 AM

| Discussion|

Parole Chiave e Tag Correlati

anime,stili degli artisti,modello base,checkpoint,illustre,aderenza al prompt

Una ragazza senza volto con lunghi capelli neri e una veste nera con motivi a scacchi sta su un pianoforte gigante, sorridendo in modo malvagio, mentre un lupo nero cammina su un paesaggio di sabbia a scacchi sotto di lei.

Prompt Consigliati

masterpiece

Prompt Negativi Consigliati

worst quality,low quality,watermark

worst quality, low quality, watermark

Parametri Consigliati

samplers

Euler_a, Euler a

steps

20 - 28

cfg

4 - 9

resolution

1024x1024, 1216x832, 1376x832, 1280x800, 1200x1920, 832x1216, 1216x832

vae

sdxl_vae.safetensors

Parametri Consigliati per Alta Risoluzione

upscaler

Latent

upscale

1.5

steps

15 - 22

denoising strength

0.5 - 0.65

Suggerimenti

I tag artista/stile devono essere in un chunk CLIP separato o posti alla fine del prompt con un token BREAK per la migliore aderenza al prompt.

Usa solo 4 tag di qualità: 'masterpiece' e 'best quality' per il positivo, 'low quality' e 'worst quality' per i prompt negativi.

Evita meta-tag come 'lowres'; sono stati rimossi e non influenzano i risultati.

Per la versione vpred, usa valori CFG più bassi (3-5).

Meta-tag relativi a luminosità, contrasto e colori (es. 'low brightness', 'high saturation') migliorano la qualità dell'output e funzionano sia sulle versioni epsilon che vpred.

Usa testo naturale combinato con tag booru e mantieni i prompt brevi e chiari per risultati migliori.

Più stili artistici possono essere combinati con pesi del prompt e spells.

Punti Salienti della Versione

Vpred per v0.8

Sponsor del Creatore

Supporta il modello e gli autori tramite il Repository Huggingface e unisciti al Server Discord. Sono benvenute donazioni in BTC, ETH/USDT, XMR o tempo GPU (A100+). Vedi la pagina per dettagli.

Riadattamento approfondito di Illustrious per raggiungere la migliore aderenza al prompt, conoscenza e prestazioni all'avanguardia.

I grandi sogni diventano realtà

Il numero di versione è solo un indice della release finale corrente, non una frazione dell'addestramento pianificato.

Repository HF

Finetuning su larga scala usando un cluster GPU con un dataset di ~13M immagini (~4M con didascalie in testo naturale)

Conoscenza fresca e aggiornata su personaggi, concetti, stili, cultura e argomenti correlati
La migliore aderenza al prompt tra i modelli anime SDXL al momento del rilascio
Risolti i principali problemi di bleeding dei tag e bias, comuni a Illustrious, NoobAi e altri checkpoint
Eccellente estetica e conoscenza su un'ampia gamma di stili (oltre 50.000 artisti (esempi), inclusi centinaia di dataset unici selezionati da gallerie private, anche forniti dagli stessi artisti)
Alta flessibilità e varietà senza compromessi sulla stabilità
Non ci sono più fastidiosi watermark per stili popolari grazie a un dataset pulito
Colori vivaci e gradienti morbidi senza tracce di bruciature, gamma completa anche con epsilon
Allenamento puro da Illustrious v0.1 senza coinvolgere checkpoint di terze parti, Lora, tweaker, ecc.

Ci sono anche alcuni problemi e cambiamenti rispetto alla versione precedente, per favore RTFM.

Taglio del dataset - fine aprile 2025.

Caratteristiche e prompting:

Cambiamento importante:

Quando usi stili artistici, specialmente miscelandoli, i loro tag DEVONO ESSERE in un chunk CLIP separato. Basta aggiungere BREAK dopo (per A1111 e derivati), usare il nodo conditioning concat (per Comfy) o almeno metterli alla fine. Altrimenti è probabile un degrado significativo dei risultati.

Base:

Il checkpoint funziona sia con prompt brevi e semplici che lunghi e complessi. Tuttavia, se ci sono contraddizioni o cose strane - a differenza di altri, non vengono ignorate influenzando l'output. Niente guide-rails, nessuna salvaguardia, nessuna lobotomia.

Prompta semplicemente ciò che vuoi vedere e non promptare ciò che non dovrebbe esserci nell'immagine. Se vuoi una vista dall'alto - non inserire il soffitto nel positivo, se vuoi una vista ritagliata con la testa fuori inquadratura - non fare una descrizione dettagliata dei tratti del volto, e così via. Semplice, ma a volte viene dimenticato.

La versione 0.8 ha una comprensione avanzata dei prompt in testo naturale. Non significa che devi usarla per forza, solo tag va benissimo, specialmente perché è migliorata anche la comprensione delle combinazioni di tag.

Non aspettarti che funzioni come Flux o altri modelli basati su T5 o codificatori LLM. L'intero checkpoint SDXL è più piccolo del solo quel codificatore di testo, inoltre illustrious-v0.1, usato come base, ha dimenticato molte cose generali dal vanilla sdxl-base.

Tuttavia, anche così funziona molto meglio, permette cose nuove di solito impossibili senza guida esterna, rende più comodi editing manuale, inpainting, ecc.

Per ottenere migliori prestazioni devi tenere traccia dei chunk CLIP. In SDXL il prompt è diviso in chunk di 75 (77 includendo BOS e EOS) token, processati separatamente da CLIP, poi concatenati e usati come condizioni per la unet.

Se vuoi specificare caratteristiche per personaggi/oggetti e separarle dal resto del prompt - assicurati che siano nello stesso chunk e opzionalmente separale con BREAK. Non risolve completamente il problema del mix di caratteristiche, ma può ridurlo migliorando la comprensione generale, dato che i codificatori su RouWei elaborano meglio l'intera sequenza, non solo concetti individuali.

Il dataset contiene solo tag in stile booru e espressioni in testo naturale. Nonostante ci siano furries, foto reali, media occidentali, ecc., tutte le didascalie sono state convertite allo stile classico booru per evitare problemi di mescolanza di sistemi diversi. Quindi i tag e621 non saranno compresi correttamente.

Parametri di campionamento:

~1 megapixel per txt2img, qualsiasi AR con risoluzione multipla di 32 (1024x1024, 1056x, 1152x, 1216x832,...). Euler_a, 20..28 steps.
CFG: per versione epsilon 4..9 (7 è il migliore), per versione vpred 3..5
Moltiplicare sigmas può migliorare un po' i risultati, samplers CFG++ funzionano bene. LCM/PCM/DMD/... e samplers esotici non testati.
Alcuni scheduler non funzionano bene.
Highresfix - x1.5 latent + denoise 0.6 o qualsiasi gan + denoise 0.3..0.55.
Per la versione vpred serve CFG più basso 3..5!

Per la versione vpred serve CFG più basso 3..5!

Classificazione della qualità:

Solo 4 tag di qualità:

masterpiece, best quality

per il positivo e

low quality, worst quality

per il negativo.

Nient'altro. In realtà puoi anche omettere il positivo e ridurre il negativo a low quality solo, poiché influenzano lo stile e la composizione base.

Meta tag come lowres sono stati rimossi e non funzionano, meglio non usarli. Le immagini a bassa risoluzione sono state rimosse o upscalate e pulite con DAT a seconda dell'importanza.

Prompt negativo:

worst quality, low quality, watermark

Questo è tutto, non servono "rusty trombone", "farting on prey" e altri. Non mettere tag come greyscale, monochrome nel negativo a meno che tu non sappia cosa stai facendo. Tag extra per luminosità/colori/contrasto sotto possono essere usati.

Stili artistici:

Griglie con esempi, lista/wildcard (anche trovabile in "training data").

Usato con "by " è obbligatorio. Non funziona bene senza.

"by " è un meta-token per stili per evitare mischiamenti o interpretazioni errate con tag/personaggi con nome simile o vicino. Ciò consente risultati migliori per gli stili ed evita fluttuazioni casuali dello stile che puoi vedere in altri checkpoint.

Molti insieme danno risultati molto interessanti, possono essere controllati con pesi del prompt e spells.

DEVI AGGIUNGERE `BREAK` dopo i tag artista/stile (per A1111) o concat conditioning (per Comfy) o metterli alla fine del tuo prompt.

Per esempio:

by kantoku, by wlop, best quality, masterpiece BREAK 1girl, ...

Stili generali:

2.5d, anime screencap, bold line, sketch, cgi, digital painting, flat colors, smooth shading, minimalistic, ink style, oil style, pastel style

Stili tag booru:

1950s (style), 1960s (style), 1970s (style), 1980s (style), 1990s (style), 2000s (style), animification, art nouveau, pinup (style), toon (style), western comics (style), nihonga, shikishi, minimalism, fine art parody

e tutto da questo gruppo.

Possono essere usati in combinazioni (anche con artisti), con pesi, sia in prompt positivo che negativo.

Personaggi:

Usa tag booru con nome completo e formattazione corretta, tipo karin_(blue_archive) -> karin \(blue archive\), usa tag pelle per migliore resa, tipo karin \(bunny\) \(blue archive\). L'estensione autocomplete è molto utile.

La maggior parte dei personaggi è riconosciuta solo dal tag booru, ma è più accurato descriverne i tratti base. Puoi facilmente vestirti la tua waifu/husbando solo con il prompt senza problemi tipici di fughe di dettagli base.

Testo naturale:

Usalo in combinazione con tag booru, funziona bene. Usa solo testo naturale dopo tag stile e qualità. Usa solo tag booru se vuoi, è a tua scelta. Per ottenere le migliori prestazioni tieni traccia dei chunk CLIP da 75 token.

Circa 4M di immagini nel dataset avevano didascalie ibride in testo naturale, create da Claude, GPT, Gemini, ToriiGate, poi rielaborate, pulite e combinate con tag in diverse variazioni per aumentare il dataset.

A differenza delle didascalie tipiche, contengono nomi di personaggi, molto utili. Meglio mantenerle pulite, brevi e chiare. Meglio non usare descrizioni lunghe e confusionarie come

Un'entità femminile misteriosamente incantevole di essenza indefinita ma giovanile, il cui volto celeste irradia la luminescenza eterea di mille stelle morenti, benedetta con chiome che scorrono come fiumi dorati della mitologia antica, forse acconciate in modo che ricordi mode contemporanee senza aderire a nessun paradigma estetico specifico. I suoi occhi, pozzi di profondità e colore insondabili, scintillano con la saggezza di millenni mantenendo una qualità innocente che sfida i vincoli temporali...

Per fare didascalie puoi usare ToriiGate in modalità breve.

Non aspettarti la stessa qualità di flux e altri, ci prova molto e dopo diversi tentativi di solito ottieni ciò che vuoi, ma non è così stabile e dettagliato.

Sì

censura coda, tenere la propria coda, abbracciare la propria coda, tenere la coda di un altro, afferrare la coda, coda alzata, coda giù, orecchie giù, mano sull'orecchio proprio, coda attorno alla gamba propria, coda attorno al pene, tailjob, coda attraverso vestiti, coda sotto vestiti, sollevato dalla coda, mordere la coda, penetrazione coda (compresa vaginale/anale), masturbazione con la coda, tenere con la coda, mutandine sulla coda, reggiseno sulla coda, focus coda, mostrare la propria coda...

(significato booru, non e621) e molti altri con testo naturale. La maggior parte funziona perfettamente, alcuni richiedono più tentativi.

Luminosità/colori/contrasto:

Puoi usare meta-tag extra per controllarli:

bassa luminosità, alta luminosità, bassa saturazione, alta saturazione, basso gamma, alto gamma, colori nitidi, colori morbidi, hdr, sdr

Esempio

Funzionano sia in versione epsilon che vpred e funzionano molto bene.

La versione epsilon fa molto affidamento su questi. Senza bassa luminosità o basso gamma o gamma limitata (nel negativo) potrebbe essere difficile raggiungere il vero nero 0,0,0, lo stesso spesso vale per il bianco.

Entrambe le versioni epsilon e vpred hanno vero zsnr, gamma completa di colori e luminosità senza difetti comuni. Ma si comportano diversamente, provale.

Versione Vpred

La cosa principale da sapere - riduci il CFG da 7 a 5 (o meno). Altrimenti l'uso è simile con vantaggi.

Sembra che da v0.7 vpred funzioni perfettamente ora. Non dovrebbe soffrire di ignoranza dei tag vicini ai bordi del chunk da 75 token come nai. È più difficile ottenere immagini bruciate - anche con cfg7 di solito è solo sovrasaturo ma con gradienti morbidi, utile per alcuni stili. Sì, può generare qualsiasi valore da (0,0,0) a (255,255,255). Troverai i meta tag luminosità sopra descritti molto utili per un prompting più facile/pigro, funzionano anche espressioni in testo naturale. Per ottenere l'immagine più scura - metti high brightness in negativo e/o usa tag low brightness, low gamma. Se non ti piace la pelle molto chiara su sfondo scuro e vuoi ridurre il contrasto (o al contrario accentuarlo) - usa hdr/sdr nel negativo/positivo.

È stato segnalato che in rari casi su alcuni prompt c'è una perdita di contrasto. Sembra che altri modelli vpred abbiano lo stesso comportamento; aggiungere un "separatore" vicino al bordo del chunk da 75 token risolve il problema. Tuttavia, con 0.7 non l'ho riscontrato personalmente.

Per lanciare la versione vpred ti servirà una build dev di A1111, Comfy (con loader speciale), Forge o Reforge. Usa gli stessi parametri (Euler a, cfg 3..5, 20..28 steps) come epsilon. Non serve usare Cfg rescale, ma puoi provarlo, cfg++ funziona benissimo.

Modello base:

Il modello qui ha una piccola rifinitura unet dopo l'addestramento principale per migliorare dettagli piccoli, aumentare risoluzione e altro. Tuttavia, potresti essere interessato anche a RouWei-Base, che a volte funziona meglio con prompt complessi nonostante piccoli errori nei dettagli. È disponibile anche in FP32, utile per nodi text encoder fp32 in Comfy, per merge o finetuning.

Lo trovi nel repository Huggingface

Problemi noti:

Ovviamente ci sono:

Tag artisti e stili devono essere separati in chunk diversi dal prompt principale o posti in coda
Potrebbero esserci bias posizionali o combinazionali in rari casi, ma non è chiaro ancora.
Ci sono lamentele su alcuni stili generali.
La versione epsilon fa troppo affidamento su meta tag luminosità, a volte serve usarli per ottenere la luminosità desiderata
Alcuni stili/personaggi nuovi potrebbero non essere così buoni o distinti come dovrebbero
Da scoprire

Richieste per artisti/personaggi in modelli futuri sono aperte. Se trovi artisti/personaggi/concept che funzionano debolmente, inaccuratamente o hanno watermark evidenti - segnala, li aggiungeremo esplicitamente. Segui per nuove versioni.

UNISCITI AL SERVER DISCORD

Licenza:

Uguale a illustrious. Sentiti libero di usarlo per merge, finetuning, ecc. ma per favore lascia un link o menzione, è obbligatorio.

Come è fatto

Considererò di fare un report o qualcosa del genere più avanti. Sicuramente.

In breve, il 98% del lavoro è stato relativo alla preparazione del dataset. Invece di affidarsi ciecamente a loss-weighting basato sulla frequenza dei tag dal paper nai, è stata usata un'implementazione custom di guided loss-weighting insieme a un collator asincrono per bilanciare. Ztsnr (o molto simile) con predizione Epsilon è stato ottenuto usando augmentazione dello scheduler di rumore.

Compute speso - oltre 8k ore di H100 (a parte ricerche e tentativi falliti)

Ringraziamenti:

Prima di tutto vorrei ringraziare chi supporta l'open source, sviluppa e migliora il codice. Grazie agli autori di illustrious per il rilascio del modello, grazie al team NoobAI per essere pionieri nel finetuning aperto a questa scala, condividere esperienza, sollevare e risolvere problemi precedentemente ignorati.

Personale:

Gli artisti vogliono rimanere anonimi per aver condiviso opere private; alcune persone anonime - donazioni, codice, didascalie, ecc., Soviet Cat - sponsorizzazione GPU; Sv1. - accesso llm, didascalie, codice; K. - codice di addestramento; Bakariso - dataset, test, consigli, approfondimenti; NeuroSenko - donazioni, test, codice; LOL2024 - molti dataset unici; T.,[] - dataset, test, consigli; rred, dga, Fi., ello - donazioni; TekeshiX - dataset. E altri fratelli che hanno aiutato. Vi voglio bene ❤️.

E ovviamente tutti quelli che hanno fornito feedback e richieste, preziosissimi.

Se ho dimenticato qualcuno, per favore avvisa.

Donazioni

Se vuoi supportare - condividi i miei modelli, lascia feedback, crea una bella immagine con kemonomimi-girl. E ovviamente supporta gli artisti originali.

L'AI è un mio hobby, spendo soldi per questo e non chiedo donazioni. Tuttavia, è diventato un impegno esteso e costoso. Considera di supportare per accelerare nuovi addestramenti e ricerche.

(Tieni presente che potrei spenderli in alcool o cosplay girl)

BTC: bc1qwv83ggq8rvv07uk6dv4njs0j3yygj3aax4wg6c

ETH/USDT(e): 0x04C8a749F49aE8a56CB84cF0C99CD9E92eDB17db

XMR: 47F7JAyKP8tMBtzwxpoZsUVB8wzg2VrbtDKBice9FAS1FikbHEXXPof4PAb42CQ5ch8p8Hs4RvJuzPHDtaVSdQzD6ZbA5TZ

se puoi offrire tempo GPU (a100+) - PM.

Contributore

Luca Bianchi

Ciao! Sono Luca Bianchi, editor visivo con un debole per l’estetica minimal. Seleziono e rifinisco immagini AI per trasformarle in piccole opere d’arte.

Colorful Chaos Cracks and Drops XL - v1.0

Stile Artistico Psychedelic Vibes - (Dreambooth Trained - SDXL LoRA) - v1.0

Usa questo modello