RouWei - v0.8.0 epsilon
Prompt Consigliati
masterpiece
Prompt Negativi Consigliati
worst quality,low quality,watermark
worst quality, low quality, watermark
Parametri Consigliati
samplers
steps
cfg
resolution
vae
Parametri Consigliati per Alta Risoluzione
upscaler
upscale
steps
denoising strength
Suggerimenti
Quando usi stili artistici, i loro tag devono essere in un chunk CLIP separato—aggiungi BREAK per A1111 e derivati, usa conditioning concat node per Comfy o mettili alla fine per evitare degrado della qualità.
Imposta nel prompt ciò che vuoi vedere ed evita di inserire elementi indesiderati; il modello rispetta prompt contraddittori e complessi senza guide o protezioni.
Usa solo quattro tag di qualità: positivo "masterpiece, best quality" e negativo "low quality, worst quality"; meta tag come "lowres" sono stati rimossi e sono inefficaci.
Per miglior controllo di luminosità e colore, usa meta tag come bassa/alta luminosità, saturazione, gamma, colori nitidi/morbidi, hdr e sdr.
Per la versione vpred, abbassa il CFG a 3-5 e usa gli stessi parametri di sampling; produce gradienti morbidi e può raggiungere gamma completa di colori.
Usa tag booru con nome completo e formattazione corretta per i personaggi per migliorare accuratezza.
Evita prompt testuali naturali lunghi e prolissi; descrizioni brevi e pulite funzionano meglio per input testuale naturale.
Punti Salienti della Versione
Aggiornamento principale
Sponsor del Creatore
Addestramento approfondito di Illustrious per raggiungere la migliore aderenza al prompt, conoscenza e prestazioni all'avanguardia.
Grandi sogni che si avverano
Il numero di versione è solo un indice della release finale attuale, non una frazione dell'addestramento pianificato.
Finetune su larga scala usando un cluster GPU con un dataset di circa 13M immagini (circa 4M con didascalie testuali naturali)
Conoscenza fresca ed esaustiva su personaggi, concetti, stili, cultura e affini
La migliore aderenza al prompt fra i modelli SDXL anime al momento del rilascio
Risolti i maggiori problemi di bleeding dei tag e bias, comuni a Illustrious, NoobAi e altri checkpoint
Estetica eccellente e conoscenza di un’ampia gamma di stili (oltre 50.000 artisti (esempi), compresi centinaia di dataset unici selezionati da gallerie private e anche forniti direttamente dagli artisti)
Alta flessibilità e varietà senza compromessi sulla stabilità
Niente più fastidiosi watermark per stili popolari grazie al dataset pulito
Colori vivaci e gradienti morbidi senza tracce di burn, gamma completa anche in epsilon
Addestramento puro da Illustrious v0.1 senza coinvolgere checkpoint di terze parti, Lora, tweak, ecc.
Ci sono anche alcune problematiche e modifiche rispetto alla versione precedente, si prega di leggere la documentazione.
Taglio del dataset - fine aprile 2025.
Caratteristiche e prompting:
Cambiamento importante:
Quando usi stili di artisti, specialmente mischiando diversi, i loro tag DEVONO ESSERE in un chunk CLIP separato. Basta aggiungere BREAK dopo (per A1111 e derivati), usare il nodo conditioning concat (per Comfy) o almeno metterli alla fine del prompt. Altrimenti, è probabile un degrado significativo dei risultati.
Basi:
Il checkpoint funziona con prompt semplici e brevi o lunghi e complessi. Tuttavia, se ci sono elementi contraddittori o strani, a differenza di altri modelli non verranno ignorati influenzando l’output. Nessun binario di guida, nessuna protezione, nessuna lobotomia.
Fai il prompt di quello che vuoi vedere e non inserire ciò che non dovrebbe comparire nell’immagine. Se vuoi una visuale dall’alto – non mettere il soffitto in positivo; se vuoi una vista ritagliata con la testa fuori campo – non dettagliare eccessivamente i tratti facciali del personaggio, e così via. Molto semplice ma a volte sfugge.
La versione 0.8 offre una comprensione avanzata dei prompt testuali naturali. Non significa che devi obbligatoriamente usarli, solo tag va benissimo, soprattutto perché è migliorata la comprensione delle combinazioni di tag.
Non aspettarti performance come Flux o altri modelli basati su T5 o LLM text encoder. L'intera dimensione del checkpoint SDXL è inferiore solo a quell'encoder testuale, inoltre illustrious-v0.1 usato come base ha completamente dimenticato molte cose generali del vanilla sdxl-base.
Comunque, anche nello stato attuale funziona molto meglio, permette di fare cose nuove solitamente impossibili senza guida esterna, rendendo più comodi editing manuale, inpainting, ecc.
Per ottenere le migliori prestazioni devi tenere conto dei chunk CLIP. In SDXL il prompt è diviso in chunk di 75 token (77 includendo BOS e EOS), processati separatamente; solo poi vengono concatenati come condizioni per l’UNet.
Se vuoi specificare caratteristiche di personaggi/oggetti e separarle dal resto del prompt assicurati che siano nello stesso chunk e opzionalmente separale con BREAK. Non risolverà completamente la miscelazione dei tratti, ma può ridurla migliorando la comprensione complessiva, dato che i text encoder su RouWei sono capaci di processare meglio l’intera sequenza rispetto ai concetti individuali.
Il dataset contiene solo tag in stile booru e espressioni testuali naturali. Nonostante ci siano una quota di furry, foto reali, media occidentale, ecc., tutte le didascalie sono state convertite in stile classico booru per evitare problemi derivanti dalla mescolanza di sistemi diversi. Quindi i tag e621 non saranno compresi correttamente.
Parametri di sampling:
~1 megapixel per txt2img, qualsiasi AR con risoluzione multipla di 32 (1024x1024, 1056x, 1152x, 1216x832,...). Euler_a, 20..28 passi.
CFG: per versione epsilon 4..9 (7 è il migliore), per versione vpred, 3..5
Moltiplicazione di sigma può migliorare leggermente i risultati, i sampler CFG++ funzionano bene. LCM/PCM/DMD/... e sampler esotici non testati.
Alcuni scheduler non funzionano bene.
Highresfix - x1.5 latente + denoise 0.6 o qualsiasi gan + denoise 0.3..0.55.
Per la versione vpred è necessario un CFG più basso 3..5!
Per la versione vpred è necessario un CFG più basso 3..5!
Classificazione qualità:
Solo 4 tag di qualità:
masterpiece, best qualityper il positivo e
low quality, worst qualityper il negativo.
Nient'altro. In realtà puoi anche omettere il positivo e ridurre il negativo a solo low quality, dato che possono influire sullo stile e composizione base.
Meta tag come lowres sono stati rimossi e non funzionano, meglio non usarli. Le immagini a bassa risoluzione sono state o rimosse o upscalate e pulite con DAT a seconda dell'importanza.
Prompt negativo:
worst quality, low quality, watermarkQuesto è tutto, non servono "rusty trombone", "farting on prey" e simili. Non inserire tag come greyscale, monochrome nel negativo a meno che tu non sappia cosa stai facendo. Possono essere usati tag extra per luminosità/colori/contrasto come indicato sotto.
Stili artistici:
Griglie con esempi, lista/wildcard (disponibili anche nei "training data").
Usato con "by " è obbligatorio. Non funzionerà correttamente senza.
"by " è un meta-token per gli stili per evitare misinterpretazioni o mescolamenti con tag/personaggi di nome simile o vicino. Questo permette migliori risultati per gli stili ed evita oscillazioni stile casuali come si vedono in altri checkpoint.
Usarne più di uno dà risultati interessanti, può essere controllato con pesi e 'incantesimi' nel prompt.
DEVI AGGIUNGERE BREAK dopo i tag artisti/stili (per A1111) o concat conditioning (per Comfy) o metterli alla fine del prompt.
Per esempio:
by kantoku, by wlop, best quality, masterpiece BREAK 1girl, ...Stili generali:
2.5d, anime screencap, bold line, sketch, cgi, digital painting, flat colors, smooth shading, minimalistic, ink style, oil style, pastel styleStili tag booru:
1950s (style), 1960s (style), 1970s (style), 1980s (style), 1990s (style), 2000s (style), animification, art nouveau, pinup (style), toon (style), western comics (style), nihonga, shikishi, minimalism, fine art parodye tutto da questo gruppo.
Possono essere usati in combinazioni (anche con artisti), con pesi, sia in prompt positivi che negativi.
Personaggi:
Usa il tag booru con nome completo e formattazione corretta, ad esempio karin_(blue_archive) -> karin \(blue archive\), usa tag pelle per migliore riproduzione, tipo karin \(bunny\) \(blue archive\). L'autocomplete è molto utile.
La maggior parte dei personaggi è riconosciuta solo dal tag booru, ma è più accurato descrivere i tratti base. Qui puoi facilmente cambiare vestiti alla tua waifu/husbendo solo col prompt senza subire classiche fughe di caratteristiche base.
Testo naturale:
Usalo in combinazione con tag booru, funziona molto bene. Usa solo testo naturale dopo aver scritto stili e tag di qualità. Usa solo tag booru e dimenticalo, è a tua scelta. Per ottenere le migliori prestazioni tieni conto dei chunk CLIP da 75 token.
Circa 4 milioni di immagini nel dataset hanno didascalie testuali ibride, create da Claude, GPT, Gemini, ToriiGate, poi rifattorizzate, pulite e combinate con tag in varie modalità per aumentazione.
A differenza di didascalie tipiche, contengono nomi di personaggi, molto utili. Meglio mantenere descrizioni corte, pulite e comode. Meglio non usare lunghi e prolissi testi come
Un'entità femminile misteriosamente incantevole di essenza indeterminata ma giovanile, il cui volto celestiale brilla con l'eterea luminescenza di mille stelle morenti, benedetta da chiome che scendono come fiumi dorati della mitologia antica, forse pettinate in modo che ricorda la moda contemporanea anche se non aderente a un paradigma estetico specifico. I suoi occhi, pozze di profondità e tonalità insondabili, scintillano con la saggezza dei millenni ma mantengono una qualità innocente che sfida i confini temporali...Per le didascalie puoi usare ToriiGate in modalità breve.
E non aspettarti sia buono come flux e altri, ci prova molto e dopo diversi tentativi solitamente ottieni ciò che vuoi, ma non è così stabile e dettagliato.
Molti concetti legati a coda/orecchie:
Oh sì
censura della coda, tenere la propria coda, abbracciare la propria coda, tenere la coda di un altro, afferrare la coda, coda alzata, coda giù, orecchie abbassate, mano sull’orecchio proprio, coda intorno alla gamba, coda intorno al pene, tailjob, coda attraverso i vestiti, coda sotto i vestiti, sollevata dalla coda, mordere la coda, penetrazione con coda (incluso vagina/ano), masturbazione con coda, tenere con la coda, mutandine sulla coda, reggiseno sulla coda, focus sulla coda, presentare la propria coda...(significato booru, non e621) e molti altri con testo naturale. La maggior parte funziona perfettamente, alcuni richiedono molte prove.
Luminosità/colori/contrasto:
Puoi usare meta tag extra per controllarli:
bassa luminosità, alta luminosità, bassa saturazione, alta saturazione, basso gamma, alto gamma, colori nitidi, colori morbidi, hdr, sdrFunzionano sia sulla versione epsilon che vpred e funzionano molto bene.
La versione epsilon si affida troppo a questi. Senza bassa luminosità, basso gamma o range limitato (negativo) può essere difficile ottenere un nero puro 0,0,0, e lo stesso vale spesso per il bianco.
Sia epsilon che vpred hanno un vero zsnr, gamma completa di colori e luminosità senza difetti comuni. Ma si comportano diversamente, prova tu stesso.
Versione vpred
La cosa principale da sapere - abbassa il tuo CFG da 7 a 5 (o meno). Altrimenti l’uso è simile con vantaggi.
Sembra che dalla v0.7 vpred funzioni senza problemi ora. Non dovrebbe ignorare tag vicini ai bordi dei chunk da 75 token come succede a nai. È più difficile ottenere immagini bruciate - anche a cfg7 solitamente satura troppo ma con gradienti morbidi, utile per alcuni stili. Sì, può generare qualsiasi colore da (0,0,0) a (255,255,255). Troverai molto utili i tag luminosità sopra descritti per un prompting più facile/pigro, funzionano anche le espressioni testuali naturali. Per ottenere l’immagine più scura - metti high brightness in negativo e/o usa tag low brightness, low gamma. Se non ti piace la pelle molto luminosa su sfondo scuro e vuoi ridurre il contrasto (o al contrario, esaltare l’effetto) - usa hdr/sdr in negativo/positivo.
È stato segnalato che in rari casi con alcuni prompt c’è una diminuzione del contrasto. Sembra che altri modelli vpred abbiano lo stesso comportamento con quei prompt, aggiungere un "separatore" vicino al bordo del chunk da 75 token risolve il problema. Comunque con la versione 0.7 non l’ho riscontrato personalmente.
Per lanciare la versione vpred servirà una build dev di A1111, Comfy (con nodo loader speciale), Forge o Reforge. Usa gli stessi parametri (Euler a, cfg 3..5, 20..28 step) come epsilon. Non serve Cfg rescale, ma puoi provarlo, cfg++ va benissimo.
Modello base:
Il modello qui ha un piccolo ritocco unet dopo l’addestramento principale per migliorare dettagli, aumentare risoluzione e altro. Tuttavia, potresti essere interessato anche a RouWei-Base, che a volte funziona meglio con prompt complessi nonostante qualche piccolo errore nei dettagli. Disponibile anche in FP32, per esempio per usare nodi text encoder fp32 in Comfy, fare merge o finetune.
Si trova in repo Huggingface
Problemi noti:
Ovviamente ci sono:
I tag di artisti e stili devono essere separati in un chunk diverso dal prompt principale o messi alla fine
In rari casi può esserci qualche bias posizionale o combinatorio, ma non è chiaro ancora.
Ci sono alcune lamentele su pochi stili generali.
La versione epsilon si affida troppo ai tag di luminosità, a volte servirà usarli per ottenere la variazione desiderata.
Alcuni stili/personaggi aggiunti di recente potrebbero non essere così buoni o distinti come meritano
Da scoprire
Le richieste per artisti/personaggi in modelli futuri sono aperte. Se trovi artista/personaggio/concept che funziona poco, impreciso o con watermark forte - segnala, li aggiungeremo esplicitamente. Segui per nuove versioni.
UNISCITI AL SERVER DISCORD
Licenza:
Uguale a illustrious. Sentiti libero di usare per merge, finetune, ecc. ma lascia un link o menzione, è obbligatorio
Come è fatto
Considererò di fare un report o qualcosa del genere più avanti. Sicuramente.
In breve, il 98% del lavoro è legato alla preparazione del dataset. Invece di affidarsi ciecamente al loss-weighting basato sulla frequenza dei tag dal paper di nai, è stata usata una loss-weighting guidata personalizzata insieme a un collator asincrono per il bilanciamento. Ztsnr (o molto vicino) con predizione Epsilon è stato raggiunto usando augmentation con noise scheduler.
Compute speso - oltre 8k ore di H100 (a parte ricerca e tentativi falliti)
Ringraziamenti:
Prima di tutto vorrei ringraziare tutti quelli che supportano open source, sviluppano e migliorano il codice. Grazie agli autori di illustrious per aver rilasciato il modello, grazie al team NoobAI per essere pionieri nell'open finetuning su larga scala, per aver condiviso esperienza, sollevato e risolto problemi prima ignorati.
Personale:
Alcuni artisti vogliono rimanere anonimi per aver condiviso lavori privati; alcune persone anonime - donazioni, codice, didascalie, ecc., Soviet Cat - sponsorizzazione GPU; Sv1. - accesso llm, didascalie, codice; K. - codice di addestramento; Bakariso - dataset, testing, consigli, dietro le quinte; NeuroSenko - donazioni, testing, codice; LOL2024 - molti dataset unici; T.,[] - dataset, testing, consigli; rred, dga, Fi., ello - donazioni; TekeshiX - dataset. E altri fratelli che hanno aiutato. Vi amo tanto ❤️.
E ovviamente tutti quelli che hanno dato feedback e richieste, è molto prezioso.
Se ho dimenticato qualcuno, per favore notificatemi.
Donazioni
Se vuoi supportare - condividi i miei modelli, lascia feedback, crea un’immagine carina con kemonomimi-girl. E ovviamente, supporta gli artisti originali.
L’AI è il mio hobby, spendo soldi per essa e non chiedo donazioni. Comunque è diventato un progetto di larga scala e costoso. Considera di supportare per accelerare nuovi addestramenti e ricerche.
(Tienilo a mente, potrei spenderli in alcol o cosplay di ragazze)
BTC: bc1qwv83ggq8rvv07uk6dv4njs0j3yygj3aax4wg6c
ETH/USDT(e): 0x04C8a749F49aE8a56CB84cF0C99CD9E92eDB17db
XMR: 47F7JAyKP8tMBtzwxpoZsUVB8wzg2VrbtDKBice9FAS1FikbHEXXPof4PAb42CQ5ch8p8Hs4RvJuzPHDtaVSdQzD6ZbA5TZ
se puoi offrire tempo GPU (a100+) - contattami in privato.
Dettagli del Modello
Tipo di modello
Modello base
Versione del modello
Hash del modello
Creatore
Discussione
Per favore log in per lasciare un commento.









