RouWei - v0.7 vpred
Prompts recommandés
masterpiece, best quality, 1girl
Prompts négatifs recommandés
worst quality,low quality,watermark
worst quality, low quality
ParamÚtres recommandés
samplers
steps
cfg
resolution
vae
ParamÚtres haute résolution recommandés
upscaler
upscale
steps
denoising strength
Conseils
Les tags artiste/style DOIVENT ĂȘtre dans un chunk CLIP sĂ©parĂ© ou placĂ©s Ă la toute fin du prompt, sĂ©parĂ©s par BREAK (pour A1111) ou concat conditioning (pour Comfy) pour Ă©viter une dĂ©gradation significative.
Utilisez seulement quatre tags de qualitĂ© : masterpiece, best quality (positif) et low quality, worst quality (nĂ©gatif). Ăvitez les autres mĂ©ta-tags comme lowres.
Pour la version vpred, réduisez le CFG à 3..5 pour de meilleurs résultats.
Utilisez les tags de luminosité/méta pour contrÎler la luminosité, saturation, gamma et contraste pour une meilleure fidélité des couleurs.
Lors du mĂ©lange de styles dâartistes, utilisez le prĂ©fixe "by " pour Ă©viter les problĂšmes de mĂ©lange de styles.
Gardez les prompts propres et concis ; évitez les descriptions en langage naturel trop longues ou brouillonnes.
Points forts de la version
Version vpred
Sponsors du créateur
RĂ©entraĂźnement approfondi dâIllustrious pour atteindre le meilleur respect des prompts, la connaissance et des performances de pointe.
Les grands rĂȘves deviennent rĂ©alitĂ©
Le numĂ©ro de version nâest quâun indice de la version finale actuelle, pas une fraction de lâentraĂźnement prĂ©vu.
Affinage Ă grande Ă©chelle utilisant un cluster GPU avec un jeu de donnĂ©es de ~13 millions dâimages (~4 millions avec lĂ©gendes en texte naturel)
Connaissance fraĂźche et vaste sur les personnages, concepts, styles, culture et sujets connexes
Le meilleur respect des prompts parmi les modĂšles SDXL anime au moment de la sortie
Résolution des problÚmes principaux de débordement et de biais des tags, communs à Illustrious, NoobAi et autres checkpoints
EsthĂ©tique excellente et savoir Ă©tendu sur une large variĂ©tĂ© de styles (plus de 50 000 artistes (exemples), incluant des centaines de datasets uniques sĂ©lectionnĂ©s dans des galeries privĂ©es, y compris celles fournies par les artistes eux-mĂȘmes)
Grande flexibilité et variété sans compromis sur la stabilité
Plus de filigranes gĂȘnants pour les styles populaires grĂące Ă un jeu de donnĂ©es propre
Couleurs vibrantes et dĂ©gradĂ©s doux sans traces de brĂ»lure, gamme complĂšte mĂȘme avec epsilon
EntraĂźnement pur Ă partir dâIllustrious v0.1 sans impliquer de checkpoints tiers, Loras, tweaks, etc.
Il y a aussi des problÚmes et changements par rapport à la version précédente, veuillez lire le manuel.
Limite des données - fin avril 2025.
Fonctionnalités et utilisation des prompts :
Changement important :
Lorsque vous utilisez les styles dâartistes, surtout en mĂ©langeant plusieurs, leurs tags DOIVENT ĂTRE dans un chunk CLIP sĂ©parĂ©. Ajoutez simplement BREAK aprĂšs (pour A1111 et dĂ©rivĂ©s), utilisez un nĆud de concatĂ©nation de conditionnement (pour Comfy) ou au moins placez-les Ă la toute fin. Sinon, une dĂ©gradation significative des rĂ©sultats est probable.
Basique :
Le checkpoint fonctionne aussi bien avec des prompts courts et simples que longs et complexes. Cependant, sâil y a des contradictions ou Ă©lĂ©ments Ă©tranges - contrairement aux autres, ils ne seront pas ignorĂ©s et affecteront le rendu. Pas de garde-fous, ni rĂ©gulation, ni lobotomie.
Entrez simplement ce que vous souhaitez voir et ne dĂ©crivez pas ce qui ne doit pas apparaĂźtre. Si vous voulez une vue de dessus - ne mettez pas de plafond en positif, si vous voulez un cadrage crop avec la tĂȘte hors-cadre - ne dĂ©crivez pas en dĂ©tail les traits du visage, etc. Simple mais parfois oubliĂ©.
La version 0.8 propose une comprĂ©hension avancĂ©e des prompts en texte naturel. Vous nâĂȘtes pas obligĂ© de lâutiliser, les tags seuls fonctionnent trĂšs bien, surtout que la comprĂ©hension des combinaisons de tags est aussi amĂ©liorĂ©e.
Nâattendez pas une performance comme Flux ou dâautres modĂšles basĂ©s sur T5 ou encodeurs LLM. La taille entiĂšre du checkpoint SDXL est infĂ©rieure Ă celle de lâencodeur texte seul, de plus illustrious-v0.1, utilisĂ© comme base, a oubliĂ© beaucoup de choses gĂ©nĂ©rales du vanilla sdxl-base.
Cependant, mĂȘme dans cet Ă©tat, il fonctionne bien mieux, permet de faire de nouvelles choses gĂ©nĂ©ralement impossibles sans guidage externe, et facilite aussi lâĂ©dition manuelle, lâinpainting, etc.
Pour obtenir les meilleures performances, il faut suivre les chunks CLIP. Dans SDXL, le prompt est sĂ©parĂ© en chunks de 75 (77 avec BOS et EOS) tokens, traitĂ©s sĂ©parĂ©ment par CLIP, puis concatĂ©nĂ©s et transmis comme conditions Ă lâunet.
Si vous voulez spĂ©cifier des caractĂ©ristiques pour un personnage/objet et les sĂ©parer dâautres parties du prompt - assurez-vous quâils sont dans le mĂȘme chunk et, optionnellement, sĂ©parez avec BREAK. Cela ne rĂ©sout pas totalement le problĂšme de mĂ©lange des traits, mais peut le rĂ©duire en amĂ©liorant la comprĂ©hension globale, puisque les encodeurs texte de RouWei peuvent traiter la sĂ©quence entiĂšre, pas juste des concepts individuels mieux que dâautres.
Le dataset contient uniquement des tags style booru et des expressions en texte naturel. Malgré une part de furries, photos réelles, médias occidentaux, etc. toutes les légendes ont été converties au style booru classique pour éviter plusieurs problÚmes issus du mélange de systÚmes. Les tags e621 ne seront donc pas bien compris.
ParamĂštres dâĂ©chantillonnage :
~1 mĂ©gapixel pour txt2img, nâimporte quel AR avec rĂ©solution multiple de 32 (1024x1024, 1056x, 1152x, 1216x832, ...). Euler_a, 20 Ă 28 Ă©tapes.
CFG : pour version epsilon 4 Ă 9 (7 est le meilleur), pour version vpred 3 Ă 5
Multiplication des sigmas peut légÚrement améliorer les résultats, les samplers CFG++ fonctionnent bien. LCM/PCM/DMD/... et samplers exotiques non testés.
Certaines schedulers ne fonctionnent pas bien.
Highresfix - latent x1.5 + denoise 0.6 ou tout GAN + denoise 0.3 Ă 0.55.
Pour version vpred, CFG plus bas 3 à 5 nécessaire !
Pour version vpred, CFG plus bas 3 à 5 nécessaire !
Classification de qualité :
Seulement 4 tags de qualité :
masterpiece, best qualitypour le positif et
low quality, worst qualitypour le négatif.
Rien dâautre. En fait, vous pouvez mĂȘme omettre le positif et rĂ©duire le nĂ©gatif Ă low quality seulement, car ils peuvent affecter le style et la composition de base.
Les méta-tags comme lowres ont été supprimés et ne fonctionnent plus, mieux vaut ne pas les utiliser. Les images basse résolution ont soit été retirées, soit upscalées et nettoyées avec DAT selon leur importance.
Prompt négatif :
worst quality, low quality, watermarkCâest tout, pas besoin de "rusty trombone", "farting on prey" et autres. Ne mettez pas de tags comme greyscale, monochrome dans le nĂ©gatif sauf si vous savez ce que vous faites. Les tags extra pour luminositĂ©/couleurs/contraste ci-dessous peuvent ĂȘtre utilisĂ©s.
Styles dâartistes :
Grilles avec exemples, liste/wildcard (Ă©galement disponibles dans les "donnĂ©es dâentraĂźnement").
UtilisĂ© avec "by " câest obligatoire. Ăa ne fonctionnera pas correctement sans.
"by " est un mĂ©ta-tag pour les styles pour Ă©viter la confusion/mĂ©lange avec des tags/personnages de nom similaire ou proche. Cela permet dâavoir de meilleurs rĂ©sultats pour les styles et dâĂ©viter la fluctuation alĂ©atoire observĂ©e dans dâautres checkpoints.
Utiliser plusieurs génÚre des résultats trÚs intéressants, contrÎlables avec les poids des prompts et sorts.
VOUS DEVEZ AJOUTER BREAK aprĂšs les tags artistes/styles (pour A1111) ou concat conditioning (pour Comfy) ou les placer Ă la toute fin de votre prompt.
Par exemple :
by kantoku, by wlop, best quality, masterpiece BREAK 1girl, ...Styles généraux :
2.5d, anime screencap, bold line, sketch, cgi, digital painting, flat colors, smooth shading, minimalistic, ink style, oil style, pastel styleStyles tags booru :
1950s (style), 1960s (style), 1970s (style), 1980s (style), 1990s (style), 2000s (style), animification, art nouveau, pinup (style), toon (style), western comics (style), nihonga, shikishi, minimalism, fine art parodyet tout ce qui se trouve dans ce groupe.
Peut ĂȘtre utilisĂ© en combinaisons (avec artistes aussi), avec poids, en prompt positif et nĂ©gatif.
Personnages :
Utilisez le tag booru complet et la bonne mise en forme, comme karin_(blue_archive) -> karin \(blue archive\), utilisez les tags de peau pour mieux reproduire, comme karin \(bunny\) \(blue archive\). Lâextension d'autocomplĂ©tion peut ĂȘtre trĂšs utile.
La plupart des personnages sont reconnus juste par leur tag booru, mais ce sera plus précis si vous décrivez leurs traits de base. Ici vous pouvez facilement redéfinir votre waifu/husbendo juste avec le prompt sans souffrir des fuites typiques des caractéristiques basiques.
Texte naturel :
Utilisez-le en combinaison avec les tags booru, fonctionne trĂšs bien. Utilisez uniquement du texte naturel aprĂšs avoir entrĂ© styles et tags de qualitĂ©. Utilisez juste les tags booru si vous le souhaitez, câest Ă vous de choisir. Pour de meilleures performances, suivez bien les chunks CLIP de 75 tokens.
Environ 4 millions dâimages du dataset avaient des lĂ©gendes hybrides en texte naturel, gĂ©nĂ©rĂ©es par Claude, GPT, Gemini, ToriiGate, puis refactorisĂ©es, nettoyĂ©es et combinĂ©es avec des tags en diffĂ©rentes variantes pour augmenter le dataset.
Contrairement aux lĂ©gendes typiques, celles-ci contiennent les noms des personnages, ce qui est trĂšs utile. Mieux vaut rester clair, court et pratique. Ăvitez absolument de ne pas faire de longues descriptions embrouillĂ©es comme
Une entitĂ© fĂ©minine mystĂ©rieusement enchanteresse dâessence indĂ©terminĂ©e mais jeune, dont le visage cĂ©leste rayonne dâune lueur Ă©thĂ©rĂ©e de mille Ă©toiles mourantes, bĂ©nie de mĂšches coulantes telles les riviĂšres dâor de la mythologie ancienne, peut-ĂȘtre coiffĂ©e de maniĂšre rappelant les tendances de mode contemporaines sans forcĂ©ment adhĂ©rer Ă un paradigme esthĂ©tique spĂ©cifique. Ses yeux, pools de profondeur et couleur insondables, brillent de la sagesse des millĂ©naires tout en conservant une qualitĂ© innocente qui dĂ©fie les contraintes temporelles...Pour la gĂ©nĂ©ration de lĂ©gendes, vous pouvez utiliser ToriiGate en mode court.
Ne vous attendez pas Ă ce que ce soit aussi bon que Flux ou autres, il fait beaucoup dâefforts et aprĂšs plusieurs essais vous pouvez obtenir ce que vous voulez, mais ce nâest pas aussi stable ni dĂ©taillĂ©.
Beaucoup de concepts liés à la queue/oreilles :
Oh oui
censure de la queue, tenir sa propre queue, enlacer sa propre queue, tenir la queue dâun autre, attraper la queue, queue levĂ©e, queue baissĂ©e, oreilles baissĂ©es, main sur sa propre oreille, queue autour de la jambe, queue autour du pĂ©nis, tailjob, queue Ă travers les vĂȘtements, queue sous les vĂȘtements, soulevĂ© par la queue, morsure de queue, pĂ©nĂ©tration par la queue (y compris indication spĂ©cifique vaginale/anal), masturbation par la queue, tenir avec la queue, culotte sur la queue, soutien-gorge sur la queue, focus sur la queue, prĂ©senter sa propre queue...(sens booru, pas e621) et beaucoup dâautres avec texte naturel. La majoritĂ© fonctionne parfaitement, certains demandent beaucoup dâessais.
Luminosité/couleurs/contraste :
Vous pouvez utiliser des méta-tags supplémentaires pour contrÎler cela :
basse luminositĂ©, haute luminositĂ©, basse saturation, haute saturation, basse gamma, haute gamma, couleurs vives, couleurs douces, hdr, sdrIls fonctionnent aussi bien en version epsilon quâen version vpred et fonctionnent trĂšs bien.
La version epsilon sâappuie trop sur ces tags. Sans basse luminositĂ© ou basse gamma ou plage limitĂ©e (en nĂ©gatif), il peut ĂȘtre difficile dâobtenir un vrai noir (0,0,0), idem souvent pour le blanc.
Les versions epsilon et vpred ont une vĂ©ritable zsnr, une gamme complĂšte de couleurs et de luminositĂ© sans dĂ©fauts courants observĂ©s. Mais ils se comportent diffĂ©remment, Ă vous dâessayer.
Version Vpred
La chose principale Ă savoir - baissez votre CFG de 7 Ă 5 (ou moins). Sinon, lâutilisation est similaire avec des avantages.
Il semble quâĂ partir de v0.7 la version vpred fonctionne maintenant sans faille. Elle ne devrait pas ignorer les tags proches des frontiĂšres des chunks de 75 tokens comme nai. Il est plus difficile dâobtenir des images brĂ»lĂ©es - mĂȘme en cfg7 câest gĂ©nĂ©ralement juste sursaturĂ© mais avec des dĂ©gradĂ©s doux, ce qui peut ĂȘtre utile pour certains styles. Oui elle peut produire tout du (0,0,0) au (255,255,255). Vous trouverez les mĂ©ta-tags luminositĂ© utiles pour un prompt plus facile/paresseux, les expressions en texte naturel fonctionnent aussi. Pour lâimage la plus sombre - mettez high brightness en nĂ©gatif et/ou utilisez les tags low brightness, low gamma. Si vous nâaimez pas la peau trĂšs claire sur fond sombre et voulez rĂ©duire le contraste (ou au contraire, renforcer lâeffet) - utilisez hdr/sdr en nĂ©gatif/positif.
Il a Ă©tĂ© rapportĂ© que dans de rares cas avec certains prompts il y a une chute de contraste. Il semble que dâautres modĂšles vpred aient le mĂȘme comportement avec ces prompts, ajouter un "sĂ©parateur" plus proche de la frontiĂšre du chunk de 75 tokens corrige cela. Cependant, avec la 0.7 je ne lâai pas rencontrĂ© moi-mĂȘme.
Pour lancer la version vpred, vous aurez besoin dâune build dev de A1111, Comfy (avec nĆud loader spĂ©cial), Forge ou Reforge. Utilisez simplement les mĂȘmes paramĂštres (Euler a, cfg 3 Ă 5, 20 Ă 28 Ă©tapes) que pour epsilon. Pas besoin dâutiliser Cfg rescale, mais vous pouvez essayer, cfg++ fonctionne trĂšs bien.
ModĂšle de base :
Le modĂšle ici a une petite retouche unet aprĂšs lâentraĂźnement principal pour amĂ©liorer les petits dĂ©tails, augmenter la rĂ©solution et autres. Cependant, vous pouvez aussi ĂȘtre intĂ©ressĂ© par RouWei-Base, qui parfois est meilleur sur les prompts complexes malgrĂ© quelques erreurs mineures dans les petits dĂ©tails. Il est aussi disponible en FP32, par exemple si vous voulez utiliser des nĆuds encodeur texte fp32 dans Comfy, le fusionner ou lâaffiner.
Il est disponible dans le dépÎt Huggingface
ProblĂšmes connus :
Bien sûr, il y en a :
Les tags artistes et styles doivent ĂȘtre sĂ©parĂ©s dans un chunk diffĂ©rent du prompt principal ou placĂ©s en dernier
Il peut y avoir quelques biais positionnels ou combinatoires dans de rares cas, mais ce nâest pas clair.
Quelques plaintes sur certains styles généraux.
La version epsilon sâappuie trop sur les mĂ©ta-tags luminositĂ©, parfois il faudra les utiliser pour obtenir le dĂ©calage de luminositĂ© dĂ©sirĂ©
Certains styles/personnages rĂ©cemment ajoutĂ©s peuvent ne pas ĂȘtre aussi bons et distincts quâils le mĂ©ritent
à découvrir
Les demandes dâartistes/personnages pour les futurs modĂšles sont ouvertes. Si vous trouvez un artiste/personnage/concept qui fonctionne mal, est inexact ou a un fort filigrane - veuillez le signaler, ils seront ajoutĂ©s explicitement. Suivez pour les nouvelles versions.
REJOIGNEZ LE SERVEUR DISCORD
Licence :
Identique Ă Illustrious. NâhĂ©sitez pas Ă utiliser dans vos merges, finetunes, etc. mais veuillez laisser un lien ou une mention, câest obligatoire.
Comment câest fait
Je pense faire un rapport ou quelque chose dans ce genre plus tard. Assurément.
En rĂ©sumĂ©, 98 % du travail concerne la prĂ©paration des donnĂ©es. Au lieu de sâappuyer aveuglĂ©ment sur un poids de perte basĂ© sur la frĂ©quence des tags selon le papier nai, une implĂ©mentation personnalisĂ©e de poids guidĂ©s de la perte avec un collecteur asynchrone pour Ă©quilibrage a Ă©tĂ© utilisĂ©e. Ztsnr (ou proche) avec prĂ©diction Epsilon a Ă©tĂ© atteint grĂące Ă une augmentation du scheduler de bruit.
Calcul utilisé - plus de 8 000 heures de H100 (hors recherche et tentatives échouées)
Remerciements :
Avant tout, je tiens Ă remercier tous ceux qui soutiennent lâopen source, dĂ©veloppent et amĂ©liorent le code. Merci aux auteurs dâIllustrious pour la sortie du modĂšle, merci Ă lâĂ©quipe NoobAI pour ĂȘtre pionniers dans lâaffinage open Ă cette Ă©chelle, partager lâexpĂ©rience, soulever et rĂ©soudre des problĂšmes auparavant ignorĂ©s.
Personnel :
Des artistes souhaitent rester anonymes pour partager leurs Ćuvres privĂ©es ; Quelques personnes anonymes - dons, code, lĂ©gendes, etc., Soviet Cat - sponsoring GPU ; Sv1. - accĂšs LLM, lĂ©gendage, code ; K. - code dâentraĂźnement ; Bakariso - datasets, tests, conseils, retours ; NeuroSenko - dons, tests, code ; LOL2024 - beaucoup de datasets uniques ; T.,[] - datasets, tests, conseils ; rred, dga, Fi., ello - dons ; TekeshiX - datasets. Et dâautres camarades qui ont aidĂ©. Je vous aime â€ïž.
Et bien sĂ»r tous ceux qui ont donnĂ© des retours et fait des demandes, câest vraiment prĂ©cieux.
Si jâai oubliĂ© quelquâun, merci de le signaler.
Dons
Si vous voulez soutenir - partagez mes modÚles, laissez des retours, faites une jolie image avec une kemonomimi-fille. Et bien sûr, soutenez les artistes originaux.
LâIA est mon hobby, je dĂ©pense de lâargent et je ne mendie pas de dons. Cependant, câest devenu une entreprise Ă grande Ă©chelle et coĂ»teuse. Envisagez de soutenir pour accĂ©lĂ©rer lâentraĂźnement et la recherche.
(Gardez juste en tĂȘte que je peux le dĂ©penser en alcool ou cosplay de filles)
BTC : bc1qwv83ggq8rvv07uk6dv4njs0j3yygj3aax4wg6c
ETH/USDT(e): 0x04C8a749F49aE8a56CB84cF0C99CD9E92eDB17db
XMR : 47F7JAyKP8tMBtzwxpoZsUVB8wzg2VrbtDKBice9FAS1FikbHEXXPof4PAb42CQ5ch8p8Hs4RvJuzPHDtaVSdQzD6ZbA5TZ
si vous pouvez offrir du temps GPU (a100+) - MP.
Détails du modÚle
Type de modĂšle
ModĂšle de base
Version du modĂšle
Hash du modĂšle
Créateur
Discussion
Veuillez vous log in pour laisser un commentaire.


