modèles/RouWei - v0.8.0 epsilon

RouWei - v0.8.0 epsilon

12/11/2025

12:33:09 PM

Mots-clés et tags associés

anime,modèle de base,point de contrôle,illustre,illustrious v0.8,ajustement à grande échelle,minthybasis,adhérence au prompt,rouwei,rouwei-0.8,modèle d'anime sdxl,stable diffusion,v0.8.0 epsilon

Illustration détaillée en style encre d'une chouette aux yeux blancs, mettant l'accent sur des plumes complexes et un art linéaire.

Prompts recommandés

masterpiece

Prompts négatifs recommandés

worst quality,low quality,watermark

worst quality, low quality, watermark

Paramètres recommandés

samplers

Euler_a, Euler a

steps

20 - 28

cfg

4 - 9

resolution

1024x1024, 1216x832, 800x1280, 1216x832, 832x1216, 1024x1024

vae

sdxl_vae.safetensors

Paramètres haute résolution recommandés

upscaler

Latent

upscale

1.5

steps

15 - 22

denoising strength

0.55 - 0.7

Conseils

Lors de l'indication des styles d'artistes, leurs tags doivent être dans un chunk CLIP séparé—ajoutez BREAK pour A1111 et dérivés, utilisez le nœud de concaténation de conditioning pour Comfy, ou placez-les à la toute fin pour éviter la dégradation de qualité.

Indiquez ce que vous voulez voir et évitez les éléments indésirables ; le modèle respecte les prompts contradictoires et complexes sans guides ni protections.

Utilisez seulement quatre tags de qualité : positifs "masterpiece, best quality" et négatifs "low quality, worst quality" ; les meta tags comme "lowres" sont supprimés et inefficaces.

Pour un bon contrôle de la luminosité et des couleurs, utilisez des meta tags tels que basse/haute luminosité, saturation, gamma, couleurs vives/douces, hdr, et sdr.

Pour la version vpred, baissez le CFG à 3-5 et utilisez les mêmes paramètres d'échantillonnage ; elle produit des dégradés lisses et peut atteindre des plages de couleurs complètes.

Utilisez les tags booru complets avec une bonne syntaxe pour les personnages afin d'améliorer la précision.

Évitez les prompts texte naturel longs et verbeux ; des descriptions courtes et claires fonctionnent mieux pour ce type d'entrée.

Points forts de la version

Mise à jour majeure

Sponsors du créateur

Découvrez le modèle Illustrious v0.8 sur Huggingface

Rejoignez le serveur Discord pour les mises à jour et le support

Réentraînement approfondi d'Illustrious pour atteindre le meilleur respect du prompt, la connaissance et les performances de pointe.

Les grands rêves se réalisent

Le numéro de version est juste un index de la sortie finale actuelle, non une fraction de l'entraînement prévu.

Dépôt HF

Ajustement à grande échelle utilisant un cluster GPU avec un dataset d'environ 13 millions d'images (~4 millions avec légendes en texte naturel)

Connaissances fraîches et vastes concernant personnages, concepts, styles, culture et éléments associés
Meilleur respect du prompt parmi les modèles SDXL anime au moment de la sortie
Résolution des principaux problèmes de mélange de tags et de biais, communs à Illustrious, NoobAi et d'autres checkpoints
Esthétique excellente et connaissance étendue d'une grande variété de styles (plus de 50 000 artistes (exemples), incluant des centaines de datasets triés sur le volet provenant de galeries privées, y compris ceux fournis par les artistes eux-mêmes)
Grande flexibilité et variété sans compromis sur la stabilité
Plus de filigranes gênants pour les styles populaires grâce à un dataset nettoyé
Couleurs vibrantes et dégradés lisses sans signe de brûlure, plage complète même avec epsilon
Entraînement pur à partir d'Illustrious v0.1 sans impliquer de checkpoints tiers, Loras, tweaks, etc.

Il y a aussi quelques problèmes et changements comparés à la version précédente, veuillez lire la documentation.

Limite du dataset - fin avril 2025.

Fonctionnalités et utilisation du prompt :

Changement important :

Lorsque vous indiquez les styles d'artistes, en particulier en combinant plusieurs, leurs tags DOIVENT ÊTRE dans un chunk CLIP séparé. Ajoutez simplement BREAK après (pour A1111 et dérivés), utilisez le nœud de concaténation de conditioning (pour Comfy) ou au moins placez-les à la toute fin. Sinon, une dégradation significative des résultats est probable.

Basique :

Le checkpoint fonctionne avec des prompts courts-simples et longs-complexes. Cependant, si un élément est contradictoire ou étrange - contrairement à d'autres, il ne sera pas ignoré et affectera la sortie. Pas de guides, pas de protections, pas de lobotomie.

Indiquez simplement ce que vous souhaitez voir et n'incluez pas ce qui ne doit pas être sur l'image. Par exemple, si vous voulez une vue du dessus, ne mettez pas de plafond en positif ; si vous voulez une vue recadrée avec la tête hors cadre, ne faites pas une description détaillée du visage du personnage, etc. C'est simple mais parfois oublié.

La version 0.8 offre une compréhension avancée des prompts en texte naturel. Cela ne veut pas dire que vous êtes obligé de l'utiliser, les tags seuls fonctionnent très bien, d'autant plus que la compréhension des combinaisons de tags est aussi améliorée.

N'espérez pas des performances comparables à Flux ou autres modèles basés sur T5 ou encodeurs de texte LLM. La taille totale du checkpoint SDXL est inférieure à cet encodeur de texte seul, en plus Illustrious-v0.1 utilisé comme base a complètement oublié beaucoup de choses générales de la base vanilla sdxl.

Cependant, même dans cet état, il fonctionne bien mieux, permet de faire de nouvelles choses normalement impossibles sans guidage externe, et rend l'édition manuelle, l'inpainting, etc. plus pratique.

Pour obtenir les meilleures performances, vous devez gérer les chunks CLIP. Dans SDXL, le prompt est divisé en chunks de 75 (77 avec BOS et EOS) tokens, traités séparément par CLIP, puis concaténés et transmis comme conditions à l'unet.

Si vous voulez attribuer des caractéristiques spécifiques à un personnage/objet et les séparer du reste du prompt - assurez-vous qu'ils sont dans le même chunk et, optionnellement, séparez-les avec BREAK. Cela ne résoudra pas complètement le problème de mélange de traits, mais peut le réduire en améliorant la compréhension globale, puisque les encodeurs de texte de RouWei peuvent traiter la séquence entière, pas seulement les concepts individuels, mieux que d'autres.

Le dataset contient uniquement des tags de style booru et des expressions textuelles naturelles. Malgré une part de furries, photos de la vie réelle, médias occidentaux, etc., toutes les légendes ont été converties au style booru classique pour éviter de nombreux problèmes liés à la mixité des systèmes. Ainsi, les tags e621 ne seront pas bien compris.

Paramètres d'échantillonnage :

~1 mégapixel pour txt2img, n'importe quel AR avec résolution multiple de 32 (1024x1024, 1056x, 1152x, 1216x832,...). Euler_a, 20..28 pas.
CFG : version epsilon 4..9 (7 est idéal), pour vpred 3..5
La multiplication des sigmas peut améliorer légèrement les résultats, les échantillonneurs CFG++ fonctionnent bien. LCM/PCM/DMD/... et échantillonneurs exotiques non testés.
Certaines planifications ne fonctionnent pas bien.
Highresfix - latent x1.5 + denoise 0.6 ou n'importe quel GAN + denoise 0.3..0.55.
Pour la version vpred, CFG inférieur 3..5 est nécessaire !

Pour la version vpred, CFG inférieur 3..5 est nécessaire !

Classification de qualité :

Seulement 4 tags de qualité :

masterpiece, best quality

pour positif et

low quality, worst quality

pour négatif.

Rien d'autre. En fait, vous pouvez même omettre le positif et réduire le négatif à low quality seulement, car ils peuvent influencer le style de base et la composition.

Les meta tags comme lowres ont été supprimés et ne fonctionnent plus, mieux vaut ne pas les utiliser. Les images basse résolution ont été supprimées ou améliorées par DAT selon leur importance.

Prompt négatif :

worst quality, low quality, watermark

C'est tout, pas besoin de "rusty trombone", "farting on prey" et autres. N'ajoutez pas de tags comme greyscale, monochrome dans le négatif à moins de bien comprendre ce que vous faites. Des tags supplémentaires pour luminosité/couleurs/contraste peuvent être utilisés comme indiqué plus bas.

Styles d'artistes :

Grilles avec exemples, liste/wildcard (également disponible dans les "données d'entraînement").

Utilisé avec "by " c'est obligatoire. Cela ne fonctionnera pas correctement sans.

"by " est un méta-tag pour les styles afin d'éviter la confusion avec des tags/personnages aux noms similaires ou proches. Cela permet d'avoir de meilleurs résultats pour les styles tout en évitant les fluctuations aléatoires observées dans d'autres checkpoints.

Multipliez pour obtenir des résultats très intéressants, contrôlables via les poids du prompt et les sorts.

VOUS DEVEZ AJOUTER `BREAK` après les tags d'artistes/styles (pour A1111) ou la concaténation du conditioning (pour Comfy) ou les placer à la toute fin de votre prompt.

Par exemple :

by kantoku, by wlop, best quality, masterpiece BREAK 1girl, ...

Styles généraux :

2.5d, anime screencap, ligne audacieuse, croquis, cgi, peinture digitale, couleurs plates, ombrage doux, minimaliste, style encre, style huile, style pastel

Styles de tags booru :

années 1950 (style), années 1960 (style), années 1970 (style), années 1980 (style), années 1990 (style), années 2000 (style), animification, art nouveau, pinup (style), toon (style), bandes dessinées occidentales (style), nihonga, shikishi, minimalisme, parodie d'art classique

et tout ce qui appartient au groupe.

Peuvent être utilisés en combinaisons (avec les artistes aussi), avec poids, en prompts positifs et négatifs.

Personnages :

Utilisez le tag booru complet avec la bonne syntaxe, comme karin_(blue_archive) -> karin \(blue archive\), utilisez des tags de peau pour une meilleure reproduction, comme karin \(bunny\) \(blue archive\). L'extension d'autocomplétion peut être très utile.

La plupart des personnages sont reconnus uniquement par leur tag booru, mais une description de leurs traits de base améliore la précision. Cela permet de redéfinir facilement votre waifu/husbendo juste avec le prompt sans souffrir des fuites typiques des caractéristiques basiques.

Texte naturel :

Utilisez-le en combinaison avec les tags booru, ça fonctionne très bien. N'utilisez que du texte naturel après avoir tapé les styles et tags de qualité. Vous pouvez aussi utiliser uniquement les tags booru, c'est vous qui décidez. Pour obtenir les meilleures performances, suivez les chunks CLIP de 75 tokens.

Environ 4 millions d'images du dataset ont des légendes hybrides en texte naturel, générées par Claude, GPT, Gemini, ToriiGate, puis retravaillées, nettoyées et combinées avec les tags sous diverses formes pour l'augmentation.

Contrairement aux légendes typiques, celles-ci contiennent les noms des personnages, ce qui est très utile. Une description propre, courte et concise fonctionne mieux. Mieux vaut ne pas utiliser de longs textes bavards tels que

Une entité féminine mystérieusement enchanteresse d'essence indéterminée mais jeune, dont le visage céleste rayonne de la luminescence éthérée de mille étoiles mourantes, bénie de cheveux coulants comme des rivières d'or de la mythologie ancienne, peut-être coiffée d'une manière rappelant les tendances de la mode contemporaine sans adhérer forcément à un paradigme esthétique spécifique. Ses yeux, puits de profondeur et de teintes insondables, scintillent de la sagesse des millénaires tout en conservant une innocence défiant les contraintes temporelles...

Pour les légendes, vous pouvez utiliser ToriiGate en mode court.

Et ne vous attendez pas à ce que ce soit aussi bon que Flux et autres, il fait de son mieux et après plusieurs essais, généralement vous obtenez ce que vous voulez, mais ce n'est pas aussi stable et détaillé.

Oui, effectivement

censure de la queue, tenant sa propre queue, serrant sa queue, tenant la queue d'un autre, attrape de queue, queue levée, queue basse, oreilles basses, main sur sa propre oreille, queue autour de la jambe, queue autour du pénis, tailjob, queue à travers les vêtements, queue sous les vêtements, soulevé par la queue, morsure de queue, pénétration par la queue (notamment vaginale/anal), masturbation avec la queue, tenue avec la queue, culotte sur la queue, soutien-gorge sur la queue, focus sur la queue, présentation de sa propre queue...

(sens booru, pas e621) et bien d'autres avec du texte naturel. La majorité fonctionne parfaitement, certains nécessitent beaucoup d'essais.

Luminosité/couleurs/contraste :

Vous pouvez utiliser des meta tags supplémentaires pour les contrôler :

basse luminosité, haute luminosité, basse saturation, haute saturation, faible gamma, haut gamma, couleurs vives, couleurs douces, hdr, sdr

Exemple

Ils fonctionnent aussi bien avec les versions epsilon et vpred et sont très efficaces.

La version epsilon s'appuie trop sur eux. Sans basse luminosité ou faible gamma ou plage limitée (en négatif), il peut être difficile d'atteindre un noir absolu (0,0,0), pareil souvent pour le blanc.

Les versions epsilon et vpred ont un vrai zsnr, plage complète de couleurs et luminosité sans défauts observés habituellement. Mais ils se comportent différemment, essayez simplement.

Version Vpred

Principalement, vous devez baisser votre CFG de 7 à 5 (ou moins). Sinon, l'utilisation est similaire avec des avantages.

Il semble qu'à partir de la v0.7, vpred fonctionne parfaitement maintenant. Il ne souffre pas d'ignorance des tags proches des bordures des chunks de 75 tokens comme nai. Il est plus difficile d'avoir des images brûlées - même à cfg7 c'est plutôt une sursaturation avec des dégradés doux, utile pour certains styles. Oui, il peut produire tout du (0,0,0) au (255,255,255). Vous trouverez les meta-tags de luminosité ci-dessus très utiles pour un prompt plus simple/paresseux, les expressions en texte naturel fonctionnent aussi. Pour obtenir une image très sombre - mettez high brightness dans le négatif et/ou utilisez les tags low brightness, low gamma. Si la peau très éclairée sur fond sombre ne plaît pas et que vous voulez réduire le contraste (ou au contraire, accentuer l'effet) - utilisez hdr/sdr en négatif/positif.

Il a été rapporté que dans de rares cas sur certains prompts, il y a une baisse de contraste. Il semble que d'autres modèles vpred ont ce comportement pour ces prompts, ajouter un "séparateur" proche de la bordure du chunk de 75 tokens corrige cela. Cependant, avec la 0.7 je ne l'ai pas rencontré moi-même.

Pour lancer la version vpred, vous aurez besoin d'une build dev de A1111, Comfy (avec un loader nod special), Forge ou Reforge. Utilisez simplement les mêmes paramètres (Euler a, cfg 3..5, 20..28 pas) que pour epsilon. Pas besoin d'utiliser Cfg rescale, mais vous pouvez essayer, cfg++ marche très bien.

Modèle de base :

Le modèle ici a un petit polissage unet après l'entraînement principal pour améliorer les petits détails, augmenter la résolution, et autres. Cependant, vous pouvez aussi être intéressé par RouWei-Base, qui peut parfois mieux performer sur les prompts complexes malgré quelques petites erreurs dans les détails. Il existe aussi en FP32, par exemple si vous voulez utiliser des nœuds encodeur texte fp32 dans Comfy, le fusionner ou affiner.

Il est disponible dans le dépôt Huggingface

Problèmes connus :

Bien sûr il y en a :

Les tags d'artistes et de styles doivent être séparés dans un chunk différent du prompt principal ou être placés tout à la fin
Il peut y avoir quelques biais positionnels ou combinatoires dans de rares cas, mais ce n'est pas encore clair.
Quelques plaintes existent sur certains styles généraux.
La version epsilon s'appuie trop sur les meta-tags de luminosité, parfois vous devrez les utiliser pour obtenir la luminosité voulue.
Certains styles/personnages ajoutés récemment peuvent ne pas être aussi bons ni distincts qu'ils devraient l'être.
À découvrir

Les demandes d'ajout d'artistes/personnages dans les futurs modèles sont ouvertes. Si vous trouvez un artiste/personnage/concept peu performant, inexact ou avec un fort filigrane, merci de le signaler, ils seront ajoutés explicitement. Suivez pour les nouvelles versions.

REJOIGNEZ LE SERVEUR DISCORD

Licence :

Identique à illustrious. Libre d'utilisation pour vos merges, affinement, etc., mais merci de laisser un lien ou une mention, c'est obligatoire.

Comment c'est fait

Je prévois de faire un rapport ou quelque chose dans ce genre plus tard. Certainement.

En bref, 98 % du travail est lié à la préparation du dataset. Au lieu de se fier aveuglément au poids de perte basé sur la fréquence des tags du papier nai, une implémentation personnalisée de poids de perte guidé avec un collateur asynchrone pour équilibrage a été utilisée. Ztsnr (ou similaire) avec prédiction Epsilon a été atteint grâce à l'augmentation du planificateur de bruit.

Temps de calcul dépensé - plus de 8 000 heures sur H100 (hors recherche et échecs)

Remerciements :

Avant tout, remercier tous ceux qui soutiennent l'open source, développent et améliorent le code. Merci aux auteurs d'illustrious pour la publication du modèle, à l'équipe NoobAI pour être pionniers dans l'affinement ouvert à cette échelle, partageant expérience, soulevant et résolvant des problèmes auparavant ignorés.

Personnel :

Des artistes souhaitent rester anonymes pour le partage d'œuvres privées ; quelques anonymes - dons, code, légendes, etc., Soviet Cat - parrainage GPU ; Sv1. - accès llm, légendes, code ; K. - code d'entraînement ; Bakariso - datasets, tests, conseils, coulisses ; NeuroSenko - dons, tests, code ; LOL2024 - beaucoup de datasets uniques ; T.,[] - datasets, tests, conseils ; rred, dga, Fi., ello - dons ; TekeshiX - datasets. Et d'autres frères qui ont aidé. Je vous aime énormément ❤️.

Et bien sûr, tous ceux qui ont donné des retours et des demandes, c'est très précieux.

Si j'ai oublié de mentionner quelqu'un, merci de me prévenir.

Dons

Si vous voulez soutenir - partagez mes modèles, laissez un retour, créez une jolie image avec une fille kemonomimi. Et bien sûr, soutenez les artistes originaux.

L'IA est mon hobby, je dépense de l'argent et ne mendie pas de dons. Cependant, c'est devenu une entreprise à grande échelle et coûteuse. Envisagez de soutenir pour accélérer les nouveaux entraînements et recherches.

(Gardez simplement à l'esprit que je peux le dépenser en alcool ou cosplay de filles)

BTC : bc1qwv83ggq8rvv07uk6dv4njs0j3yygj3aax4wg6c

ETH/USDT(e) : 0x04C8a749F49aE8a56CB84cF0C99CD9E92eDB17db

XMR : 47F7JAyKP8tMBtzwxpoZsUVB8wzg2VrbtDKBice9FAS1FikbHEXXPof4PAb42CQ5ch8p8Hs4RvJuzPHDtaVSdQzD6ZbA5TZ

si vous pouvez offrir du temps GPU (a100+) - MP.

Contributeur

Camille Dubois

Bonjour ! Je m’appelle Camille Dubois. Passionnée d’art visuel, j’orchestre des galeries numériques pour révéler toute la poésie des images générées par l’IA.

ADD Transluminescent ! - V1

Vessels Style SDXL - v1.0

Utiliser ce modèle