modèles/RouWei - v0.7 vpred

RouWei - v0.7 vpred

Camille Dubois

9/24/2025

1:00:53 PM

| Discussion

Mots-clés et tags associés

anime,modèle de base,point de contrôle,illustre,adhérence au prompt

Portrait détaillé d'un chat furry blanc aux yeux rouges orné de bijoux complexes avec des gemmes bleues et rouges, sur fond noir.

Portrait d'une fille aux cheveux rouges avec oreilles d'animal et yeux verts portant des boucles d'oreilles et un collier, avec un thème sombre et un style pictural

Prompts recommandés

masterpiece, best quality, 1girl

Prompts négatifs recommandés

worst quality,low quality,watermark

worst quality, low quality

Paramètres recommandés

samplers

Euler_a, CFG++, Euler Ancestral CFG++, Euler CFG++, Euler a

steps

20 - 28

cfg

1.4 - 9

resolution

1024x1024, 1216x832, 832x1216, 1344x800, 1216x832, 896x1152, 800x1280

vae

sdxl_vae.safetensors

Paramètres haute résolution recommandés

upscaler

Latent

upscale

1.5

steps

15 - 22

denoising strength

0.6 - 0.7

Conseils

Les tags artiste/style DOIVENT être dans un chunk CLIP séparé ou placés à la toute fin du prompt, séparés par BREAK (pour A1111) ou concat conditioning (pour Comfy) pour éviter une dégradation significative.

Utilisez seulement quatre tags de qualité : masterpiece, best quality (positif) et low quality, worst quality (négatif). Évitez les autres méta-tags comme lowres.

Pour la version vpred, réduisez le CFG à 3..5 pour de meilleurs résultats.

Utilisez les tags de luminosité/méta pour contrôler la luminosité, saturation, gamma et contraste pour une meilleure fidélité des couleurs.

Lors du mélange de styles d’artistes, utilisez le préfixe "by " pour éviter les problèmes de mélange de styles.

Gardez les prompts propres et concis ; évitez les descriptions en langage naturel trop longues ou brouillonnes.

Points forts de la version

Version vpred

Sponsors du créateur

Télécharger Illustrious v0.8 sur Huggingface

Rejoignez le serveur Discord pour support et mises à jour

Réentraînement approfondi d’Illustrious pour atteindre le meilleur respect des prompts, la connaissance et des performances de pointe.

Les grands rêves deviennent réalité

Le numéro de version n’est qu’un indice de la version finale actuelle, pas une fraction de l’entraînement prévu.

Dépôt HF

Affinage à grande échelle utilisant un cluster GPU avec un jeu de données de ~13 millions d’images (~4 millions avec légendes en texte naturel)

Connaissance fraîche et vaste sur les personnages, concepts, styles, culture et sujets connexes
Le meilleur respect des prompts parmi les modèles SDXL anime au moment de la sortie
Résolution des problèmes principaux de débordement et de biais des tags, communs à Illustrious, NoobAi et autres checkpoints
Esthétique excellente et savoir étendu sur une large variété de styles (plus de 50 000 artistes (exemples), incluant des centaines de datasets uniques sélectionnés dans des galeries privées, y compris celles fournies par les artistes eux-mêmes)
Grande flexibilité et variété sans compromis sur la stabilité
Plus de filigranes gênants pour les styles populaires grâce à un jeu de données propre
Couleurs vibrantes et dégradés doux sans traces de brûlure, gamme complète même avec epsilon
Entraînement pur à partir d’Illustrious v0.1 sans impliquer de checkpoints tiers, Loras, tweaks, etc.

Il y a aussi des problèmes et changements par rapport à la version précédente, veuillez lire le manuel.

Limite des données - fin avril 2025.

Fonctionnalités et utilisation des prompts :

Changement important :

Lorsque vous utilisez les styles d’artistes, surtout en mélangeant plusieurs, leurs tags DOIVENT ÊTRE dans un chunk CLIP séparé. Ajoutez simplement BREAK après (pour A1111 et dérivés), utilisez un nœud de concaténation de conditionnement (pour Comfy) ou au moins placez-les à la toute fin. Sinon, une dégradation significative des résultats est probable.

Basique :

Le checkpoint fonctionne aussi bien avec des prompts courts et simples que longs et complexes. Cependant, s’il y a des contradictions ou éléments étranges - contrairement aux autres, ils ne seront pas ignorés et affecteront le rendu. Pas de garde-fous, ni régulation, ni lobotomie.

Entrez simplement ce que vous souhaitez voir et ne décrivez pas ce qui ne doit pas apparaître. Si vous voulez une vue de dessus - ne mettez pas de plafond en positif, si vous voulez un cadrage crop avec la tête hors-cadre - ne décrivez pas en détail les traits du visage, etc. Simple mais parfois oublié.

La version 0.8 propose une compréhension avancée des prompts en texte naturel. Vous n’êtes pas obligé de l’utiliser, les tags seuls fonctionnent très bien, surtout que la compréhension des combinaisons de tags est aussi améliorée.

N’attendez pas une performance comme Flux ou d’autres modèles basés sur T5 ou encodeurs LLM. La taille entière du checkpoint SDXL est inférieure à celle de l’encodeur texte seul, de plus illustrious-v0.1, utilisé comme base, a oublié beaucoup de choses générales du vanilla sdxl-base.

Cependant, même dans cet état, il fonctionne bien mieux, permet de faire de nouvelles choses généralement impossibles sans guidage externe, et facilite aussi l’édition manuelle, l’inpainting, etc.

Pour obtenir les meilleures performances, il faut suivre les chunks CLIP. Dans SDXL, le prompt est séparé en chunks de 75 (77 avec BOS et EOS) tokens, traités séparément par CLIP, puis concaténés et transmis comme conditions à l’unet.

Si vous voulez spécifier des caractéristiques pour un personnage/objet et les séparer d’autres parties du prompt - assurez-vous qu’ils sont dans le même chunk et, optionnellement, séparez avec BREAK. Cela ne résout pas totalement le problème de mélange des traits, mais peut le réduire en améliorant la compréhension globale, puisque les encodeurs texte de RouWei peuvent traiter la séquence entière, pas juste des concepts individuels mieux que d’autres.

Le dataset contient uniquement des tags style booru et des expressions en texte naturel. Malgré une part de furries, photos réelles, médias occidentaux, etc. toutes les légendes ont été converties au style booru classique pour éviter plusieurs problèmes issus du mélange de systèmes. Les tags e621 ne seront donc pas bien compris.

Paramètres d’échantillonnage :

~1 mégapixel pour txt2img, n’importe quel AR avec résolution multiple de 32 (1024x1024, 1056x, 1152x, 1216x832, ...). Euler_a, 20 à 28 étapes.
CFG : pour version epsilon 4 à 9 (7 est le meilleur), pour version vpred 3 à 5
Multiplication des sigmas peut légèrement améliorer les résultats, les samplers CFG++ fonctionnent bien. LCM/PCM/DMD/... et samplers exotiques non testés.
Certaines schedulers ne fonctionnent pas bien.
Highresfix - latent x1.5 + denoise 0.6 ou tout GAN + denoise 0.3 à 0.55.
Pour version vpred, CFG plus bas 3 à 5 nécessaire !

Pour version vpred, CFG plus bas 3 à 5 nécessaire !

Classification de qualité :

Seulement 4 tags de qualité :

masterpiece, best quality

pour le positif et

low quality, worst quality

pour le négatif.

Rien d’autre. En fait, vous pouvez même omettre le positif et réduire le négatif à low quality seulement, car ils peuvent affecter le style et la composition de base.

Les méta-tags comme lowres ont été supprimés et ne fonctionnent plus, mieux vaut ne pas les utiliser. Les images basse résolution ont soit été retirées, soit upscalées et nettoyées avec DAT selon leur importance.

Prompt négatif :

worst quality, low quality, watermark

C’est tout, pas besoin de "rusty trombone", "farting on prey" et autres. Ne mettez pas de tags comme greyscale, monochrome dans le négatif sauf si vous savez ce que vous faites. Les tags extra pour luminosité/couleurs/contraste ci-dessous peuvent être utilisés.

Styles d’artistes :

Grilles avec exemples, liste/wildcard (également disponibles dans les "données d’entraînement").

Utilisé avec "by " c’est obligatoire. Ça ne fonctionnera pas correctement sans.

"by " est un méta-tag pour les styles pour éviter la confusion/mélange avec des tags/personnages de nom similaire ou proche. Cela permet d’avoir de meilleurs résultats pour les styles et d’éviter la fluctuation aléatoire observée dans d’autres checkpoints.

Utiliser plusieurs génère des résultats très intéressants, contrôlables avec les poids des prompts et sorts.

VOUS DEVEZ AJOUTER `BREAK` après les tags artistes/styles (pour A1111) ou concat conditioning (pour Comfy) ou les placer à la toute fin de votre prompt.

Par exemple :

by kantoku, by wlop, best quality, masterpiece BREAK 1girl, ...

Styles généraux :

2.5d, anime screencap, bold line, sketch, cgi, digital painting, flat colors, smooth shading, minimalistic, ink style, oil style, pastel style

Styles tags booru :

1950s (style), 1960s (style), 1970s (style), 1980s (style), 1990s (style), 2000s (style), animification, art nouveau, pinup (style), toon (style), western comics (style), nihonga, shikishi, minimalism, fine art parody

et tout ce qui se trouve dans ce groupe.

Peut être utilisé en combinaisons (avec artistes aussi), avec poids, en prompt positif et négatif.

Personnages :

Utilisez le tag booru complet et la bonne mise en forme, comme karin_(blue_archive) -> karin \(blue archive\), utilisez les tags de peau pour mieux reproduire, comme karin \(bunny\) \(blue archive\). L’extension d'autocomplétion peut être très utile.

La plupart des personnages sont reconnus juste par leur tag booru, mais ce sera plus précis si vous décrivez leurs traits de base. Ici vous pouvez facilement redéfinir votre waifu/husbendo juste avec le prompt sans souffrir des fuites typiques des caractéristiques basiques.

Texte naturel :

Utilisez-le en combinaison avec les tags booru, fonctionne très bien. Utilisez uniquement du texte naturel après avoir entré styles et tags de qualité. Utilisez juste les tags booru si vous le souhaitez, c’est à vous de choisir. Pour de meilleures performances, suivez bien les chunks CLIP de 75 tokens.

Environ 4 millions d’images du dataset avaient des légendes hybrides en texte naturel, générées par Claude, GPT, Gemini, ToriiGate, puis refactorisées, nettoyées et combinées avec des tags en différentes variantes pour augmenter le dataset.

Contrairement aux légendes typiques, celles-ci contiennent les noms des personnages, ce qui est très utile. Mieux vaut rester clair, court et pratique. Évitez absolument de ne pas faire de longues descriptions embrouillées comme

Une entité féminine mystérieusement enchanteresse d’essence indéterminée mais jeune, dont le visage céleste rayonne d’une lueur éthérée de mille étoiles mourantes, bénie de mèches coulantes telles les rivières d’or de la mythologie ancienne, peut-être coiffée de manière rappelant les tendances de mode contemporaines sans forcément adhérer à un paradigme esthétique spécifique. Ses yeux, pools de profondeur et couleur insondables, brillent de la sagesse des millénaires tout en conservant une qualité innocente qui défie les contraintes temporelles...

Pour la génération de légendes, vous pouvez utiliser ToriiGate en mode court.

Ne vous attendez pas à ce que ce soit aussi bon que Flux ou autres, il fait beaucoup d’efforts et après plusieurs essais vous pouvez obtenir ce que vous voulez, mais ce n’est pas aussi stable ni détaillé.

Oh oui

censure de la queue, tenir sa propre queue, enlacer sa propre queue, tenir la queue d’un autre, attraper la queue, queue levée, queue baissée, oreilles baissées, main sur sa propre oreille, queue autour de la jambe, queue autour du pénis, tailjob, queue à travers les vêtements, queue sous les vêtements, soulevé par la queue, morsure de queue, pénétration par la queue (y compris indication spécifique vaginale/anal), masturbation par la queue, tenir avec la queue, culotte sur la queue, soutien-gorge sur la queue, focus sur la queue, présenter sa propre queue...

(sens booru, pas e621) et beaucoup d’autres avec texte naturel. La majorité fonctionne parfaitement, certains demandent beaucoup d’essais.

Luminosité/couleurs/contraste :

Vous pouvez utiliser des méta-tags supplémentaires pour contrôler cela :

basse luminosité, haute luminosité, basse saturation, haute saturation, basse gamma, haute gamma, couleurs vives, couleurs douces, hdr, sdr

Exemple

Ils fonctionnent aussi bien en version epsilon qu’en version vpred et fonctionnent très bien.

La version epsilon s’appuie trop sur ces tags. Sans basse luminosité ou basse gamma ou plage limitée (en négatif), il peut être difficile d’obtenir un vrai noir (0,0,0), idem souvent pour le blanc.

Les versions epsilon et vpred ont une véritable zsnr, une gamme complète de couleurs et de luminosité sans défauts courants observés. Mais ils se comportent différemment, à vous d’essayer.

Version Vpred

La chose principale à savoir - baissez votre CFG de 7 à 5 (ou moins). Sinon, l’utilisation est similaire avec des avantages.

Il semble qu’à partir de v0.7 la version vpred fonctionne maintenant sans faille. Elle ne devrait pas ignorer les tags proches des frontières des chunks de 75 tokens comme nai. Il est plus difficile d’obtenir des images brûlées - même en cfg7 c’est généralement juste sursaturé mais avec des dégradés doux, ce qui peut être utile pour certains styles. Oui elle peut produire tout du (0,0,0) au (255,255,255). Vous trouverez les méta-tags luminosité utiles pour un prompt plus facile/paresseux, les expressions en texte naturel fonctionnent aussi. Pour l’image la plus sombre - mettez high brightness en négatif et/ou utilisez les tags low brightness, low gamma. Si vous n’aimez pas la peau très claire sur fond sombre et voulez réduire le contraste (ou au contraire, renforcer l’effet) - utilisez hdr/sdr en négatif/positif.

Il a été rapporté que dans de rares cas avec certains prompts il y a une chute de contraste. Il semble que d’autres modèles vpred aient le même comportement avec ces prompts, ajouter un "séparateur" plus proche de la frontière du chunk de 75 tokens corrige cela. Cependant, avec la 0.7 je ne l’ai pas rencontré moi-même.

Pour lancer la version vpred, vous aurez besoin d’une build dev de A1111, Comfy (avec nœud loader spécial), Forge ou Reforge. Utilisez simplement les mêmes paramètres (Euler a, cfg 3 à 5, 20 à 28 étapes) que pour epsilon. Pas besoin d’utiliser Cfg rescale, mais vous pouvez essayer, cfg++ fonctionne très bien.

Modèle de base :

Le modèle ici a une petite retouche unet après l’entraînement principal pour améliorer les petits détails, augmenter la résolution et autres. Cependant, vous pouvez aussi être intéressé par RouWei-Base, qui parfois est meilleur sur les prompts complexes malgré quelques erreurs mineures dans les petits détails. Il est aussi disponible en FP32, par exemple si vous voulez utiliser des nœuds encodeur texte fp32 dans Comfy, le fusionner ou l’affiner.

Il est disponible dans le dépôt Huggingface

Problèmes connus :

Bien sûr, il y en a :

Les tags artistes et styles doivent être séparés dans un chunk différent du prompt principal ou placés en dernier
Il peut y avoir quelques biais positionnels ou combinatoires dans de rares cas, mais ce n’est pas clair.
Quelques plaintes sur certains styles généraux.
La version epsilon s’appuie trop sur les méta-tags luminosité, parfois il faudra les utiliser pour obtenir le décalage de luminosité désiré
Certains styles/personnages récemment ajoutés peuvent ne pas être aussi bons et distincts qu’ils le méritent
À découvrir

Les demandes d’artistes/personnages pour les futurs modèles sont ouvertes. Si vous trouvez un artiste/personnage/concept qui fonctionne mal, est inexact ou a un fort filigrane - veuillez le signaler, ils seront ajoutés explicitement. Suivez pour les nouvelles versions.

REJOIGNEZ LE SERVEUR DISCORD

Licence :

Identique à Illustrious. N’hésitez pas à utiliser dans vos merges, finetunes, etc. mais veuillez laisser un lien ou une mention, c’est obligatoire.

Comment c’est fait

Je pense faire un rapport ou quelque chose dans ce genre plus tard. Assurément.

En résumé, 98 % du travail concerne la préparation des données. Au lieu de s’appuyer aveuglément sur un poids de perte basé sur la fréquence des tags selon le papier nai, une implémentation personnalisée de poids guidés de la perte avec un collecteur asynchrone pour équilibrage a été utilisée. Ztsnr (ou proche) avec prédiction Epsilon a été atteint grâce à une augmentation du scheduler de bruit.

Calcul utilisé - plus de 8 000 heures de H100 (hors recherche et tentatives échouées)

Remerciements :

Avant tout, je tiens à remercier tous ceux qui soutiennent l’open source, développent et améliorent le code. Merci aux auteurs d’Illustrious pour la sortie du modèle, merci à l’équipe NoobAI pour être pionniers dans l’affinage open à cette échelle, partager l’expérience, soulever et résoudre des problèmes auparavant ignorés.

Personnel :

Des artistes souhaitent rester anonymes pour partager leurs œuvres privées ; Quelques personnes anonymes - dons, code, légendes, etc., Soviet Cat - sponsoring GPU ; Sv1. - accès LLM, légendage, code ; K. - code d’entraînement ; Bakariso - datasets, tests, conseils, retours ; NeuroSenko - dons, tests, code ; LOL2024 - beaucoup de datasets uniques ; T.,[] - datasets, tests, conseils ; rred, dga, Fi., ello - dons ; TekeshiX - datasets. Et d’autres camarades qui ont aidé. Je vous aime ❤️.

Et bien sûr tous ceux qui ont donné des retours et fait des demandes, c’est vraiment précieux.

Si j’ai oublié quelqu’un, merci de le signaler.

Dons

Si vous voulez soutenir - partagez mes modèles, laissez des retours, faites une jolie image avec une kemonomimi-fille. Et bien sûr, soutenez les artistes originaux.

L’IA est mon hobby, je dépense de l’argent et je ne mendie pas de dons. Cependant, c’est devenu une entreprise à grande échelle et coûteuse. Envisagez de soutenir pour accélérer l’entraînement et la recherche.

(Gardez juste en tête que je peux le dépenser en alcool ou cosplay de filles)

BTC : bc1qwv83ggq8rvv07uk6dv4njs0j3yygj3aax4wg6c

ETH/USDT(e): 0x04C8a749F49aE8a56CB84cF0C99CD9E92eDB17db

XMR : 47F7JAyKP8tMBtzwxpoZsUVB8wzg2VrbtDKBice9FAS1FikbHEXXPof4PAb42CQ5ch8p8Hs4RvJuzPHDtaVSdQzD6ZbA5TZ

si vous pouvez offrir du temps GPU (a100+) - MP.

Contributeur

Camille Dubois

Bonjour ! Je m’appelle Camille Dubois. Passionnée d’art visuel, j’orchestre des galeries numériques pour révéler toute la poésie des images générées par l’IA.

Portraits de quiétude - v1.0

(PD/IL)"I Need Buzz!" Sign - Illustrious (Best ver)

Utiliser ce modèle