RouWei - v0.8.0 vpred
Prompts recommandés
masterpiece
Prompts négatifs recommandés
worst quality,low quality,watermark
worst quality, low quality, watermark
Paramètres recommandés
samplers
steps
cfg
resolution
vae
Paramètres haute résolution recommandés
upscaler
upscale
steps
denoising strength
Conseils
Les tags d'artistes/styles doivent être dans un chunk CLIP séparé ou placés à la fin du prompt avec un token BREAK pour une meilleure adhérence au prompt.
N’utilisez que 4 tags de qualité : 'masterpiece' et 'best quality' pour le positif, 'low quality' et 'worst quality' pour le négatif.
Évitez les tags métadonnées comme 'lowres' ; ils ont été supprimés et n’affectent pas les résultats.
Pour la version vpred, utilisez des valeurs CFG plus basses (3 à 5).
Les meta tags liés à la luminosité, contraste et couleurs (ex. 'low brightness', 'high saturation') améliorent la qualité de sortie et fonctionnent sur les versions epsilon et vpred.
Utilisez du texte naturel combiné aux tags booru et gardez les prompts courts et clairs pour de meilleurs résultats.
Plusieurs styles d’artistes peuvent être combinés avec les poids de prompt et les sorts.
Points forts de la version
Vpred pour v0.8
Sponsors du créateur
Soutenez le modèle et les auteurs via le Dépôt Huggingface et rejoignez le Serveur Discord. Les dons sont bienvenus via BTC, ETH/USDT, XMR ou temps GPU (A100+). Voir la page pour détails.
Réentraînement approfondi d'Illustrious pour obtenir la meilleure adhérence aux prompts, connaissances et performances de pointe.
Les grands rêves se réalisent
Le numéro de version est simplement un indice de la publication finale actuelle, pas une fraction de l'entraînement prévu.
Finetune à grande échelle utilisant un cluster GPU avec un ensemble de données d'environ 13 millions d'images (~4 millions avec des légendes en texte naturel)
Connaissances fraîches et vastes sur les personnages, concepts, styles, culture et sujets associés
La meilleure adhérence aux prompts parmi les modèles anime SDXL au moment de la sortie
Problèmes majeurs de mélange de tags et biais résolus, courants chez Illustrious, NoobAi et autres checkpoints
Esthétique et connaissance excellentes à travers une large gamme de styles (plus de 50 000 artistes (exemples), incluant des centaines de jeux de données uniques soigneusement sélectionnés provenant de galeries privées, y compris ceux fournis par les artistes eux-mêmes)
Grande flexibilité et variété sans compromis sur la stabilité
Plus aucun filigrane gênant pour les styles populaires grâce à un ensemble de données nettoyé
Couleurs vives et dégradés lisses sans trace de brûlure, gamme complète même avec epsilon
Entraînement pur depuis Illustrious v0.1 sans impliquer de checkpoints tiers, Loras, modificateurs, etc.
Il existe également quelques problèmes et changements par rapport à la version précédente, veuillez lire la documentation.
Coupe du dataset - fin avril 2025.
Fonctionnalités et utilisation des prompts :
Changement important :
Lorsque vous utilisez des styles d'artistes, surtout en en mélangeant plusieurs, leurs tags DOIVENT être dans un chunk CLIP séparé. Ajoutez simplement BREAK après (pour A1111 et dérivés), utilisez un nœud de concaténation de conditionnement (pour Comfy) ou au moins placez-les à la toute fin. Sinon, une dégradation significative des résultats est probable.
De base :
Le checkpoint fonctionne aussi bien avec des prompts courts et simples qu’avec des prompts longs et complexes. Cependant, si des contradictions ou des éléments étranges apparaissent, contrairement à d’autres modèles, ils ne seront pas ignorés et affecteront la sortie. Pas de rails de guidage, pas de protections, pas de lobotomie.
Il suffit de prompt ce que vous voulez voir et de ne pas prompt ce qui ne doit pas apparaître sur l’image. Si vous voulez une vue de dessus – ne mettez pas de plafond de manière positive, si vous voulez une vue rapprochée avec la tête hors cadre – ne décrivez pas en détail les traits du visage du personnage, etc. C’est assez simple mais parfois les gens l’oublient.
La version 0.8 offre une compréhension avancée des prompts en texte naturel. Cela ne signifie pas que vous êtes obligé de l’utiliser, les tags seuls sont parfaitement acceptables, d’autant plus que la compréhension des combinaisons de tags est aussi améliorée.
Ne vous attendez pas à des performances comme Flux ou d’autres modèles basés sur T5 ou des encodeurs textuels LLM. La taille totale du checkpoint SDXL est inférieure à celle de cet encodeur textuel seul, de plus illustrious-v0.1, utilisé comme base, a complètement oublié beaucoup d’éléments généraux du sdxl-base vanilla.
Cependant, même dans l’état actuel, il fonctionne bien mieux, permet de faire de nouvelles choses généralement impossibles sans guidage externe, et rend l’édition manuelle, l’inpainting, etc., plus pratiques.
Pour obtenir les meilleures performances, vous devez garder la trace des chunks CLIP. Dans SDXL, le prompt est séparé en chunks de 75 tokens (77 incluant BOS et EOS), traités séparément par CLIP, puis concaténés et envoyés comme conditions à l’unet.
Si vous souhaitez spécifier des caractéristiques pour un personnage/objet et les séparer d’autres parties du prompt, assurez-vous qu’elles sont dans le même chunk et éventuellement séparées par BREAK. Cela ne résoudra pas complètement le problème du mélange des traits, mais peut le réduire en améliorant la compréhension globale, car les encodeurs textuels de RouWei peuvent traiter toute la séquence, pas seulement les concepts individuels, mieux que les autres.
Le dataset contient uniquement des tags de style booru et des expressions en texte naturel. Bien qu’il contienne une part de furries, photos de la vie réelle, médias occidentaux, etc., toutes les légendes ont été converties au style booru classique pour éviter de nombreux problèmes liés au mélange de différents systèmes. Les tags e621 ne seront donc pas compris correctement.
Paramètres d’échantillonnage :
~1 mégapixel pour txt2img, tout ratio avec une résolution multiple de 32 (1024x1024, 1056x, 1152x, 1216x832,...). Euler_a, 20 à 28 étapes.
CFG : pour la version epsilon 4 à 9 (7 est la meilleure), pour la version vpred, 3 à 5
Multiplier les sigmas peut améliorer légèrement les résultats, les échantillonneurs CFG++ fonctionnent bien. LCM/PCM/DMD/... et échantillonneurs exotiques non testés.
Certaines planifications ne fonctionnent pas bien.
Highresfix - x1,5 latent + débruitage 0,6 ou tout GAN + débruitage 0,3 à 0,55.
Pour la version vpred, un CFG plus bas de 3 à 5 est nécessaire !
Pour la version vpred, un CFG plus bas de 3 à 5 est nécessaire !
Classification de qualité :
Seulement 4 tags de qualité :
masterpiece, best qualitypour le positif et
low quality, worst qualitypour le négatif.
Rien d’autre. En fait, vous pouvez même omettre le positif et réduire le négatif à low quality uniquement, car ils peuvent affecter le style et la composition de base.
Les meta tags comme lowres ont été supprimés et ne fonctionnent plus, il vaut mieux ne pas les utiliser. Les images basse résolution ont été soit supprimées, soit upscalées et nettoyées avec DAT selon leur importance.
Prompt négatif :
worst quality, low quality, watermarkC’est tout, pas besoin de "rusty trombone", "farting on prey" et autres. Ne mettez pas de tags comme greyscale, monochrome dans le négatif à moins de savoir ce que vous faites. Des tags additionnels pour luminosité/couleurs/contraste peuvent être utilisés comme indiqué ci-dessous.
Styles d'artistes :
Grilles avec exemples, liste/wildcard (également disponible dans "training data").
Utilisé avec "by " c’est obligatoire. Cela ne fonctionnera pas correctement sans.
"by " est un méta-token pour les styles afin d’éviter le mélange/l’interprétation erronée avec des tags/personnages ayant un nom similaire ou proche. Cela permet d’obtenir de meilleurs résultats pour les styles tout en évitant des fluctuations aléatoires observées dans d’autres checkpoints.
Combiner plusieurs donne des résultats très intéressants, contrôlables avec les poids de prompt et les sorts.
VOUS DEVEZ AJOUTER BREAK après les tags d’artistes/styles (pour A1111) ou utiliser le concat conditioning (pour Comfy) ou les placer à la toute fin de votre prompt.
Par exemple :
by kantoku, by wlop, best quality, masterpiece BREAK 1girl, ...Styles généraux :
2.5d, anime screencap, bold line, sketch, cgi, digital painting, flat colors, smooth shading, minimalistic, ink style, oil style, pastel styleStyles de tags booru :
1950s (style), 1960s (style), 1970s (style), 1980s (style), 1990s (style), 2000s (style), animification, art nouveau, pinup (style), toon (style), western comics (style), nihonga, shikishi, minimalism, fine art parodyet tout ce qui fait partie de ce groupe.
Peut être utilisé en combinaisons (avec artistes également), avec poids, aussi bien en prompts positifs que négatifs.
Personnages :
Utilisez le tag booru complet avec formatage approprié, comme karin_(blue_archive) -> karin \(blue archive\), utilisez des tags de peau pour une meilleure reproduction, par exemple karin \(bunny\) \(blue archive\). L’extension d’auto-complétion peut être très utile.
La plupart des personnages sont reconnus uniquement par leur tag booru, mais il est plus précis de décrire leurs traits de base. Ici, vous pouvez facilement changer la tenue de votre waifu/husbendo juste par un prompt sans souffrir des fuites typiques des caractéristiques basiques.
Texte naturel :
Utilisez-le en combinaison avec les tags booru, fonctionne très bien. Mettez uniquement du texte naturel après les tags de styles et de qualité. Utilisez seulement les tags booru et oubliez-le, c’est à vous de décider. Pour de meilleures performances, gardez la trace des chunks CLIP de 75 tokens.
Environ 4 millions d’images dans le dataset ont des légendes hybrides en texte naturel, réalisées par Claude, GPT, Gemini, ToriiGate, puis refactorisées, nettoyées et combinées avec les tags en différentes variations pour augmentation.
Contrairement aux légendes typiques, elles contiennent les noms des personnages, ce qui est très utile. Mieux vaut garder la description propre, courte et facile. Il vaut mieux ne PAS utiliser des phrases longues et inutiles comme
Une entité féminine mystérieusement envoûtante d'essence indéfinie mais jeune, dont le visage céleste rayonne de la luminescence éthérée de mille étoiles mourantes, bénie de mèches tombant comme des rivières dorées de mythologie ancienne, peut-être coiffée d’une manière rappelant les tendances de la mode contemporaine sans adhérer à un paradigme esthétique spécifique. Ses yeux, des puits de profondeur et de teinte insondables, scintillent de la sagesse des millénaires tout en conservant une innocence défiant les contraintes temporelles...Pour la génération de légendes, vous pouvez utiliser ToriiGate en mode court.
Et ne vous attendez pas à ce qu’il soit aussi bon que Flux et d’autres, il fait de gros efforts et après plusieurs essais, vous devriez obtenir ce que vous voulez, mais ce n’est pas aussi stable ni détaillé.
Beaucoup de concepts liés à la queue/aux oreilles :
Oh oui
tail censor, holding own tail, hugging own tail, holding another's tail, tail grab, tail raised, tail down, ears down, hand on own ear, tail around own leg, tail around penis, tailjob, tail through clothes, tail under clothes, lifted by tail, tail biting, tail penetration (including a specific indication of vaginal/anal), tail masturbation, holding with tail, panties on tail, bra on tail, tail focus, presenting own tail...(sens booru, pas e621) et beaucoup d’autres avec du texte naturel. La majorité fonctionne parfaitement, certains demandent beaucoup d’essais.
Luminosité/couleurs/contraste :
Vous pouvez utiliser des meta tags supplémentaires pour le contrôler :
low brightness, high brightness, low saturation, high saturation, low gamma, high gamma, sharp colors, soft colors, hdr, sdrIls fonctionnent à la fois sur la version epsilon et vpred et donnent de bons résultats.
La version epsilon dépend trop fortement de ces tags. Sans low brightness ou low gamma ou plage limitée (dans le négatif), il peut être difficile d’atteindre du vrai noir 0,0,0, la même chose est souvent vraie pour le blanc.
Les versions epsilon et vpred ont un vrai zsnr, une gamme complète de couleurs et luminosité sans défauts courants. Mais ils se comportent différemment, essayez pour voir.
Version Vpred
Le principal à savoir - baissez votre CFG de 7 à 5 (ou moins). Sinon, l’utilisation est similaire avec les avantages.
Il semble qu’à partir de v0.7, vpred fonctionne parfaitement maintenant. Il ne devrait pas ignorer les tags proches des bords des chunks de 75 tokens comme nai. Il est plus difficile d’obtenir des images brûlées - même avec cfg7, c’est généralement juste une sursaturation avec des dégradés lisses, ce qui peut être utile pour certains styles. Oui, il peut générer n’importe quoi de (0,0,0) à (255,255,255). Vous trouverez les meta tags de luminosité décrits plus haut très utiles pour des prompts plus simples/paresseux, les expressions en texte naturel fonctionnent aussi. Pour obtenir une image très sombre – mettez high brightness dans le négatif et/ou utilisez low brightness, low gamma. Si vous n'aimez pas la peau très claire sur fond sombre et voulez réduire le contraste (ou au contraire, renforcer l'effet) - utilisez hdr/sdr dans négatif/positif.
Il a été signalé que dans de rares cas certains prompts montrent une baisse de contraste. Il semble que d’autres modèles vpred ont un comportement similaire avec de tels prompts, ajouter un "séparateur" près de la bordure du chunk de 75 tokens résout cela. Cependant, avec 0.7, je ne l’ai pas rencontré moi-même.
Pour lancer la version vpred, vous aurez besoin d’une build dev d’A1111, Comfy (avec un nœud loader spécial), Forge ou Reforge. Utilisez simplement les mêmes paramètres (Euler a, cfg 3..5, 20..28 steps) que pour epsilon. Pas besoin d’utiliser le Rescale CFG, mais vous pouvez essayer, cfg++ fonctionne très bien.
Modèle de base :
Le modèle ici a un léger polissage unet après l’entraînement principal pour améliorer les petits détails, augmenter la résolution et autres. Cependant, vous pourriez aussi être intéressé par RouWei-Base, qui peut parfois mieux performer sur des prompts complexes malgré quelques erreurs mineures dans les petits détails. Il est aussi disponible en FP32, par exemple si vous voulez utiliser des nœuds encodeurs textuels fp32 dans Comfy, le fusionner ou finetuner.
Il est disponible sur le dépôt Huggingface
Problèmes connus :
Bien sûr ils existent :
Les tags d’artistes et styles doivent être séparés dans un chunk différent du prompt principal ou être placés très en fin
Il peut exister certains biais positionnels ou combinatoires dans de rares cas, ce n’est pas encore clair.
Il y a quelques plaintes concernant certains styles généraux.
La version epsilon dépend trop des meta tags de luminosité, vous aurez parfois besoin de les utiliser pour obtenir la luminosité désirée
Certains styles/personnages nouvellement ajoutés pourraient ne pas être aussi bons et distincts qu’ils devraient l’être
À découvrir
Les demandes d’ajouts d’artistes/personnages dans les modèles futurs sont ouvertes. Si vous trouvez un artiste/personnage/concept qui performe mal, de manière inexacte ou avec un filigrane trop marqué, merci de le signaler, ils seront ajoutés explicitement. Suivez pour les nouvelles versions.
REJOIGNEZ LE SERVEUR DISCORD
Licence :
Identique à Illustrious. N’hésitez pas à l’utiliser dans vos merges, finetunes, etc., mais veuillez laisser un lien ou une mention, c’est obligatoire.
Comment c’est fait
Je considérerai faire un rapport ou quelque chose du genre plus tard. Certainement.
En bref, 98 % du travail est lié à la préparation des datasets. Plutôt que de se fier aveuglément à la pondération de perte basée sur la fréquence des tags du papier nai, une implémentation personnalisée de pondération guidée de perte avec un collateur asynchrone pour l’équilibrage a été utilisée. Ztsnr (ou proche) avec prédiction Epsilon a été atteint grâce à l’augmentation du noise scheduler.
Temps de calcul dépensé - plus de 8 000 heures de H100 (hors recherches et essais infructueux)
Remerciements :
Tout d’abord, je tiens à remercier tous ceux qui soutiennent l’open source, développent et améliorent le code. Merci aux auteurs d’Illustrious pour la sortie du modèle, merci à l’équipe NoobAI pour être des pionniers du finetuning ouvert à cette échelle, partager l’expérience, soulever et résoudre des problèmes auparavant ignorés.
Personnel :
Des artistes souhaitent rester anonymes pour le partage d’œuvres privées ; quelques personnes anonymes – dons, code, légendes, etc., Soviet Cat – sponsoring GPU ; Sv1. – accès llm, légendes, code ; K. – code d'entraînement ; Bakariso – datasets, tests, conseils, informations ; NeuroSenko – dons, tests, code ; LOL2024 – beaucoup de jeux de données uniques ; T.,[] – datasets, tests, conseils ; rred, dga, Fi., ello – dons ; TekeshiX – datasets. Et d'autres frères qui ont aidé. Je vous aime beaucoup ❤️.
Et bien sûr, tous ceux qui ont fait des retours et des demandes, c’est vraiment précieux.
Si j'ai oublié de mentionner quelqu’un, veuillez me le faire savoir.
Dons
Si vous voulez soutenir – partagez mes modèles, laissez des retours, créez une jolie image avec une fille kemonomimi. Et bien sûr, soutenez les artistes originaux.
L’IA est mon hobby, je dépense de l’argent pour ça et je ne mendie pas de dons. Cependant, c’est devenu une entreprise à grande échelle et coûteuse. Pensez à soutenir pour accélérer les nouveaux entraînements et recherches.
(Gardez juste en tête que je peux le dépenser en alcool ou cosplay girls)
BTC : bc1qwv83ggq8rvv07uk6dv4njs0j3yygj3aax4wg6c
ETH/USDT(e) : 0x04C8a749F49aE8a56CB84cF0C99CD9E92eDB17db
XMR : 47F7JAyKP8tMBtzwxpoZsUVB8wzg2VrbtDKBice9FAS1FikbHEXXPof4PAb42CQ5ch8p8Hs4RvJuzPHDtaVSdQzD6ZbA5TZ
si vous pouvez offrir du temps GPU (a100+) - MP.
Détails du modèle
Type de modèle
Modèle de base
Version du modèle
Hash du modèle
Créateur
Discussion
Veuillez vous log in pour laisser un commentaire.


