Portrait détaillé d'un chat furry blanc aux yeux rouges orné de bijoux complexes avec des gemmes bleues et rouges, sur fond noir.
Portrait d'une fille aux cheveux rouges avec oreilles d'animal et yeux verts portant des boucles d'oreilles et un collier, avec un thĂšme sombre et un style pictural

Prompts recommandés

masterpiece, best quality, 1girl

Prompts négatifs recommandés

worst quality,low quality,watermark

worst quality, low quality

ParamÚtres recommandés

samplers

Euler_a, CFG++, Euler Ancestral CFG++, Euler CFG++, Euler a

steps

20 - 28

cfg

1.4 - 9

resolution

1024x1024, 1216x832, 832x1216, 1344x800, 1216x832, 896x1152, 800x1280

vae

sdxl_vae.safetensors

ParamÚtres haute résolution recommandés

upscaler

Latent

upscale

1.5

steps

15 - 22

denoising strength

0.6 - 0.7

Conseils

Les tags artiste/style DOIVENT ĂȘtre dans un chunk CLIP sĂ©parĂ© ou placĂ©s Ă  la toute fin du prompt, sĂ©parĂ©s par BREAK (pour A1111) ou concat conditioning (pour Comfy) pour Ă©viter une dĂ©gradation significative.

Utilisez seulement quatre tags de qualitĂ© : masterpiece, best quality (positif) et low quality, worst quality (nĂ©gatif). Évitez les autres mĂ©ta-tags comme lowres.

Pour la version vpred, réduisez le CFG à 3..5 pour de meilleurs résultats.

Utilisez les tags de luminosité/méta pour contrÎler la luminosité, saturation, gamma et contraste pour une meilleure fidélité des couleurs.

Lors du mĂ©lange de styles d’artistes, utilisez le prĂ©fixe "by " pour Ă©viter les problĂšmes de mĂ©lange de styles.

Gardez les prompts propres et concis ; évitez les descriptions en langage naturel trop longues ou brouillonnes.

Points forts de la version

Version vpred

Sponsors du créateur

RĂ©entraĂźnement approfondi d’Illustrious pour atteindre le meilleur respect des prompts, la connaissance et des performances de pointe.

Les grands rĂȘves deviennent rĂ©alitĂ©

Le numĂ©ro de version n’est qu’un indice de la version finale actuelle, pas une fraction de l’entraĂźnement prĂ©vu.

DépÎt HF

Affinage Ă  grande Ă©chelle utilisant un cluster GPU avec un jeu de donnĂ©es de ~13 millions d’images (~4 millions avec lĂ©gendes en texte naturel)

  • Connaissance fraĂźche et vaste sur les personnages, concepts, styles, culture et sujets connexes

  • Le meilleur respect des prompts parmi les modĂšles SDXL anime au moment de la sortie

  • RĂ©solution des problĂšmes principaux de dĂ©bordement et de biais des tags, communs Ă  Illustrious, NoobAi et autres checkpoints

  • EsthĂ©tique excellente et savoir Ă©tendu sur une large variĂ©tĂ© de styles (plus de 50 000 artistes (exemples), incluant des centaines de datasets uniques sĂ©lectionnĂ©s dans des galeries privĂ©es, y compris celles fournies par les artistes eux-mĂȘmes)

  • Grande flexibilitĂ© et variĂ©tĂ© sans compromis sur la stabilitĂ©

  • Plus de filigranes gĂȘnants pour les styles populaires grĂące Ă  un jeu de donnĂ©es propre

  • Couleurs vibrantes et dĂ©gradĂ©s doux sans traces de brĂ»lure, gamme complĂšte mĂȘme avec epsilon

  • EntraĂźnement pur Ă  partir d’Illustrious v0.1 sans impliquer de checkpoints tiers, Loras, tweaks, etc.

Il y a aussi des problÚmes et changements par rapport à la version précédente, veuillez lire le manuel.

Limite des données - fin avril 2025.

Fonctionnalités et utilisation des prompts :

Changement important :

Lorsque vous utilisez les styles d’artistes, surtout en mĂ©langeant plusieurs, leurs tags DOIVENT ÊTRE dans un chunk CLIP sĂ©parĂ©. Ajoutez simplement BREAK aprĂšs (pour A1111 et dĂ©rivĂ©s), utilisez un nƓud de concatĂ©nation de conditionnement (pour Comfy) ou au moins placez-les Ă  la toute fin. Sinon, une dĂ©gradation significative des rĂ©sultats est probable.

Basique :

Le checkpoint fonctionne aussi bien avec des prompts courts et simples que longs et complexes. Cependant, s’il y a des contradictions ou Ă©lĂ©ments Ă©tranges - contrairement aux autres, ils ne seront pas ignorĂ©s et affecteront le rendu. Pas de garde-fous, ni rĂ©gulation, ni lobotomie.

Entrez simplement ce que vous souhaitez voir et ne dĂ©crivez pas ce qui ne doit pas apparaĂźtre. Si vous voulez une vue de dessus - ne mettez pas de plafond en positif, si vous voulez un cadrage crop avec la tĂȘte hors-cadre - ne dĂ©crivez pas en dĂ©tail les traits du visage, etc. Simple mais parfois oubliĂ©.

La version 0.8 propose une comprĂ©hension avancĂ©e des prompts en texte naturel. Vous n’ĂȘtes pas obligĂ© de l’utiliser, les tags seuls fonctionnent trĂšs bien, surtout que la comprĂ©hension des combinaisons de tags est aussi amĂ©liorĂ©e.

N’attendez pas une performance comme Flux ou d’autres modĂšles basĂ©s sur T5 ou encodeurs LLM. La taille entiĂšre du checkpoint SDXL est infĂ©rieure Ă  celle de l’encodeur texte seul, de plus illustrious-v0.1, utilisĂ© comme base, a oubliĂ© beaucoup de choses gĂ©nĂ©rales du vanilla sdxl-base.

Cependant, mĂȘme dans cet Ă©tat, il fonctionne bien mieux, permet de faire de nouvelles choses gĂ©nĂ©ralement impossibles sans guidage externe, et facilite aussi l’édition manuelle, l’inpainting, etc.

Pour obtenir les meilleures performances, il faut suivre les chunks CLIP. Dans SDXL, le prompt est sĂ©parĂ© en chunks de 75 (77 avec BOS et EOS) tokens, traitĂ©s sĂ©parĂ©ment par CLIP, puis concatĂ©nĂ©s et transmis comme conditions Ă  l’unet.

Si vous voulez spĂ©cifier des caractĂ©ristiques pour un personnage/objet et les sĂ©parer d’autres parties du prompt - assurez-vous qu’ils sont dans le mĂȘme chunk et, optionnellement, sĂ©parez avec BREAK. Cela ne rĂ©sout pas totalement le problĂšme de mĂ©lange des traits, mais peut le rĂ©duire en amĂ©liorant la comprĂ©hension globale, puisque les encodeurs texte de RouWei peuvent traiter la sĂ©quence entiĂšre, pas juste des concepts individuels mieux que d’autres.

Le dataset contient uniquement des tags style booru et des expressions en texte naturel. Malgré une part de furries, photos réelles, médias occidentaux, etc. toutes les légendes ont été converties au style booru classique pour éviter plusieurs problÚmes issus du mélange de systÚmes. Les tags e621 ne seront donc pas bien compris.

ParamĂštres d’échantillonnage :

  • ~1 mĂ©gapixel pour txt2img, n’importe quel AR avec rĂ©solution multiple de 32 (1024x1024, 1056x, 1152x, 1216x832, ...). Euler_a, 20 Ă  28 Ă©tapes.

  • CFG : pour version epsilon 4 Ă  9 (7 est le meilleur), pour version vpred 3 Ă  5

  • Multiplication des sigmas peut lĂ©gĂšrement amĂ©liorer les rĂ©sultats, les samplers CFG++ fonctionnent bien. LCM/PCM/DMD/... et samplers exotiques non testĂ©s.

  • Certaines schedulers ne fonctionnent pas bien.

  • Highresfix - latent x1.5 + denoise 0.6 ou tout GAN + denoise 0.3 Ă  0.55.

  • Pour version vpred, CFG plus bas 3 Ă  5 nĂ©cessaire !

Pour version vpred, CFG plus bas 3 à 5 nécessaire !

Classification de qualité :

Seulement 4 tags de qualité :

masterpiece, best quality

pour le positif et

low quality, worst quality

pour le négatif.

Rien d’autre. En fait, vous pouvez mĂȘme omettre le positif et rĂ©duire le nĂ©gatif Ă  low quality seulement, car ils peuvent affecter le style et la composition de base.

Les méta-tags comme lowres ont été supprimés et ne fonctionnent plus, mieux vaut ne pas les utiliser. Les images basse résolution ont soit été retirées, soit upscalées et nettoyées avec DAT selon leur importance.

Prompt négatif :

worst quality, low quality, watermark

C’est tout, pas besoin de "rusty trombone", "farting on prey" et autres. Ne mettez pas de tags comme greyscale, monochrome dans le nĂ©gatif sauf si vous savez ce que vous faites. Les tags extra pour luminositĂ©/couleurs/contraste ci-dessous peuvent ĂȘtre utilisĂ©s.

Styles d’artistes :

Grilles avec exemples, liste/wildcard (Ă©galement disponibles dans les "donnĂ©es d’entraĂźnement").

UtilisĂ© avec "by " c’est obligatoire. Ça ne fonctionnera pas correctement sans.

"by " est un mĂ©ta-tag pour les styles pour Ă©viter la confusion/mĂ©lange avec des tags/personnages de nom similaire ou proche. Cela permet d’avoir de meilleurs rĂ©sultats pour les styles et d’éviter la fluctuation alĂ©atoire observĂ©e dans d’autres checkpoints.

Utiliser plusieurs génÚre des résultats trÚs intéressants, contrÎlables avec les poids des prompts et sorts.

VOUS DEVEZ AJOUTER BREAK aprĂšs les tags artistes/styles (pour A1111) ou concat conditioning (pour Comfy) ou les placer Ă  la toute fin de votre prompt.

Par exemple :

by kantoku, by wlop, best quality, masterpiece BREAK 1girl, ...

Styles généraux :

2.5d, anime screencap, bold line, sketch, cgi, digital painting, flat colors, smooth shading, minimalistic, ink style, oil style, pastel style

Styles tags booru :

1950s (style), 1960s (style), 1970s (style), 1980s (style), 1990s (style), 2000s (style), animification, art nouveau, pinup (style), toon (style), western comics (style), nihonga, shikishi, minimalism, fine art parody

et tout ce qui se trouve dans ce groupe.

Peut ĂȘtre utilisĂ© en combinaisons (avec artistes aussi), avec poids, en prompt positif et nĂ©gatif.

Personnages :

Utilisez le tag booru complet et la bonne mise en forme, comme karin_(blue_archive) -> karin \(blue archive\), utilisez les tags de peau pour mieux reproduire, comme karin \(bunny\) \(blue archive\). L’extension d'autocomplĂ©tion peut ĂȘtre trĂšs utile.

La plupart des personnages sont reconnus juste par leur tag booru, mais ce sera plus précis si vous décrivez leurs traits de base. Ici vous pouvez facilement redéfinir votre waifu/husbendo juste avec le prompt sans souffrir des fuites typiques des caractéristiques basiques.

Texte naturel :

Utilisez-le en combinaison avec les tags booru, fonctionne trĂšs bien. Utilisez uniquement du texte naturel aprĂšs avoir entrĂ© styles et tags de qualitĂ©. Utilisez juste les tags booru si vous le souhaitez, c’est Ă  vous de choisir. Pour de meilleures performances, suivez bien les chunks CLIP de 75 tokens.

Environ 4 millions d’images du dataset avaient des lĂ©gendes hybrides en texte naturel, gĂ©nĂ©rĂ©es par Claude, GPT, Gemini, ToriiGate, puis refactorisĂ©es, nettoyĂ©es et combinĂ©es avec des tags en diffĂ©rentes variantes pour augmenter le dataset.

Contrairement aux lĂ©gendes typiques, celles-ci contiennent les noms des personnages, ce qui est trĂšs utile. Mieux vaut rester clair, court et pratique. Évitez absolument de ne pas faire de longues descriptions embrouillĂ©es comme

Une entitĂ© fĂ©minine mystĂ©rieusement enchanteresse d’essence indĂ©terminĂ©e mais jeune, dont le visage cĂ©leste rayonne d’une lueur Ă©thĂ©rĂ©e de mille Ă©toiles mourantes, bĂ©nie de mĂšches coulantes telles les riviĂšres d’or de la mythologie ancienne, peut-ĂȘtre coiffĂ©e de maniĂšre rappelant les tendances de mode contemporaines sans forcĂ©ment adhĂ©rer Ă  un paradigme esthĂ©tique spĂ©cifique. Ses yeux, pools de profondeur et couleur insondables, brillent de la sagesse des millĂ©naires tout en conservant une qualitĂ© innocente qui dĂ©fie les contraintes temporelles...

Pour la génération de légendes, vous pouvez utiliser ToriiGate en mode court.

Ne vous attendez pas Ă  ce que ce soit aussi bon que Flux ou autres, il fait beaucoup d’efforts et aprĂšs plusieurs essais vous pouvez obtenir ce que vous voulez, mais ce n’est pas aussi stable ni dĂ©taillĂ©.

Oh oui

censure de la queue, tenir sa propre queue, enlacer sa propre queue, tenir la queue d’un autre, attraper la queue, queue levĂ©e, queue baissĂ©e, oreilles baissĂ©es, main sur sa propre oreille, queue autour de la jambe, queue autour du pĂ©nis, tailjob, queue Ă  travers les vĂȘtements, queue sous les vĂȘtements, soulevĂ© par la queue, morsure de queue, pĂ©nĂ©tration par la queue (y compris indication spĂ©cifique vaginale/anal), masturbation par la queue, tenir avec la queue, culotte sur la queue, soutien-gorge sur la queue, focus sur la queue, prĂ©senter sa propre queue...

(sens booru, pas e621) et beaucoup d’autres avec texte naturel. La majoritĂ© fonctionne parfaitement, certains demandent beaucoup d’essais.

Luminosité/couleurs/contraste :

Vous pouvez utiliser des méta-tags supplémentaires pour contrÎler cela :

basse luminosité, haute luminosité, basse saturation, haute saturation, basse gamma, haute gamma, couleurs vives, couleurs douces, hdr, sdr

Exemple

Ils fonctionnent aussi bien en version epsilon qu’en version vpred et fonctionnent trùs bien.

La version epsilon s’appuie trop sur ces tags. Sans basse luminositĂ© ou basse gamma ou plage limitĂ©e (en nĂ©gatif), il peut ĂȘtre difficile d’obtenir un vrai noir (0,0,0), idem souvent pour le blanc.

Les versions epsilon et vpred ont une vĂ©ritable zsnr, une gamme complĂšte de couleurs et de luminositĂ© sans dĂ©fauts courants observĂ©s. Mais ils se comportent diffĂ©remment, Ă  vous d’essayer.

Version Vpred

La chose principale à savoir - baissez votre CFG de 7 à 5 (ou moins). Sinon, l’utilisation est similaire avec des avantages.

Il semble qu’à partir de v0.7 la version vpred fonctionne maintenant sans faille. Elle ne devrait pas ignorer les tags proches des frontiĂšres des chunks de 75 tokens comme nai. Il est plus difficile d’obtenir des images brĂ»lĂ©es - mĂȘme en cfg7 c’est gĂ©nĂ©ralement juste sursaturĂ© mais avec des dĂ©gradĂ©s doux, ce qui peut ĂȘtre utile pour certains styles. Oui elle peut produire tout du (0,0,0) au (255,255,255). Vous trouverez les mĂ©ta-tags luminositĂ© utiles pour un prompt plus facile/paresseux, les expressions en texte naturel fonctionnent aussi. Pour l’image la plus sombre - mettez high brightness en nĂ©gatif et/ou utilisez les tags low brightness, low gamma. Si vous n’aimez pas la peau trĂšs claire sur fond sombre et voulez rĂ©duire le contraste (ou au contraire, renforcer l’effet) - utilisez hdr/sdr en nĂ©gatif/positif.

Il a Ă©tĂ© rapportĂ© que dans de rares cas avec certains prompts il y a une chute de contraste. Il semble que d’autres modĂšles vpred aient le mĂȘme comportement avec ces prompts, ajouter un "sĂ©parateur" plus proche de la frontiĂšre du chunk de 75 tokens corrige cela. Cependant, avec la 0.7 je ne l’ai pas rencontrĂ© moi-mĂȘme.

Pour lancer la version vpred, vous aurez besoin d’une build dev de A1111, Comfy (avec nƓud loader spĂ©cial), Forge ou Reforge. Utilisez simplement les mĂȘmes paramĂštres (Euler a, cfg 3 Ă  5, 20 Ă  28 Ă©tapes) que pour epsilon. Pas besoin d’utiliser Cfg rescale, mais vous pouvez essayer, cfg++ fonctionne trĂšs bien.

ModĂšle de base :

Le modĂšle ici a une petite retouche unet aprĂšs l’entraĂźnement principal pour amĂ©liorer les petits dĂ©tails, augmenter la rĂ©solution et autres. Cependant, vous pouvez aussi ĂȘtre intĂ©ressĂ© par RouWei-Base, qui parfois est meilleur sur les prompts complexes malgrĂ© quelques erreurs mineures dans les petits dĂ©tails. Il est aussi disponible en FP32, par exemple si vous voulez utiliser des nƓuds encodeur texte fp32 dans Comfy, le fusionner ou l’affiner.

Il est disponible dans le dépÎt Huggingface

ProblĂšmes connus :

Bien sûr, il y en a :

  • Les tags artistes et styles doivent ĂȘtre sĂ©parĂ©s dans un chunk diffĂ©rent du prompt principal ou placĂ©s en dernier

  • Il peut y avoir quelques biais positionnels ou combinatoires dans de rares cas, mais ce n’est pas clair.

  • Quelques plaintes sur certains styles gĂ©nĂ©raux.

  • La version epsilon s’appuie trop sur les mĂ©ta-tags luminositĂ©, parfois il faudra les utiliser pour obtenir le dĂ©calage de luminositĂ© dĂ©sirĂ©

  • Certains styles/personnages rĂ©cemment ajoutĂ©s peuvent ne pas ĂȘtre aussi bons et distincts qu’ils le mĂ©ritent

  • À dĂ©couvrir

Les demandes d’artistes/personnages pour les futurs modĂšles sont ouvertes. Si vous trouvez un artiste/personnage/concept qui fonctionne mal, est inexact ou a un fort filigrane - veuillez le signaler, ils seront ajoutĂ©s explicitement. Suivez pour les nouvelles versions.

REJOIGNEZ LE SERVEUR DISCORD

Licence :

Identique Ă  Illustrious. N’hĂ©sitez pas Ă  utiliser dans vos merges, finetunes, etc. mais veuillez laisser un lien ou une mention, c’est obligatoire.

Comment c’est fait

Je pense faire un rapport ou quelque chose dans ce genre plus tard. Assurément.

En rĂ©sumĂ©, 98 % du travail concerne la prĂ©paration des donnĂ©es. Au lieu de s’appuyer aveuglĂ©ment sur un poids de perte basĂ© sur la frĂ©quence des tags selon le papier nai, une implĂ©mentation personnalisĂ©e de poids guidĂ©s de la perte avec un collecteur asynchrone pour Ă©quilibrage a Ă©tĂ© utilisĂ©e. Ztsnr (ou proche) avec prĂ©diction Epsilon a Ă©tĂ© atteint grĂące Ă  une augmentation du scheduler de bruit.

Calcul utilisé - plus de 8 000 heures de H100 (hors recherche et tentatives échouées)

Remerciements :

Avant tout, je tiens Ă  remercier tous ceux qui soutiennent l’open source, dĂ©veloppent et amĂ©liorent le code. Merci aux auteurs d’Illustrious pour la sortie du modĂšle, merci Ă  l’équipe NoobAI pour ĂȘtre pionniers dans l’affinage open Ă  cette Ă©chelle, partager l’expĂ©rience, soulever et rĂ©soudre des problĂšmes auparavant ignorĂ©s.

Personnel :

Des artistes souhaitent rester anonymes pour partager leurs Ɠuvres privĂ©es ; Quelques personnes anonymes - dons, code, lĂ©gendes, etc., Soviet Cat - sponsoring GPU ; Sv1. - accĂšs LLM, lĂ©gendage, code ; K. - code d’entraĂźnement ; Bakariso - datasets, tests, conseils, retours ; NeuroSenko - dons, tests, code ; LOL2024 - beaucoup de datasets uniques ; T.,[] - datasets, tests, conseils ; rred, dga, Fi., ello - dons ; TekeshiX - datasets. Et d’autres camarades qui ont aidĂ©. Je vous aime ❀.

Et bien sĂ»r tous ceux qui ont donnĂ© des retours et fait des demandes, c’est vraiment prĂ©cieux.

Si j’ai oubliĂ© quelqu’un, merci de le signaler.

Dons

Si vous voulez soutenir - partagez mes modÚles, laissez des retours, faites une jolie image avec une kemonomimi-fille. Et bien sûr, soutenez les artistes originaux.

L’IA est mon hobby, je dĂ©pense de l’argent et je ne mendie pas de dons. Cependant, c’est devenu une entreprise Ă  grande Ă©chelle et coĂ»teuse. Envisagez de soutenir pour accĂ©lĂ©rer l’entraĂźnement et la recherche.

(Gardez juste en tĂȘte que je peux le dĂ©penser en alcool ou cosplay de filles)

BTC : bc1qwv83ggq8rvv07uk6dv4njs0j3yygj3aax4wg6c

ETH/USDT(e): 0x04C8a749F49aE8a56CB84cF0C99CD9E92eDB17db

XMR : 47F7JAyKP8tMBtzwxpoZsUVB8wzg2VrbtDKBice9FAS1FikbHEXXPof4PAb42CQ5ch8p8Hs4RvJuzPHDtaVSdQzD6ZbA5TZ

si vous pouvez offrir du temps GPU (a100+) - MP.

Précédent
RedCraft | çșąæœź CADS | Mis Ă  jour-JUN29 | Dernier - Red-K Kontext DEV NSFW - Reveal5[SFW]ULTRA
Suivant
RedCraft | çșąæœź CADS | Mis Ă  jour-JUN29 | Dernier - Red-K Kontext DEV NSFW - è”©æąŠ|REDiDream(NSFW i1)

Détails du modÚle

Type de modĂšle

Checkpoint

ModĂšle de base

Illustrious

Version du modĂšle

v0.7 vpred

Hash du modĂšle

66076a003a

Créateur

Discussion

Veuillez vous log in pour laisser un commentaire.

Images par RouWei - v0.7 vpred

Images avec anime

Images avec modĂšle de base

Images avec illustre