Tponynai3 - v51weight optimisé
Mots-clés et tags associés
Images en vedette
Prompts recommandés
score_9,score_8_up,score_7_up
score_8_up,score_7_up,1girl
Prompts négatifs recommandés
score_4,score_3,score_2,worst quality, bad hands, bad feet
score_3,score_2,ugly
Paramètres recommandés
samplers
steps
cfg
clip skip
resolution
other models
Paramètres haute résolution recommandés
upscaler
upscale
steps
denoising strength
Conseils
Utilisez la correction haute à une résolution modérée pour de meilleurs résultats.
Essayez style_3 ou 4 pour améliorer le détail des yeux.
Points forts de la version
Résumé des problèmes du v5 :
1. Compatibilité lora et problèmes de membres et yeux flous. La compatibilité est réduite car j’ai utilisé un poids final trop important, causant du sur-ajustement. Cette version optimisée réduit ce poids, améliorant stabilité des membres et compatibilité lora, comme montré sur des images comparatives avec styles lora de v4.1. Les yeux flous proviennent du style_1, car le matériau de base a des yeux flous. Utiliser style_3 ou 4 peut améliorer.
2. Problèmes d’exposition de la volumétrie lumineuse. Je n’ai pas observé ce problème en test, qui vient probablement du paramètre de bruit décalé augmentant la sensibilité aux terms lumineux, rendant les résultats plus lumineux. Je conseille d’éviter les parenthèses et nombres pour augmenter les poids et de préférer répéter plusieurs fois le terme (sdxl est sensible aux prompts), pour éviter les extrêmes. Ce paramètre sert aussi à corriger les résultats jaunes avec peu de prompts. Des comparatifs ont été fournis.
3. Réduction de la complexité du modèle. Théoriquement et pratiquement, v5 est plus propre et diverse que ses prédécesseurs, avec une meilleure expressivité grâce à certains prompts. Des comparatifs sont proposés. Le dataset n’était pas trop complexe pour éviter le sur-ajustement, ce qui impacte certains détails.
But : Je souhaite un modèle significativement différent des versions précédentes et pas un quasi-duplica. Vos retours sont une bonne opportunité d’essais. La prochaine version augmentera les matériaux pour divers styles pour mieux fusionner les styles et permettre leur séparation via prompts spécifiques, ce qui demandera de nouvelles techniques d'entraînement. Merci pour vos retours !
Résumé de certains problèmes concernant la version v5.
1. Compatibilité Lora et problèmes avec les membres et yeux flous. J'ai utilisé un poids final trop élevé pour cet entraînement, ce qui peut provoquer un sur-apprentissage dans certains cas. Cette version optimisée réduit ce poids, améliorant la stabilité des membres et la compatibilité avec certains Loras. J'ai fait plusieurs comparaisons avec des Loras entraînés sur v4.1. Le problème des yeux flous vient probablement du style_1, car le matériel d'origine a les yeux flous. Cela peut être amélioré avec style_3 ou 4.
2. Problèmes d'exposition de la lumière volumétrique. Je n'ai pas rencontré ce problème pendant les tests, il est probablement dû à l'utilisation du paramètre de décalage de bruit dans l'entraînement, augmentant la sensibilité du modèle aux mots-clés liés à la lumière, ce qui rend l'image plus lumineuse avec un poids de mot équivalent. Je conseille d'éviter les parenthèses et les nombres pour augmenter le poids, et de répéter plusieurs fois le même mot-clé pour éviter les résultats extrêmes, à cause de la sensibilité de sdxl aux prompts. Ce paramètre sert aussi à corriger la tendance au jaunissement avec peu de mots-clés. J'ai fait plusieurs comparaisons.
3. Réduction de la complexité du modèle. En théorie et en pratique, v5 est un modèle plus propre et plus varié que la version précédente, et avec certains mots-clés, il peut offrir une meilleure précision. J'ai aussi fait plusieurs comparaisons. Le set d'entraînement n'était pas trop complexe car des images trop complexes font sur-apprendre, ce qui fait perdre certains détails.
Objectif : Je souhaite obtenir un modèle bien différent de la version précédente, pas un quasi similaire. Vos retours sont une bonne opportunité de test, car seul, je n'ai pas ce coût d'essais. Dans la prochaine version, j'augmenterai le volume des matériaux de styles différents pour mieux fusionner et séparer ces styles, en utilisant des prompts spécifiques pour les changer, ce qui pourrait demander de nouvelles techniques d'entraînement. Merci pour vos retours !
Sponsors du créateur
[Non certifié] Tonade, créateur du modèle T-ponynai3, ID sur site c : Tonade, | Aider via 爱发电 (afdian.net)
Voici la canal de sponsoring sur 爱发电, si vous trouvez le modèle utile et avez les moyens, vous pouvez soutenir ! Ne vous forcez pas, merci pour chaque soutien, je continuerai à explorer comment améliorer le modèle !
929721518 numéro de groupe QQ personnel, pour toute question sur tpony, vous pouvez entrer pour demander. N'oubliez pas de mentionner le site c.
Le modèle inclut déjà le vae, pas besoin d'ajouter un vae supplémentaire
Le modèle inclut déjà le vae, il n’est pas nécessaire d’ajouter un vae supplémentaire
La meilleure stratégie de génération est une résolution modérée avec correction haute, et non une sortie directe en haute résolution
La meilleure stratégie de génération est d’utiliser la correction haute à une résolution modérée, plutôt que d’utiliser directement une sortie en haute résolution
[Non certifié] Tonade, créateur du modèle T-ponynai3, ID sur site c : Tonade, | Aider via 爱发电 (afdian.net)
Voici la canal de sponsoring sur 爱发电, si vous trouvez le modèle utile et avez les moyens, vous pouvez soutenir ! Ne vous forcez pas, merci pour chaque soutien, je continuerai à explorer comment améliorer le modèle !
(33) T-ponynai3-v5 - (version poids modifié) | Stable Diffusion Checkpoint | 吐司 tusi.cn (tusiart.com) lien de génération en ligne tusiart(version chinoise tensor)
(Parce que le modèle peut seulement exister simultanément sur Tusi et Tensor, il est préférable de l’utiliser sur Tusi. Si des problèmes apparaissent dans son usage, n’hésitez pas à me les signaler)
La version v5 a ajouté 4 nouveaux styles, pouvant affiner les détails de l’image de style_1 à style_4 (théoriquement, mais l’effet réel est assez mystique)
La version V5 a ajouté 4 nouveaux styles, qui peuvent être utilisés pour affiner les détails de l’image via style_1 à style_4 (théoriquement, c’est ainsi, mais l’effet réel est plus mystique ou moindre)
Ce modèle supporte parfaitement les modèles entraînés avec ponyv6 comme base, ani3 et sdxl1.0 Lora peuvent aussi être adaptés en partie
This model perfectly supports lora trained with ponyv6 as the base model, and the Lora of ani3 and sdxl1.0 can also be adapted to some extent.
Test d’édition d’image basé sur v4.1 (partie négligée dans les anciennes versions)
Image inpaint testing based on v4.1 (this is a previously overlooked part)
pony est divin, compatibilité parfaite. Ce modèle supporte les lora de ani et pony
Mots-clés préalables indispensables identiques à ponydiffusion
positif :(score_9,score_8_up,score_7_up,score_6_up,score_5_up,score_4_up)
OU (score_9,score_8_up,score_7_up)
Peut ajouter en négatif:
négatif : (score_4,score_3,score_2,score_1),
Peut aussi ajouter les mots négatifs classiques des systèmes nai, par exemple :
négatif: pire qualité, mauvaises mains, mauvais pieds
J’espère que ça vous plaira ᕕ(◠ڼ◠)ᕗ basé sur nai3 et ponyv6
Instructions d'entraînement : v1 a utilisé 94 images, v2 119 images, v3 348 images, v3.5 474 images créées par nai3, où la lora est intégrée dans le modèle de base pour un réglage fin, tous les tags d'artistes supportés par ponyv6 sont pris en charge, l’utilisation de plus de deux tags d’artistes peut causer des problèmes de fond. Il génère des personnages de Genshin Impact, autres non testés. Ce modèle est une fusion de T-anime-xl, ponyv6 et ani3 non publiée.
Carte graphique utilisée : ma propre 3090, entraînement de 7, 12, 35 et 47 heures pour v1 à v3.5 respectivement.
Instructions d’entraînement : Fusion de Lora a utilisé 94 images pour v1, 119 pour v2, 348 pour v3, 474 pour v3.5 générées par NAI3 pour entraîner le modèle de base en affinage. Pony supporte tous les tags artistes déjà présents sur ponyv6, sans ajout de tags nai3. Plus de deux tags artistes peuvent causer un plantage du fond. Il a été constaté qu’il génère des personnages de Genshin Impact. Autres non testés. Admirable reproduction du style nai3. Le base model est une fusion de T-anime-xl, ponyv6 et animage3, pas encore publié.
Carte graphique utilisée : ma 3090 personnelle, utilisée 7h, 12h, 35h, 47h pour v1 à v3.5 respectivement.
v1
Une tentative intéressante
Une tentative intéressante
v2
Augmentation légère du dataset par rapport à v1, environ 30h d’essais de paramètres, mais style encore un peu sur-ajusté, double nombril et cheveux désordonnés.
Sur la base de v1, le set de données a été légèrement augmenté et environ 30 heures d'essais ont été effectuées, mais le style entraîné présente encore un certain sur-apprentissage, comme un double nombril et des cheveux en désordre.
v3
Les membres de v3 sont meilleurs que v2. En ce qui concerne le focus sur les pieds, v3 peut générer des pieds avec un plus grand impact visuel et une perspective plus difficile. L’aspect AI des cheveux de v3 est aussi plus faible que v2 car le dataset de v2 est trop petit, provoquant un sur-ajustement partiel des cheveux ; le double nombril de v2 a disparu. Globalement, le triple de données d’entraînement et un paramètre dim plus grand rendent le style plus naturel, et l’expression plus forte sous long prompt.
Les membres de v3 sont meilleurs que ceux de v2. En termes de compréhension du focus sur les pieds, v3 peut générer des pieds visuellement plus impactants avec des perspectives plus complexes. L’aspect artificiel des cheveux de v3 est aussi plus faible qu’en v2, car v2 avait un petit ensemble d’entraînement, provoquant un sur-ajustement des cheveux et la disparition des doubles nombrils. En général, un dataset trois fois plus grand et un paramètre dim plus large donnent un style plus naturel et une meilleure expressivité avec des prompts longs.
v3.5
Dans cette version, l’exigence sur les termes de qualité est moins stricte, on peut ne pas utiliser les termes de qualité de l’évaluation esthétique de pony pour générer, parfois des zones de couleur sans sens peuvent apparaître, il suffit de remplacer les termes par ceux courants de 1.5, par exemple score_1, score_2 par worst quality. J’ai ajouté environ 150 images à l’entraînement pour équilibrer et enrichir le style, en réduisant la pente initiale de la courbe d’apprentissage, diminuant le sur-ajustement, permettant plus de lora et prompts créatifs. Cette version est plus libre que v3, avec une meilleure représentation des hommes, les couleurs et style sont moins vifs et graisseux.
In this version, the requirements for quality words are not so strict, you can completely not to use the quality words of pony's aesthetic score to plot the picture, and occasionally there will be a situation where the picture generates meaningless color blocks in the test, you only need to replace the quality words of the aesthetic score with 1.5 commonly used quality words, such as score_1, score_2 replace it with worst quality. In this version, I added about 150 more training sets to balance and enrich the art style, and reduced the initial slope of the learning curve, which makes this model less overfitted and can be adapted to more lora and whimsical prompts. Overall, this version is a freer version than the v3 version, and this version is much stronger than the v3 version, and the colors and style of painting under some hints are not so bright and greasy.
v4
Cette version a utilisé 798 images comme matériel, entraînée 90 heures sur 3090. Parmi les améliorations par rapport à v3.5 : meilleure composition et description de certaines parties (fantômes des doigts, chevauchement des corps). Le focus principal pour les prompts a été la longueur moyenne ou courte pour ne pas obliger à écrire un long prompt. En supprimant les qualités pondérées par l’esthétique pony, la qualité a significativement progressé, tendant vers une image plus plate que 3D, proche du style anime classique. Les tests sur l’effet du nombre d’images sur le fine-tuning de ponyv6 sont presque finis. La prochaine étape est d’introduire plus de prompts ajustables dans la limite des matériaux disponibles pony, comme l’ajout du score esthétique (actuellement couvert par les mots courants) et de continuer à ajouter des matériaux adaptés (scènes, pieds absents dans v4).
Cette version a utilisé 798 images pour l'entraînement et a été entraînée pendant 90 heures sur une 3090. Elle améliore la composition et le rendu de certaines zones, comme les doigts en fantômes et chevauchements. L'objectif principal pour les prompts était une longueur moyenne ou courte, car personne n'aime écrire un long prompt pour une bonne image. Après suppression du prompt qualité basé sur l'esthétique pony, la qualité a beaucoup augmenté, avec des images plus plates et proches de l'anime classique. Les tests de l'effet du nombre d'images sur le fine-tuning de ponyv6 approchent de la fin. La prochaine étape est d'ajouter plus de prompts contrôlables dans les limites du matériel, comme les scores esthétiques, et d'ajouter davantage de matériaux d'entraînement adaptés, notamment pour les scènes et les pieds (manquant dans v4).
v4.1
Je m’excuse auprès des utilisateurs d’avoir sorti une nouvelle version en si peu de temps, cela teste la mémoire et la vitesse du réseau. O_O
Premièrement, je voudrais m’excuser auprès des utilisateurs pour cette sortie rapide, mettant à rude épreuve la mémoire et la vitesse réseau. O_O
Cette version est basée sur v4 avec un ajustement des membres, car il est difficile de contrôler les membres en v4 et la perfection des mains n’a pas atteint mes attentes. Avec mon ami 木猫猫猫, nous avons ajusté v4 pour que v4.1 atteigne mes objectifs. Je publierai plusieurs graphiques xy montrant l’amélioration de v4.1 par rapport à v4 avec les mêmes paramètres.
Cette nouvelle version est basée sur une version déboguée des membres de v4. Le contrôle des membres en v4 était difficile et le taux de perfection des mains n'a pas atteint mes attentes lors des tests. Mon ami 木猫猫猫 et moi avons donc ajusté et amélioré v4, ce qui a permis à v4.1 d'atteindre mes attentes. Je publierai plusieurs graphiques xy pour montrer clairement les améliorations de v4.1 par rapport à v4 avec les mêmes paramètres.
v5
Le matériel d’entraînement est réduit. Suite à l’échec de v4, j’ai lancé un autre projet pour tester une idée d’occupation mémoire réduite, entraînant quatre styles lora adaptés à T-ponynai3. Le modèle original a été mis en ligne sur Civitai. Après test de compatibilité, j’ai intégré ces quatre styles comme additifs dans T-ponynai3-v5. Étonnamment, la texture des lignes a beaucoup progressé, sûrement grâce à un matériel très détaillé. J’ai marqué ces styles avec style_1 à style_4. Malheureusement ils ne se différencient pas ou peu mais s’intègrent bien dans le style original, améliorant notablement le style nai3. Peut-être approfondir la prochaine version. (J’aime beaucoup jouer, l’abstinence de jeux durant entraînement est dure)
Les matériaux d'entraînement de cette version ont été réduits. Suite à l'échec de v4, j'ai lancé un autre projet pour tester mon idée d'utiliser peu de mémoire : entraîner quatre styles lora adaptés à T-ponynai3. Le modèle original a aussi été uploadé sur Civitai. Après le test de compatibilité, j'ai intégré ces quatre styles comme additifs dans T-ponynai3-v5. Étonnamment, la texture des traits s'est nettement améliorée, sûrement grâce à un matériau très fin. J'ai utilisé les prompts style_1 à style_4 pour les marquer. Malheureusement, ces styles ne se sont pas séparés ou leur effet est faible, mais ils se sont bien fondus dans le style original. Bien que l'objectif de supporter plusieurs styles ne soit pas atteint, le style original nai3 est monté d'un cran. Peut-être approfondir cela dans la version suivante. (J'aime beaucoup jouer aux jeux vidéo, donc ne pas pouvoir jouer durant l'entraînement est difficile pour moi)
Résumé des problèmes du v5 :
1. Compatibilité lora et problèmes de membres et yeux flous. La compatibilité est réduite car j’ai utilisé un poids final trop important, causant du sur-ajustement. Cette version optimisée réduit ce poids, améliorant stabilité des membres et compatibilité lora, comme montré sur des images comparatives avec styles lora de v4.1. Les yeux flous proviennent du style_1, car le matériau de base a des yeux flous. Utiliser style_3 ou 4 peut améliorer.
2. Problèmes d’exposition de la volumétrie lumineuse. Je n’ai pas observé ce problème en test, qui vient probablement du paramètre de bruit décalé augmentant la sensibilité aux terms lumineux, rendant les résultats plus lumineux. Je conseille d’éviter les parenthèses et nombres pour augmenter les poids et de préférer répéter plusieurs fois le terme (sdxl est sensible aux prompts), pour éviter les extrêmes. Ce paramètre sert aussi à corriger les résultats jaunes avec peu de prompts. Des comparatifs ont été fournis.
3. Réduction de la complexité du modèle. Théoriquement et pratiquement, v5 est plus propre et diverse que ses prédécesseurs, avec une meilleure expressivité grâce à certains prompts. Des comparatifs sont proposés. Le dataset n’était pas trop complexe pour éviter le sur-ajustement, ce qui impacte certains détails.
But : Je souhaite un modèle significativement différent des versions précédentes et pas un quasi-duplica. Vos retours sont une bonne opportunité d’essais. La prochaine version augmentera les matériaux pour divers styles pour mieux fusionner les styles et permettre leur séparation via prompts spécifiques, ce qui demandera de nouvelles techniques d'entraînement. Merci pour vos retours !
Résumé de certains problèmes concernant la version v5.
1. Compatibilité Lora et problèmes avec les membres et yeux flous. J'ai utilisé un poids final trop élevé pour cet entraînement, ce qui peut provoquer un sur-apprentissage dans certains cas. Cette version optimisée réduit ce poids, améliorant la stabilité des membres et la compatibilité avec certains Loras. J'ai fait plusieurs comparaisons avec des Loras entraînés sur v4.1. Le problème des yeux flous vient probablement du style_1, car le matériel d'origine a les yeux flous. Cela peut être amélioré avec style_3 ou 4.
2. Problèmes d'exposition de la lumière volumétrique. Je n'ai pas rencontré ce problème pendant les tests, il est probablement dû à l'utilisation du paramètre de décalage de bruit dans l'entraînement, augmentant la sensibilité du modèle aux mots-clés liés à la lumière, ce qui rend l'image plus lumineuse avec un poids de mot équivalent. Je conseille d'éviter les parenthèses et les nombres pour augmenter le poids, et de répéter plusieurs fois le même mot-clé pour éviter les résultats extrêmes, à cause de la sensibilité de sdxl aux prompts. Ce paramètre sert aussi à corriger la tendance au jaunissement avec peu de mots-clés. J'ai fait plusieurs comparaisons.
3. Réduction de la complexité du modèle. En théorie et en pratique, v5 est un modèle plus propre et plus varié que la version précédente, et avec certains mots-clés, il peut offrir une meilleure précision. J'ai aussi fait plusieurs comparaisons. Le set d'entraînement n'était pas trop complexe car des images trop complexes font sur-apprendre, ce qui fait perdre certains détails.
Objectif : Je souhaite obtenir un modèle bien différent de la version précédente, pas un quasi similaire. Vos retours sont une bonne opportunité de test, car seul, je n'ai pas ce coût d'essais. Dans la prochaine version, j'augmenterai le volume des matériaux de styles différents pour mieux fusionner et séparer ces styles, en utilisant des prompts spécifiques pour les changer, ce qui pourrait demander de nouvelles techniques d'entraînement. Merci pour vos retours !
Détails du modèle
Type de modèle
Modèle de base
Version du modèle
Hash du modèle
Créateur
Discussion
Veuillez vous log in pour laisser un commentaire.