Vanillaware Style PonyXL - v0.1
Prompts recommandés
score_9, score_8_up, score_7_up, <lora:vanillawareStyle:1>, 1girl, solo, looking at viewer, full body, light particles
Prompts négatifs recommandés
thumbnail,3d
3d, bad anatomy, watermark
Paramètres recommandés
samplers
steps
cfg
clip skip
resolution
vae
other models
Paramètres haute résolution recommandés
upscaler
upscale
denoising strength
Conseils
Composez les prompts dans l'ordre : [traits du personnage] + [style] + [expression] + [vêtements] + [caméra et action] + [arrière-plan], modifiez selon les besoins.
Si l'image est floue, ajoutez "thumbnail" aux prompts négatifs et augmentez son poids pour améliorer la clarté.
Ajouter '3d' aux prompts négatifs peut améliorer les résultats.
Ajouter des tags comme 'realistic' ou 'realism' peut renforcer les caractéristiques de la figure.
Ajustez le poids recommandé entre 1.0 et 0.6 pour l'apparence souhaitée du personnage.
Améliorez la qualité du dataset et utilisez un étiquetage soigneux pour un meilleur entraînement.
Placez les tags des images de moindre qualité dans les prompts négatifs pour réduire leur influence lors de la génération.
L'entraînement de ce modèle et les images qu'il génère sont uniquement à des fins d'apprentissage.
Je n'ai rien fait, je suis juste un porteur.
Ce modèle est plus comme un pack de personnages, et son effet secondaire est le style qu'il apporte.
Il a fallu plus de 30 heures de tentatives répétées, durant lesquelles j'ai presque abandonné, mais au final, j'ai obtenu un effet plus équilibré. Le plus important, mon hypothèse d'entraînement a été vérifiée. À l'avenir, je pourrais organiser ces expériences dans un article.
Mais les problèmes de mains restent présents.
Mot déclencheur : vanillastyle
Vous pouvez trouver des exemples de prompts dans les images ci-dessus.
Les prompts de la version précédente du modèle fonctionnaient majoritairement aussi.
Mes prompts sont essentiellement composés dans l'ordre [traits du personnage] + [style] + [expression] + [vêtements] + [caméra et action] + [arrière-plan], vous pouvez les supprimer ou modifier selon les besoins.
S'il y a une situation particulièrement floue, envisagez d'ajouter "thumbnail" aux prompts négatifs et d'augmenter son poids jusqu'à ce que l'image devienne claire.
Ajouter '3d' aux prompts négatifs peut donner un meilleur résultat, tandis qu'ajouter des tags comme 'realistic', 'realism' peut renforcer les caractéristiques de la figure.
Poids recommandé : 1.0~0.6, ajustez selon les besoins jusqu'à ce que l'apparence du personnage corresponde à vos attentes.
La valeur de montée en résolution recommandée est d'environ 1.2~2.0, avec une force de débruitage à 0.2.
Le dataset se concentrait principalement sur les œuvres de George Kamitani.
20240907v0.2
Dans cette version, j'ai tagué plus d'images, et pour le reste, j'ai retiré leurs tags, ne laissant que les mots déclencheurs pour éviter les conflits avec les tags soigneusement posés. (Cette méthode peut être incorrecte.)
Pendant le processus d'entraînement, il y avait trop d'exemples où les images du dataset n'étaient pas représentées avec précision via le prompt. J'ai essayé de changer divers tags et de réentraîner, avec le même résultat. La répétitivité de ces images dans le dataset n'est pas élevée non plus, manquant de continuité.
Enfin, j'ai lu un article mentionnant d'augmenter le nombre de répétitions d'entraînement pour certains personnages afin d'éviter que le modèle n'apprenne pas suffisamment ces images.
Donc, j'ai placé toutes les images uniques du dataset dans un sous-dossier, défini les répétitions d'entraînement à 2, et laissé inchangées les images déjà bien apprises.
Cependant, comme il y a pas mal de problèmes de qualité avec ces images discontinues, et que je ne les ai pas réparées pour l'instant, augmenter leurs répétitions d'entraînement a eu un certain impact sur le style global.
Pour la prochaine version d'amélioration, l'approche la plus fondamentale est d'améliorer la qualité du dataset, et aussi de bien utiliser les techniques de captioning, en ajoutant le même tag aux images de qualité un peu inférieure, puis en les plaçant toutes dans le prompt négatif lors de l'exécution du modèle.
20240715v0.1
Ce modèle ne peut être considéré que comme v0.1, il n'est pas très facile à utiliser normalement, et je pense qu'il est préférable de taguer plus d'images du dataset en détail pour de meilleurs résultats. À l'avenir, je pourrais compléter lentement l'entraînement de ce modèle.
Les performances de cette version ne sont pas très bonnes, les images qu'il génère peuvent souvent apparaître chaotiques.
J'ai collecté plus de 100 images comme dataset, mais le nombre est encore trop élevé pour un étiquetage manuel. J'ai initialement utilisé wd1.4 pour taguer toutes les images, mais la qualité de ces tags n'est pas encore bonne (peut-être que mon usage n'est pas assez correct, et j'accueille volontiers vos suggestions).
Parce que je voulais voir rapidement les résultats, pour ce dataset, je n'ai tagué manuellement que quelques images correspondant à mes préférences personnelles, donc l'effet de sortie du modèle sera meilleur pour ces images.
Détails du modèle
Discussion
Veuillez vous log in pour laisser un commentaire.






