modelos/Tponynai3 - v51weight optimizado

Tponynai3 - v51weight optimizado

Marta García

5/23/2025

1:34:51 AM

| Discussion

Palabras Clave y Etiquetas Relacionadas

61cc7615e2,89e7c7518c,ac17f32d24,anime,modelo base,punto de control,nai,nai3,pony,tonade,tponynai3

Chica escolar anime con cabello negro corto, uniforme marinero con lazo rojo, de pie en un aula con un brazo levantado. Generado por AI Stable Diffusion.

Imagen generada por IA de una colegiala anime con cabello oscuro corto, usando un uniforme de marinero, bailando entusiastamente en un escenario con cortinas rojas usando Stable Diffusion.

Una imagen generada por IA usando Stable Diffusion de una chica anime con uniforme escolar, haciendo el signo de la paz.

Imagen generada por IA de una chica anime con un disfraz de chica mágica rosa usando Stable Diffusion.

Un guerrero conejo robótico con una espada en una escena post-apocalíptica. Imagen generada por IA usando Stable Diffusion.

Imagen estilo anime de una chica linda con cabello blanco y alas de ángel sentada en la barra. Lleva un vestido blanco y tiene un halo brillante sobre su cabeza. Imagen generada por AI usando stable diffusion.

Un ángulo dinámico de una chica anime con cabello negro y verde, vistiendo un vestido turquesa y sosteniendo un par de gafas de sol. Esta es una imagen generada por IA usando stable diffusion.

Una bruja anime de temática oscura de pie sobre un círculo mágico brillante con energía mística irradiando de sus manos. Generado usando stable diffusion.

Una imagen generada por AI de una bruja estilo anime con un sombrero azul y cabello castaño leyendo un libro mágico en una habitación iluminada por velas, creada usando Stable Diffusion.

Bruja de anime con sombrero y vestido negro, corriendo alegremente en una habitación mágica iluminada por velas. Imagen generada por AI usando Stable Diffusion.

Diseño de personaje de anime generado por IA con cabello plateado corto, ojos dorados, acentos amarillos y un atuendo detallado.

Una chica de anime genial con cabello rubio en pose de señal de paz, generada por IA usando Stable Diffusion.

Prompts Recomendados

score_9,score_8_up,score_7_up

score_8_up,score_7_up,1girl

Prompts Negativos Recomendados

score_4,score_3,score_2,worst quality, bad hands, bad feet

score_3,score_2,ugly

Parámetros Recomendados

samplers

Euler a

steps

cfg

clip skip

resolution

776x1072, 848x1072, 864x1192, 616x936, 696x1272, 712x1064

other models

T-ponynai3-v5.1 (ac17f32d24), T-ponynai3-v4.1 (0b3046dd73), T-ponynai3-v5 (61cc7615e2), tpony-style-v2 (e9eed2af18)

Parámetros Recomendados de Alta Resolución

upscaler

R-ESRGAN 4x+ Anime6B

upscale

1.5 - 2

steps

denoising strength

0.3

Consejos

Usa high-fix a resolución moderada para mejores resultados.

Prueba style_3 o 4 para mejorar el detalle de los ojos.

Aspectos Destacados de la Versión

Hago un resumen de algunos problemas de la versión v5.

1. Compatibilidad con lora y problemas con extremidades y ojos borrosos. Usé un peso final demasiado alto para lora en este entrenamiento, lo que puede causar sobreajuste. Esta versión optimizada baja esos pesos, mejorando la tasa de colapso en extremidades y la compatibilidad con algunas loras. He subido algunos gráficos comparativos usando lora entrenados con estilo v4.1 como referencia. El problema de ojos borrosos probablemente se deba a que entrené con style_1; el material original tiene ojos borrosos, puede mejorarse usando style_3 o 4.

2. Problemas de exposición de luz volumétrica. No tuve este problema durante las pruebas; probablemente se deba al parámetro noise offset que usé, que aumenta la sensibilidad del modelo a palabras relacionadas con luz, haciendo que con el mismo peso las indicaciones de luz generen resultados más brillantes. Recomiendo no usar paréntesis ni números para aumentar peso. Debido a la sensibilidad de sdxl, puedes probar repetición múltiple del mismo prompt para evitar resultados extremos. Este parámetro también corrige el problema de tonos amarillentos con pocos prompts; he subido gráficos comparativos para referencia.

3. Problema de reducción en la complejidad del modelo. En teoría y práctica, v5 debería ser un modelo más limpio y diverso que versiones anteriores, logrando mayor precisión con ciertas palabras clave. También subí gráficos comparativos. El conjunto de entrenamiento no usó materiales excesivamente complejos, ya que creo que imágenes muy complejas llevan a sobreajuste y pérdida de detalles.

Objetivo: Espero obtener un modelo significativamente diferente a versiones previas, no lanzar uno casi idéntico. Esta retroalimentación es una gran oportunidad de prueba y error, y yo solo no puedo enfrentar todo el costo de prueba. En la próxima versión intentaré aumentar la cantidad de materiales para diferentes estilos, lograr que se fusionen bien y puedan separarse, permitiendo cambiar estilos con prompts específicos, posiblemente requiriendo nuevas técnicas de entrenamiento. ¡Gracias por sus comentarios!

Summarize some issues regarding the v5 version.

1, Lora compatibility and issues with limbs and blurred eyes. Lora compatibility is that I used too much final weight for this training, and in some cases, overfitting may occur. This optimized version is the one that reduces the corresponding weight, and the limb collapse rate and compatibility with some Loras should be better. I have run several comparison charts of Loras trained with v4.1 for reference. The problem of blurred eyes should be the reason why I trained style_1. The eyes in the original material used are blurry, and can be improved by using style_3 or 4.

2. Exposure issues with volume light. I did not encounter this issue during testing, and the reason for it should be that I used the noise offset training parameter to increase the sensitivity of the model to light related prompt words, resulting in brighter results when the same weight of light prompt words were used. I suggest trying not to use parentheses and numbers to increase the weight. Due to the sensitivity of sdxl to prompt words, you can try repeating the same prompt words multiple times to avoid extreme results. At the same time, using this parameter is to fix the problem of generating yellow results under a small number of prompt words. I have run several comparison graphs for reference.

3. The problem of reduced model complexity. In theory and in practice. V5 should be a cleaner and more diverse model than the previous version, and with the help of some prompts, it should be able to achieve more accurate performance. Similarly, I ran several comparison charts for comparison. This training set did not use overly complex materials because I believe that overly complex images tend to overfit the results, which inevitably leads to a certain degree of detail loss.

Purpose: I hope to obtain a model that is significantly different from the previous version, rather than releasing a model that is almost identical to the previous version. This feedback from everyone is a great opportunity for trial and error, and I really don't have any trial and error costs on my own. In the next version, I will try to increase the amount of materials for different art styles, so that the art styles of different materials can be well integrated and separated. Using specific prompts to switch art styles may require some new training techniques. Thank you for your feedback!

Patrocinadores del Creador

[No verificado] Tonade está creando el modelo T-ponynai3, ID en c站: Tonade, | 爱发电 (afdian.net )

Este es el canal de patrocinio en 爱发电, si te gusta el modelo y tienes la posibilidad, ¡por favor apóyalo! No te sientas obligado, agradezco cada apoyo y seguiré trabajando para mejorar el modelo.

Número de grupo pequeño QQ personal 929721518, si tienes preguntas sobre tpony puedes unirte para consultar. Recuerda mencionar que es de c站.

El modelo ya incluye vae, no es necesario añadir uno adicional

The model already has included vae, there is no need to add additional vae

La mejor estrategia para generar imágenes es usar una resolución moderada con reparación de alta calidad, en vez de usar directamente salida a gran resolución

The best generate strategy is to use high-fix at a moderate resolution, rather than directly using high-resolution direct output

[No verificado] Tonade está creando el modelo T-ponynai3, ID en c站: Tonade, | 爱发电 (afdian.net )

Este es el canal de patrocinio en 爱发电, si te gusta el modelo y tienes la posibilidad, ¡por favor apóyalo! No te sientas obligado, agradezco cada apoyo y seguiré trabajando para mejorar el modelo.

(33) T-ponynai3-v5 - (versión modificada del peso) | Stable Diffusion Checkpoint | 吐司 tusi.cn (tusiart.com) enlace de generación en línea tusiart (versión china tensor)

(Como el modelo solo puede existir simultáneamente en Tusi y Tensor, es mejor usarlo en Tusi. Si hay algún problema con su uso, por favor háganmelo saber)

La versión v5 agregó 4 nuevos estilos, que pueden usarse para afinar los detalles de la imagen mediante style_1 a style_4 (teóricamente es así, pero el efecto real es algo esotérico)

La versión V5 añadió 4 nuevos estilos, que pueden usarse para afinar los detalles de la imagen a través de style_1 a style_4 (teóricamente es así, pero el efecto real es más místico o menor)

Este modelo soporta perfectamente lora entrenados con ponyv6 como modelo base, y el Lora de ani3 y sdxl1.0 también puede adaptarse en cierta medida.

This model perfectly supports lora trained with ponyv6 as the base model, and the Lora of ani3 and sdxl1.0 can also be adapted to some extent.

Pruebas de imagen a imagen basadas en v4.1 (esto se había pasado por alto en versiones anteriores)

Image inpaint testing based on v4.1 (this is a previously overlooked part)

Pony es dios, compatibilidad perfecta. Este modelo soporta lora de ani y pony

Palabras clave predefinidas indispensables iguales a ponydiffusion

positivo:(score_9,score_8_up,score_7_up,score_6_up,score_5_up,score_4_up)

O (score_9,score_8_up,score_7_up)

Negativo opcional:

negativo: (score_4,score_3,score_2,score_1),

También se pueden añadir palabras negativas normales del estilo nai, por ejemplo:

negativo: peor calidad, malas manos, pies malos

Espero que te guste ᕕ(◠ڼ◠)ᕗ basado en nai3 y ponyv6

Instrucciones de entrenamiento: v1 usó 94 imágenes, v2 usó 119, v3 usó 348, v3.5 usó 474, imágenes generadas por nai3, entrenando lora integrado en el modelo base para ajuste fino. Se soportan todos los tags de artistas que ponyv6 soporta; usar más de dos tags puede causar fallos en el fondo. Actualmente puede generar personajes de Genshin Impact, otros no se han probado. El modelo base es una fusión de T-anime-xl, ponyv6 y ani3, aún no lanzado.

La tarjeta gráfica usada para entrenar fue mi propia 3090, con tiempos de 7, 12, 35 y 47 horas para v1 a v3.5 respectivamente.

Instrucciones de entrenamiento: Merge Lora utilizó 94 imágenes para v1, 119 para v2, 348 para v3, 474 para v3.5, generadas por NAI3 para entrenar el modelo base para ajuste fino. Pony soporta todas las etiquetas de artistas que ponyv6 ya tiene, pero no hay etiquetas adicionales de nai3. Usar más de dos etiquetas de artistas puede causar fallos en el fondo. Actualmente se ha encontrado que puede generar personajes de Genshin Impact. No conozco los demás. No he probado mucho este modelo. Maravilla en su reproducción del estilo de pintura de NAI3. El modelo base es un modelo de fusión de T-anime-xl, ponyv6 y ani3 que no ha sido lanzado.

La tarjeta gráfica usada para el entrenamiento fue mi 3090 personal, con duraciones de 7, 12, 35 y 47 horas de v1 a v3.5 respectivamente.

v1

Un intento interesante

An interesting attempt

v2

En base a v1, se aumentó ligeramente el conjunto de entrenamiento y se hicieron alrededor de 30 horas de prueba y error de parámetros, pero el estilo de dibujo entrenado todavía tiene algo de sobreajuste, como doble ombligo y cabello desordenado

On the basis of v1, the training set was slightly increased and went through about 30 hours of trial and error, but the trained art style still had some overfitting, such as double navel eyes and messy hair

v3

Las extremidades de v3 son mejores que las de v2. En cuanto al enfoque en pies, v3 puede generar pies con mayor impacto visual y perspectivas de mayor dificultad. La sensación de AI en el cabello de v3 es menor que en v2, porque v2 tiene un conjunto de entrenamiento muy pequeño, por lo que puede haber algo de sobreajuste en el cabello. Además, el ocasional doble ombligo que aparecía en v2 ya no está. En general, el tamaño del conjunto de entrenamiento es tres veces mayor que v2 y el parámetro dim mayor hacen que el estilo de dibujo sea más natural; la expresión bajo prompts largos es mucho mejor que v2.

The limbs of v3 are better than those of v2. In terms of understanding footfocus, v3 can generate feet with greater visual impact and higher difficulty perspective. The AI feeling of v3's hair is also weaker than that of v2, because v2 has too little training set, so the hair part may be slightly overfitting, and the occasional double navel eyes that appear in v2 are also gone. Overall, three times the size of the v2 training set and a larger dim parameter make the art style fit more natural, and the performance is much stronger than v2 under long prompts.

v3.5

En esta versión, las exigencias para las palabras de calidad no son tan estrictas, no es necesario usar las palabras de calidad basadas en la puntuación estética de pony para generar imágenes; ocasionalmente aparecerán bloques de color sin sentido, solo hay que reemplazar las palabras de calidad por las usualmente usadas en 1.5, por ejemplo score_1, score_2 por worst quality. En esta versión añadí unas 150 imágenes adicionales para equilibrar y enriquecer el estilo, y reduje la pendiente inicial de la curva de aprendizaje, haciendo que el modelo tenga menos sobreajuste, pueda adaptarse a más loras y prompts creativos. En general, esta versión es más libre que v3, y la representación de personajes masculinos es mejor. Los colores y estilos bajo ciertos prompts no son tan brillantes ni grasosos.

In this version, the requirements for quality words are not so strict, you can completely not to use the quality words of pony's aesthetic score to plot the picture, and occasionally there will be a situation where the picture generates meaningless color blocks in the test, you only need to replace the quality words of the aesthetic score with 1.5 commonly used quality words, such as score_1, score_2 replace it with worst quality. En esta versión añadí alrededor de 150 conjuntos de entrenamiento para balancear y enriquecer el estilo, y reduje la pendiente inicial de la curva de aprendizaje, haciendo que el modelo no sobreentrene tanto, lo que permite adaptar más loras y prompts creativos. En general, esta versión es más libre que la v3, y es mucho mejor para retratos masculinos, con colores y estilo menos brillantes y grasosos en determinados prompts.

v4

Esta versión usó 798 imágenes como material de entrenamiento y entrenó durante 90 horas con una GPU 3090. Comparada con v3.5, tiene composiciones y detalles más precisos en ciertas partes, como el efecto fantasma en los dedos y solapamientos en algunas partes del cuerpo. En cuanto a los prompts, mi objetivo principal fue usar prompts de longitud media o ligeramente corta, ya que nadie quiere escribir un texto largo para obtener buenas imágenes. Tras eliminar la palabra de calidad en la puntuación estética de pony, la calidad de la imagen ha mejorado significativamente respecto a v3.5, tendiendo a un estilo más plano que tridimensional, más cercano al anime clásico. La prueba con respecto a la cantidad de imágenes para el ajuste fino de ponyv6 está casi finalizada. El siguiente paso es trabajar con etiquetas de entrenamiento para los prompts, e intentar añadir más prompts configurables en el limitado número de materiales de pony (como añadir puntuaciones estéticas; la lógica actual usa palabras de calidad generales para cubrir las de pony). También añadiremos nuevos materiales de entrenamiento apropiados, como para escenas y más para pies (los actuales en v4 parecen escasos).

This version used 798 images as training materials and trained for 90 hours using a 3090 graphics card. This version has a more accurate composition and depiction of certain parts in certain prompts compared to v3.5, such as ghosting of fingers and overlapping of some body parts. In terms of prompts, my main training goal is to use medium and slightly shorter prompts, as nobody likes to write a long string of prompts to generate high-quality images, right? After removing the quality prompt of Pony's aesthetic score, the image quality has been significantly improved compared to v3.5, and the resulting quality tends to be more flat rather than three-dimensional, closer to the classic anime style. The testing of the fine-tuning effect of Ponyv6 on the number of images is nearing completion. The next step is to start with the training labels of prompts and try to add more adjustable prompts to Pony's limited number of single training materials (such as adding aesthetic scores, the current training logic still uses mainstream quality words to cover Pony's aesthetic score quality words), and continue to add suitable new training materials, such as scene training materials and more foot training materials (v4's foot training materials seem to be a bit scarce).

v4.1

Disculpo a todos los usuarios por lanzar una nueva versión en tan poco tiempo, esto pone a prueba la memoria del ordenador y la velocidad de red. O_O

Firstly, I would like to apologize to all users for the release of a new version in such a short period of time, which greatly tests the computer's memory and network speed. O_O

Esta nueva versión está basada en v4 con ajustes en extremidades, porque en v4 el control era difícil y la perfección en las manos no cumplió mis expectativas tras pruebas recientes. Entonces mi amigo 木猫猫猫 y yo hicimos ajustes y mejoras, logrando que las extremidades de v4.1 cumplan mis expectativas. Publicaré varios gráficos xy para mostrar claramente la mejora de v4.1 respecto a v4 bajo los mismos parámetros.

This new version is based on the limb debugging version of v4. Due to the difficulty in controlling the limb effects of v4, the perfection rate of the hands did not meet my testing expectations in the past few days. So my friend 木猫猫猫 and I made some adjustments and improvements to v4, which ultimately made the limbs of v4.1 meet my expectations. I will release several xy graphs to clearly show the improvement of v4.1 compared to v4 under the same parameters.

v5

En esta versión reduje el material de entrenamiento. Debido al fracaso de v4, lancé otro proyecto para probar mi idea desde el punto de vista del bajo uso de VRAM, entrenando cuatro estilos artísticos distintos de lora adaptados a T-ponynai3; claro que el modelo original también fue subido a Civitai. Tras probar la adaptabilidad, empecé a entrenar estos cuatro estilos como aditivos en T-ponynai3-v5. Sorprendentemente, la textura de las líneas mejoró mucho, probablemente porque entrené con un material muy delicado. Para marcar estos cuatro estilos, usé las palabras de prompt style_1 a style_4. Lamentablemente, no sé por qué estos cuatro estilos no se separaron o su efecto es débil, fusionándose bien en el estilo original. Aunque no se logró el objetivo de soportar múltiples estilos, se mejoró la textura del estilo Nai3 original a un nivel superior. Tal vez en la próxima versión lo intente más. (Me gusta mucho jugar, y es muy difícil no poder jugar en la computadora mientras entreno.)

The training materials for this version have been reduced. Due to the failure of v4, I launched another project to test my idea from a small perspective of memory usage, which is to train four different art styles of Lora adapted to T-ponynai3. Of course, the original model was also uploaded to Civitai. After testing the adaptability, I started training these four different art styles as additives into T-ponynai3-v5. Surprisingly, The line texture of v5 has improved to a high level, probably because I trained a very delicate material. For the marking of these four art styles, I used the prompt words from style_1 to style_4. Unfortunately, for some reason, these four art styles were not separated or the effect was weak, but rather integrated well into the original art style. Although it did not achieve the goal of supporting multiple art styles, it effectively elevated the texture of the original Nai3 art style to a higher level. Perhaps the next version can try to take it even further. (I really enjoy playing games, and it's too difficult for me to play computer games every time I train.)

Hago un resumen de algunos problemas de la versión v5.

Summarize some issues regarding the v5 version.