modele/Tponynai3 - v51weight optimized

Tponynai3 - v51weight optimized

|
5/23/2025
|
1:28:05 AM
| Discussion

Zalecane podpowiedzi

score_9,score_8_up,score_7_up

score_8_up,score_7_up,1girl

Zalecane negatywne podpowiedzi

score_4,score_3,score_2,worst quality, bad hands, bad feet

score_3,score_2,ugly

Zalecane parametry

samplers

Euler a

steps

25

cfg

7

clip skip

2

resolution

776x1072, 848x1072, 864x1192, 616x936, 696x1272, 712x1064

other models

T-ponynai3-v5.1 (ac17f32d24), T-ponynai3-v4.1 (0b3046dd73), T-ponynai3-v5 (61cc7615e2), tpony-style-v2 (e9eed2af18)

Zalecane parametry wysokiej rozdzielczości

upscaler

R-ESRGAN 4x+ Anime6B

upscale

1.5 - 2

steps

10

denoising strength

0.3

Wskazówki

Używaj wysokiej poprawy przy umiarkowanej rozdzielczości dla najlepszych wyników.

Spróbuj style_3 lub 4, aby poprawić detale oczu.

Najważniejsze informacje o wersji

Podsumowanie niektórych problemów wersji v5.

1. Kompatybilność lora oraz problemy z kończynami i rozmytymi oczami. Kompatybilność lora wynikła z użycia zbyt wysokiej wagi końcowej w tym treningu, co czasem powoduje overfitting. Ta wersja optymalizowana zmniejsza odpowiadające wagi, co powinno poprawić wskaźnik błędów kończyn i kompatybilność z niektórymi lora; przygotowałem kilka porównań ilustrujących to na podstawie lora trenowanych na bazie v4.1. Rozmycie oczu to chyba skutek trenowania style_1, bo oryginalne materiały bazowe mają rozmyte oczy; można użyć style_3 lub 4, żeby to poprawić.

2. Problem ekspozycji volumetrycznego światła. Nie spotkałem tego w testach; prawdopodobnie przyczyną jest użycie parametru noisy offset treningu, który zwiększył czułość modelu na prompty związane ze światłem, przez co przy stałych wagach promptów świetlnych obraz jest jaśniejszy. Proponuję próbować nie używać nawiasów i cyfr do podnoszenia wagi; z powodu wysokiej czułości sdxl na prompty można eksperymentować z wielokrotnym powtarzaniem tych samych słów, żeby uniknąć skrajnych rezultatów. Ten parametr służy też naprawie problemu żółknięcia generowanych obrazów przy niewielu promptach, dla porównania przygotowałem kilka grafik.

3. Problem obniżenia złożoności modelu. Teoretycznie i praktycznie v5 jest czyściejszym i bardziej różnorodnym modelem niż poprzednie, pod wpływem niektórych promptów powinien oferować precyzyjniejszą ekspresję; przygotowałem kilka grafik porównawczych. Ten zbiór treningowy nie zawiera nadmiernie złożonych materiałów, bo uważam, że zbyt skomplikowane obrazy powodują overfitting, co niesie ze sobą utratę detali.

Cel: Chcę uzyskać model wyraźnie różniący się od poprzedniej wersji, a nie niemal identyczny. Wasza informacja zwrotna to dobra okazja do eksperymentów, samodzielnie miałbym zbyt mało możliwości testowania. W następnej wersji spróbuję zwiększyć ilość materiałów rozmaitych stylów, aby lepiej je łączyć i rozdzielać, a także używać specjalnych promptów do przełączania stylów; może to wymagać nowych technik treningowych. Dziękuję za Wasz feedback!

Summarize some issues regarding the v5 version.

1, Lora compatibility and issues with limbs and blurred eyes. Lora compatibility is that I used too much final weight for this training, and in some cases, overfitting may occur. This optimized version is the one that reduces the corresponding weight, and the limb collapse rate and compatibility with some Loras should be better. I have run several comparison charts of Loras trained with v4.1 for reference. The problem of blurred eyes should be the reason why I trained style_1. The eyes in the original material used are blurry, and can be improved by using style_3 or 4.

2. Exposure issues with volume light. I did not encounter this issue during testing, and the reason for it should be that I used the noise offset training parameter to increase the sensitivity of the model to light related prompt words, resulting in brighter results when the same weight of light prompt words were used. I suggest trying not to use parentheses and numbers to increase the weight. Due to the sensitivity of sdxl to prompt words, you can try repeating the same prompt words multiple times to avoid extreme results. At the same time, using this parameter is to fix the problem of generating yellow results under a small number of prompt words. I have run several comparison graphs for reference.

3. The problem of reduced model complexity. In theory and in practice. V5 should be a cleaner and more diverse model than the previous version, and with the help of some prompts, it should be able to achieve more accurate performance. Similarly, I ran several comparison charts for comparison. This training set did not use overly complex materials because I believe that overly complex images tend to overfit the results, which inevitably leads to a certain degree of detail loss.

Purpose: I hope to obtain a model that is significantly different from the previous version, rather than releasing a model that is almost identical to the previous version. This feedback from everyone is a great opportunity for trial and error, and I really don't have any trial and error costs on my own. In the next version, I will try to increase the amount of materials for different art styles, so that the art styles of different materials can be well integrated and separated. Using specific prompts to switch art styles may require some new training techniques. Thank you for your feedback!

Sponsorzy twórcy

[Niezweryfikowany] Tonade tworzy model T-ponynai3, id c站: Tonade, | 爱发电 (afdian.net)

To jest kanał wsparcia na 爱发电, jeśli model jest przydatny i masz możliwości, możesz go wesprzeć! Nie zmuszaj się, dziękuję za każde wsparcie, będziemy dalej eksplorować jak ulepszyć model!

929721518本人的qq小群群号,有啥不会的关于tpony的问题可以进来问。记得备注c站哦

Model już zawiera wbudowane vae, nie trzeba dodawać kolejnego vae

The model already has included vae, there is no need to add additional vae

Najlepsza strategia generowania to umiarkowana rozdzielczość z wysoką poprawą, a nie używanie bezpośrednio dużej rozdzielczości

The best generate strategy is to use high-fix at a moderate resolution, rather than directly using high-resolution direct output

[Niezweryfikowany] Tonade jest twórcą modelu T-ponynai3, id c站: Tonade, | 爱发电 (afdian.net)

To jest kanał wsparcia na 爱发电, jeśli model jest przydatny i masz możliwości, możesz go wesprzeć! Nie zmuszaj się, dziękuję za każde wsparcie, będziemy dalej eksplorować jak ulepszyć model!

(Ponieważ model może istnieć jednocześnie tylko na Tusi i Tensor, lepiej jest go używać na Tusi. Jeśli są jakieś problemy z jego użyciem, proszę zgłaszajcie je do mnie)

Wersja v5 dodała 4 nowe style, które można użyć do drobnego dostrojenia detali obrazu przez style_1 do style_4 (teoretycznie jest to możliwe, w praktyce efekt jest bardziej mistyczny)

Wersja v5 dodała 4 nowe style, które można używać do fine tuningu detali obrazu przez style_1 do style_4 (teoretycznie jest tak, ale rzeczywisty efekt jest bardziej mistyczny lub słabszy)

Model w pełni wspiera modele Lora trenowane na bazie ponyv6, a Lora z ani3 i sdxl1.0 również jest w pewnym stopniu kompatybilna

This model perfectly supports lora trained with ponyv6 as the base model, and the Lora of ani3 and sdxl1.0 can also be adapted to some extent.

Test inpaintingu na bazie v4.1 (to jest część wcześniej pomijana w poprzednich wersjach)

Image inpaint testing based on v4.1 (this is a previously overlooked part)

pony to bóstwo, pełna kompatybilność. Model wspiera lora ani i pony

Nieodzowne przedrostki i efekty jak w ponydiffusion

positive:(score_9,score_8_up,score_7_up,score_6_up,score_5_up,score_4_up)

ALBO (score_9,score_8_up,score_7_up)

Negatywne można dodać:

negative: (score_4,score_3,score_2,score_1),

Można też dodać standardowe słowa negatywne z nai, na przykład:

negative: worst quality, bad hands, bad feet

Mam nadzieję, że się spodoba ᕕ(◠ڼ◠)ᕗ bazowane na nai3 i ponyv6

Wskazówki do trenowania: v1 użyłem 94 obrazów, v2 119, v3 348, v3.5 474, obrazy wygenerowane przez nai3, ztrainowałem lora, która została wtopiona z bazowym modelem do fine tuningu; pony wspiera tagi artystów z ponyv6, ale nie dodałem dodatkowych tagów z nai3. Użycie więcej niż dwóch tagów artystów może powodować błędy w tle. Znaleziono, że potrafi generować postacie z Genshin Impact, innych nie znam. Mało testowałem ten model, jestem pod wrażeniem odwzorowania stylu malarskiego nai3. Bazowy model to połączenie T-anime-xl, ponyv6 i ani3, nie został opublikowany.

Do trenowania użyłem własnej karty graficznej 3090, na v1-v3.5 poświęciłem odpowiednio 7, 12, 35 i 47 godzin.

Instrukcje trenowania: Łączona Lora używała 94 obrazków dla v1, 119 dla v2, 348 dla v3, 474 dla v3.5, wygenerowanych przez NAI3 do trenowania bazowego modelu do fine tuningu. Pony wspiera wszystkie tagi artystów które ma ponyv6, ale nie dodałem dodatkowych tagów z nai3. Użycie więcej niż dwóch tagów artystów może powodować błędy w tle. Aktualnie potwierdzono, że może generować postacie z Genshin Impact. Innych nie znam. Mało testowałem ten model. Jestem pod wrażeniem odwzorowania stylu malarskiego NAI3. Bazowy model to połączenie T-anime-xl, ponyv6 i ani3, nieopublikowany.

Do trenowania użyłem własnej karty 3090, czas treningu od v1 do v3.5 wyniósł odpowiednio 7, 12, 35 i 47 godzin.

v1

Ciekawa próba

An interesting attempt

v2

Na bazie v1 lekko zwiększono zbiór treningowy i przeszło około 30 godzin prób i błędów, ale styl nadal ma przetrenowanie, np. podwójne pępki i nieuporządkowane włosy

On the basis of v1, the training set was slightly increased and went through about 30 hours of trial and error, but the trained art style still had some overfitting, such as double navel eyes and messy hair

v3

Kończyny w v3 są lepsze niż w v2. W ramach rozumienia footfocus v3 generuje bardziej uderzające wizualnie stopy i trudniejsze perspektywy. Ai w odczuciu włosów v3 jest słabszy niż v2, ponieważ zbiór treningowy v2 był zbyt mały, co prowadziło do przetrenowania włosów, a także zniknął efekt podwójnych pępków, który zdarzał się w v2. Ogólnie trzy razy większy zbiór treningowy i większy parametr dim sprawiają, że styl jest bardziej naturalny i dużo lepszy pod długimi promptami niż v2.

The limbs of v3 are better than those of v2. In terms of understanding footfocus, v3 can generate feet with greater visual impact and higher difficulty perspective. The AI feeling of v3's hair is also weaker than that of v2, because v2 has too little training set, so the hair part may be slightly overfitting, and the occasional double navel eyes that appear in v2 are also gone. Overall, three times the size of the v2 training set and a larger dim parameter make the art style fit more natural, and the performance is much stronger than v2 under long prompts.

v3.5

W tej wersji wymagania wobec słów jakości nie są tak rygorystyczne, można całkowicie nie używać słów jakości oceny estetycznej pony do generowania obrazów; w testach pojawiają się czasem bezsensowne plamy barwne, wystarczy zamienić słowa jakości oceny estetycznej na popularne w 1.5, np. score_1, score_2 na worst quality. W tej wersji dodałem około 150 dodatkowych obrazów treningowych, by zrównoważyć i wzbogacić styl, a także zmniejszyłem początkowe nachylenie krzywej uczenia, co zredukowało overfitting i umożliwiło lepszą adaptację z wieloma lora i nietypowymi promptami. Ogólnie jest to bardziej swobodna wersja niż v3, i lepiej radzi sobie z kształtem męskich postaci; kolory i styl przy niektórych promptach nie są tak jaskrawe i tłuste jak w v3.

In this version, the requirements for quality words are not so strict, you can completely not to use the quality words of pony's aesthetic score to plot the picture, and occasionally there will be a situation where the picture generates meaningless color blocks in the test, you only need to replace the quality words of the aesthetic score with 1.5 commonly used quality words, such as score_1, score_2 replace it with worst quality. In this version, I added about 150 more training sets to balance and enrich the art style, and reduced the initial slope of the learning curve, which makes this model less overfitted and can be adapted to more lora and whimsical prompts. Overall, this version is a freer version than the v3 version, and this version is much stronger than the v3 version, and the colors and style of painting under some hints are not so bright and greasy.

v4

Ta wersja użyła 798 obrazów jako materiał treningowy i trenowała 90 godzin na karcie 3090. W porównaniu do v3.5, kompozycja i detale niektórych części są bardziej precyzyjne, np. efekt duchów na palcach i nakładanie się części ciała. Głównie trenowałem na średniej i krótszej długości promptach, bo nikt nie lubi pisać bardzo długich, aby uzyskać dobre obrazy, prawda? Po usunięciu jakościowych promptów z oceny estetycznej pony, jakość obrazu znacznie wzrosła względem v3.5, a efekt bardziej przypomina klasyczny styl anime o płaskim wyglądzie niż trójwymiarowy. Testy dostrajania ponyv6 pod kątem liczby obrazów zbliżają się do końca. Następnym krokiem będzie praca nad etykietami treningowymi promptów i próba dodania więcej regulowanych promptów przy ograniczonych danych treningowych pony (np. dodanie oceny estetycznej, obecnie trening pokrywa estetykę pony typowymi słowami jakości) oraz kontynuacja dodawania odpowiednich nowych materiałów, np. scen i materiałów do treningu stóp (materiały treningowe stóp w v4 są nieco skąpe).

This version used 798 images as training materials and trained for 90 hours using a 3090 graphics card. This version has a more accurate composition and depiction of certain parts in certain prompts compared to v3.5, such as ghosting of fingers and overlapping of some body parts. In terms of prompts, my main training goal is to use medium and slightly shorter prompts, as nobody likes to write a long string of prompts to generate high-quality images, right? After removing the quality prompt of Pony's aesthetic score, the image quality has been significantly improved compared to v3.5, and the resulting quality tends to be more flat rather than three-dimensional, closer to the classic anime style. The testing of the fine-tuning effect of Ponyv6 on the number of images is nearing completion. The next step is to start with the training labels of prompts and try to add more adjustable prompts to Pony's limited number of single training materials (such as adding aesthetic scores, the current training logic still uses mainstream quality words to cover Pony's aesthetic score quality words), and continue to add suitable new training materials, such as scene training materials and more foot training materials (v4's foot training materials seem to be a bit scarce).

v4.1

Przepraszam użytkowników za wydanie nowej wersji w tak krótkim czasie, to mocno testuje pamięć komputera i prędkość internetu. O_O

Firstly, I would like to apologize to all users for the release of a new version in such a short period of time, which greatly tests the computer's memory and network speed. O_O

Nowa wersja opiera się na wersji debugowania kończyn z v4. Z powodu trudności w kontrolowaniu efektów kończyn w v4, stopień perfekcji rąk nie spełnił moich oczekiwań testowych. Więc ja i mój przyjaciel 木猫猫猫 dokonaliśmy kilku regulacji i ulepszeń v4, ostatecznie osiągając poziom oczekiwany dla kończyn w v4.1. Udostępnię kilka wykresów xy, żeby jasno pokazać poprawę v4.1 względem v4 przy tych samych parametrach.

This new version is based on the limb debugging version of v4. Due to the difficulty in controlling the limb effects of v4, the perfection rate of the hands did not meet my testing expectations in the past few days. So my friend 木猫猫猫 and I made some adjustments and improvements to v4, which ultimately made the limbs of v4.1 meet my expectations. I will release several xy graphs to clearly show the improvement of v4.1 compared to v4 under the same parameters.

v5

W tej wersji zmniejszyłem materiały treningowe. Z powodu niepowodzenia v4 rozpocząłem nowy projekt, by przetestować pomysł pod kątem małego użycia pamięci, trenując cztery różne style lora dopasowane do T-ponynai3, oryginalny model również załadowałem na civitai. Po teście kompatybilności zacząłem trenować te cztery style jako dodatki do T-ponynai3-v5. Co zaskakujące, linia w v5 znacznie się poprawiła, pewnie dzięki bardzo delikatnym materiałom treningowym. Do oznaczenia tych czterech stylów użyłem promptów style_1 do style_4. Niestety z niewiadomych przyczyn te style nie rozdzieliły się albo efekt był słaby, zamiast tego dobrze scaliły się z oryginalnym stylem. Choć nie osiągnięto wsparcia dla wielu stylów, tekstura oryginalnego stylu nai3 znacząco się poprawiła, może w następnej wersji pójdę dalej. (Bardzo lubię grać w gry, trudno mi się powstrzymać od gry podczas treningu.)

The training materials for this version have been reduced. Due to the failure of v4, I launched another project to test my idea from a small perspective of memory usage, which is to train four different art styles of Lora adapted to T-ponynai3. Of course, the original model was also uploaded to Civitai. After testing the adaptability, I started training these four different art styles as additives into T-ponynai3-v5. Surprisingly, The line texture of v5 has improved to a high level, probably because I trained a very delicate material. For the marking of these four art styles, I used the prompt words from style_1 to style_4. Unfortunately, for some reason, these four art styles were not separated or the effect was weak, but rather integrated well into the original art style. Although it did not achieve the goal of supporting multiple art styles, it effectively elevated the texture of the original Nai3 art style to a higher level. Perhaps the next version can try to take it even further. (I really enjoy playing games, and it's too difficult for me to play computer games every time I train.)

Podsumowanie niektórych problemów wersji v5.

1. Kompatybilność lora oraz problemy z kończynami i rozmytymi oczami. Kompatybilność lora wynikła z użycia zbyt wysokiej wagi końcowej w tym treningu, co czasem powoduje overfitting. Ta wersja optymalizowana zmniejsza odpowiadające wagi, co powinno poprawić wskaźnik błędów kończyn i kompatybilność z niektórymi lora; przygotowałem kilka porównań ilustrujących to na podstawie lora trenowanych na bazie v4.1. Rozmycie oczu to chyba skutek trenowania style_1, bo oryginalne materiały bazowe mają rozmyte oczy; można użyć style_3 lub 4, żeby to poprawić.

2. Problem ekspozycji volumetrycznego światła. Nie spotkałem tego w testach; prawdopodobnie przyczyną jest użycie parametru noisy offset treningu, który zwiększył czułość modelu na prompty związane ze światłem, przez co przy stałych wagach promptów świetlnych obraz jest jaśniejszy. Proponuję próbować nie używać nawiasów i cyfr do podnoszenia wagi; z powodu wysokiej czułości sdxl na prompty można eksperymentować z wielokrotnym powtarzaniem tych samych słów, żeby uniknąć skrajnych rezultatów. Ten parametr służy też naprawie problemu żółknięcia generowanych obrazów przy niewielu promptach, dla porównania przygotowałem kilka grafik.

3. Problem obniżenia złożoności modelu. Teoretycznie i praktycznie v5 jest czyściejszym i bardziej różnorodnym modelem niż poprzednie, pod wpływem niektórych promptów powinien oferować precyzyjniejszą ekspresję; przygotowałem kilka grafik porównawczych. Ten zbiór treningowy nie zawiera nadmiernie złożonych materiałów, bo uważam, że zbyt skomplikowane obrazy powodują overfitting, co niesie ze sobą utratę detali.

Cel: Chcę uzyskać model wyraźnie różniący się od poprzedniej wersji, a nie niemal identyczny. Wasza informacja zwrotna to dobra okazja do eksperymentów, samodzielnie miałbym zbyt mało możliwości testowania. W następnej wersji spróbuję zwiększyć ilość materiałów rozmaitych stylów, aby lepiej je łączyć i rozdzielać, a także używać specjalnych promptów do przełączania stylów; może to wymagać nowych technik treningowych. Dziękuję za Wasz feedback!

Summarize some issues regarding the v5 version.

1, Lora compatibility and issues with limbs and blurred eyes. Lora compatibility is that I used too much final weight for this training, and in some cases, overfitting may occur. This optimized version is the one that reduces the corresponding weight, and the limb collapse rate and compatibility with some Loras should be better. I have run several comparison charts of Loras trained with v4.1 for reference. The problem of blurred eyes should be the reason why I trained style_1. The eyes in the original material used are blurry, and can be improved by using style_3 or 4.

2. Exposure issues with volume light. I did not encounter this issue during testing, and the reason for it should be that I used the noise offset training parameter to increase the sensitivity of the model to light related prompt words, resulting in brighter results when the same weight of light prompt words were used. I suggest trying not to use parentheses and numbers to increase the weight. Due to the sensitivity of sdxl to prompt words, you can try repeating the same prompt words multiple times to avoid extreme results. At the same time, using this parameter is to fix the problem of generating yellow results under a small number of prompt words. I have run several comparison graphs for reference.

3. The problem of reduced model complexity. In theory and in practice. V5 should be a cleaner and more diverse model than the previous version, and with the help of some prompts, it should be able to achieve more accurate performance. Similarly, I ran several comparison charts for comparison. This training set did not use overly complex materials because I believe that overly complex images tend to overfit the results, which inevitably leads to a certain degree of detail loss.

Purpose: I hope to obtain a model that is significantly different from the previous version, rather than releasing a model that is almost identical to the previous version. This feedback from everyone is a great opportunity for trial and error, and I really don't have any trial and error costs on my own. In the next version, I will try to increase the amount of materials for different art styles, so that the art styles of different materials can be well integrated and separated. Using specific prompts to switch art styles may require some new training techniques. Thank you for your feedback!

Poprzedni
Tponynai3 - v55
Następny
Tponynai3 - v5

Szczegóły modelu

Typ modelu

Checkpoint

Model bazowy

Pony

Wersja modelu

v5.1(weight optimized)

Hash modelu

ac17f32d24

Twórca

Dyskusja

Proszę się log in, aby dodać komentarz.