modele/Tponynai3 - v5

Tponynai3 - v5

|
5/22/2025
|
1:42:58 PM
| Discussion|
0
Obraz wygenerowany przez AI, stworzony za pomocą stable diffusion, przedstawiający romantyczną parę anime na ich ślubie, z panną młodą w białej sukni i panem młodym w czarnym garniturze, dzielącą intymną chwilę.
Romantyczna para anime trzymająca się za ręce podczas ślubu, z białymi ptakami latającymi wokół, na obrazie wygenerowanym przez AI przy użyciu stable diffusion.
Dziewczyna w stylu anime z różowymi włosami w ciemnym, futurystycznym mieście z stworzeniem nietoperza, wygenerowane przez AI za pomocą Stable Diffusion.
Dziewczyna anime z różowymi włosami i okularami, ubrana w strój demona stojąca pod pełnią księżyca, wygenerowana przez AI z użyciem Stable Diffusion.
Isabelle z Animal Crossing, opierająca się o biurko w biurze, wygenerowana przez AI wykorzystując Stable Diffusion.

Zalecane podpowiedzi

score_9,score_8_up,score_7_up

score_8_up,score_7_up,1girl,solo

Zalecane negatywne podpowiedzi

score_4,score_3,score_2,worst quality, bad hands, bad feet

score_4,score_3,score_2,score_1,ugly,bad feet

Zalecane parametry

samplers

Euler a

steps

25 - 30

cfg

7

clip skip

2

resolution

776x1072, 848x1072, 952x1192, 696x1272, 960x1248, 792x1248

other models

T-ponynai3-v5 (61cc7615e2), ponynai3-v5-000175 (8dcbf7b584), pony-Tonade (7033f6d4f6)

Zalecane parametry wysokiej rozdzielczości

upscaler

R-ESRGAN 4x+ Anime6B

upscale

1.6 - 2

steps

10

denoising strength

0.3

Wskazówki

Używaj wysokiej naprawy przy umiarkowanej rozdzielczości dla najlepszych rezultatów.

Wypróbuj style_3 lub 4, aby poprawić detale oczu.

Najważniejsze informacje o wersji

W tej wersji materiał treningowy został ograniczony. Po niepowodzeniu v4 rozpocząłem inny projekt z niskim zużyciem VRAM, w którym trenowałem cztery różne style lora dopasowane do T-ponynai3, oczywiście oryginalny model również został przesłany na Civitai. Po testach dopasowania rozpocząłem trening tych czterech stylów jako dodatków do T-ponynai3-v5. Zaskakująco, tekstura linii w v5 poprawiła się o poziom, prawdopodobnie przez bardzo szczegółowy materiał treningowy. Do oznaczenia tych czterech stylów użyłem promptów od style_1 do style_4. Niestety nie wiem czemu, te cztery style nie zostały rozdzielone lub efekt był słaby, ale dobrze wtopiły się w oryginalny styl. Mimo, że nie osiągnięto celu wsparcia wielu stylów, to ładnie podniosło jakość stylu nai3. Może w następnej wersji spróbuję dalej. (Bardzo lubię gry, więc niemożność grania podczas treningu jest dla mnie trudna).

The training materials for this version have been reduced. Due to the failure of v4, I launched another project to test my idea from a small perspective of memory usage, which is to train four different art styles of Lora adapted to T-ponynai3. Of course, the original model was also uploaded to Civitai. After testing the adaptability, I started training these four different art styles as additives into T-ponynai3-v5. Surprisingly, The line texture of v5 has improved to a high level, probably because I trained a very delicate material. For the marking of these four art styles, I used the prompt words from style_1 to style_4. Unfortunately, for some reason, these four art styles were not separated or the effect was weak, but rather integrated well into the original art style. Although it did not achieve the goal of supporting multiple art styles, it effectively elevated the texture of the original Nai3 art style to a higher level. Perhaps the next version can try to take it even further. (I really enjoy playing games, and it's too difficult for me to play computer games every time I train.)

Sponsorzy twórcy

[未认证]Tonade jest twórcą modelu T-ponynai3, id na C-stacji: Tonade, | 爱发电 (afdian.net)

To jest kanał wsparcia na Afdian. Jeśli uważasz, że model jest użyteczny i masz możliwości, możesz go wesprzeć! Nie zmuszaj się, dziękuję za każde wsparcie, będziemy dalej eksplorować, jak ulepszyć model!

929721518本人 的qq小群群号,有啥不会的关于tpony的问题可以进来问。记得备注c站哦

模型已经内置vae了,不需要额外添加vae

Model już zawiera vae, nie ma potrzeby dodawania dodatkowego vae

Najlepsza strategia generowania to umiarkowana rozdzielczość z wysoką naprawą, a nie bezpośrednie używanie dużej rozdzielczości

Najlepsza strategia generowania polega na użyciu wysokiej naprawy przy umiarkowanej rozdzielczości, zamiast bezpośredniego używania bezpośredniego wyjścia o wysokiej rozdzielczości

[未认证]Tonade jest twórcą modelu T-ponynai3, c-stacja id: Tonade, | 爱发电 (afdian.net)

To jest kanał wsparcia na Afdian. Jeśli uważasz, że model jest użyteczny i masz możliwość, możesz wesprzeć projekt! Nie zmuszaj się, dziękuję za każde wsparcie, będziemy dalej eksplorować, jak ulepszyć model!

(Ponieważ model może istnieć jednocześnie na Tusi i Tensor, lepiej używać go na Tusi. Jeśli są jakieś problemy z jego użytkowaniem, proszę zgłaszać je do mnie)

Wersja v5 dodała 4 nowe style, które mogą służyć do dopracowania szczegółów obrazu przez style_1 do style_4 (teoretycznie tak jest, ale rzeczywisty efekt jest bardziej mistyczny)

Wersja v5 dodała 4 nowe style, które mogą być użyte do dopracowania szczegółów obrazu przez style_1 do style_4 (teoretycznie tak jest, ale rzeczywisty efekt jest bardziej mistyczny lub słabszy)

Ten model doskonale wspiera modele lora trenowane na bazie ponyv6, ani3 i sdxl1.0 również mogą być w pewnym stopniu dopasowane

This model perfectly supports lora trained with ponyv6 as the base model, and the Lora of ani3 and sdxl1.0 can also be adapted to some extent.

Test inpaintingu na podstawie v4.1 (to była wcześniej pomijana część)

Image inpaint testing based on v4.1 (this is a previously overlooked part)

pony to bóg, kompatybilność na pełen plus. Model wspiera ani oraz lora pony

Podstawowe słowa efektu wstępnego jak w ponydiffusion

positive:(score_9, score_8_up, score_7_up, score_6_up, score_5_up, score_4_up)

LUB (score_9, score_8_up, score_7_up)

Można dodać negatywne:

negative: (score_4, score_3, score_2, score_1),

Można też dodać normalne słowa negatywne typu nai, na przykład:

negative: worst quality, bad hands, bad feet

Mam nadzieję, że się spodoba ᕕ(◠ڼ◠)ᕗ oparty na nai3 i ponyv6

Wskazówki do treningu: v1 użyto 94 obrazów, v2 119, v3 348, v3.5 474, wygenerowanych przez nai3, trening lory był doprawiany na bazowym modelu, wszystkie tagi artystów wspierane przez ponyv6 są akceptowane, ale używanie więcej niż dwóch tagów artystów może powodować awarie tła. Znaleziono możliwość generowania postaci z gry Genshin Impact, inne nie są znane. Testowałem ten model niewiele, podziwiając jego reprodukcję stylu rysunku nai3. Bazowy model to fuzja T-anime-xl, ponyv6 i ani3, nieopublikowany.

Do treningu używałem własnej karty graficznej 3090, czas treningu od v1 do v3.5 to odpowiednio 7, 12, 35 i 47 godzin

Instrukcje treningowe: scalanie Lory, użyto 94 obrazów dla v1, 119 dla v2, 348 dla v3, 474 dla v3.5, wygenerowanych przez NAI3 do treningu bazowego modelu na potrzeby fine-tuningu. Pony wspiera wszystkie tagi artystów, które ma ponyv6, ale nie ma dodatkowych tagów z nai3. Używanie więcej niż dwóch tagów artystów może powodować awarie tła. Obecnie wykryto możliwość generowania postaci z Genshin Impact. Innych nie znam. Nie testowałem wiele tego modelu. Zachwyca reprodukcją stylu malarskiego NAI3. Bazowy model to fuzja T-anime-xl, ponyv6 i ani3, który nie został jeszcze opublikowany.

Do treningu użyłem własnej karty graficznej 3090, z czasami 7, 12, 35 i 47 godzin od v1 do v3.5 odpowiednio.

v1

Ciekawa próba

An interesting attempt

v2

Na bazie v1 nieznacznie zwiększono zbiór treningowy, przeprowadzono około 30 godzin testów i błędów parametru, ale styl nadal wykazywał naddopasowanie, takie jak podwójne pępki i nieładne włosy

On the basis of v1, the training set was slightly increased and went through about 30 hours of trial and error, but the trained art style still had some overfitting, such as double navel eyes and messy hair

v3

Kończyny w v3 są lepsze niż w v2. W kwestii footfocus v3 może generować stopy o większym efektcie wizualnym i trudniejszej perspektywie, a odczucie AI włosów jest słabsze niż w v2, bo zestaw treningowy v2 był za mały, co powodowało naddopasowanie włosów i sporadyczne podwójne pępki zniknęły. Ogólnie trzy razy większy zestaw treningowy i większe parametry dim sprawiają, że styl jest bardziej naturalny, a wyrażanie pod długimi promptami jest silniejsze niż w v2.

The limbs of v3 are better than those of v2. In terms of understanding footfocus, v3 can generate feet with greater visual impact and higher difficulty perspective. The AI feeling of v3's hair is also weaker than that of v2, because v2 has too little training set, so the hair part may be slightly overfitting, and the occasional double navel eyes that appear in v2 are also gone. Overall, three times the size of the v2 training set and a larger dim parameter make the art style fit more natural, and the performance is much stronger than v2 under long prompts.

v3.5

W tej wersji wymagania dotyczące słów jakości nie są tak rygorystyczne, można całkowicie nie używać jakościowych słów oceny estetycznej pony do generowania obrazów. W testach od czasu do czasu pojawiały się bezsensowne plamy kolorów, wystarczy zastąpić jakościowe słowa oceny estetycznej popularnymi słowami jakości 1.5, np. score_1, score_2 wymienić na worst quality. W tej wersji dodałem około 150 obrazów treningowych, aby zrównoważyć i wzbogacić styl, oraz zmniejszyłem początkowy współczynnik krzywej uczenia, co sprawiło, że model nie jest tak bardzo dopasowany, może obsługiwać więcej lora i kreatywne prompt'y. Ogólnie to wersja bardziej swobodna niż v3, a odwzorowanie mężczyzn jest znacznie lepsze, a kolorystyka i styl w niektórych promptach nie jest tak jaskrawa i tłusta.

In this version, the requirements for quality words are not so strict, you can completely not to use the quality words of pony's aesthetic score to plot the picture, and occasionally there will be a situation where the picture generates meaningless color blocks in the test, you only need to replace the quality words of the aesthetic score with 1.5 commonly used quality words, such as score_1, score_2 replace it with worst quality. In this version, I added about 150 more training sets to balance and enrich the art style, and reduced the initial slope of the learning curve, which makes this model less overfitted and can be adapted to more lora and whimsical prompts. Overall, this version is a freer version than the v3 version, and this version is much stronger than the v3 version, and the colors and style of painting under some hints are not so bright and greasy.

v4

Ta wersja użyła 798 obrazów treningowych i była trenowana przez 90 godzin na karcie 3090. W porównaniu do v3.5 lepsza kompozycja i detale części ciała, np. zjawisko ghostingu palców i nakładanie się części ciała. W promptach preferowałem średnią i krótszą długość, bo nikt nie lubi pisać długich promptów, aby mieć dobrą jakość obrazu, prawda? Po usunięciu promptów jakości Pony poprawiła się jakość obrazu względem v3.5, dając bardziej płaskie i klasycznie anime stylizowane obrazy. Testy dopasowania Ponyv6 kończą się, w następnej fazie chcę dodać więcej sterowalnych promptów (np. estetyczne oceny), bo teraz głównie zastępuję słowa jakości Pony słowami mainstreamowymi. Będę też dodawać odpowiednie nowe materiały treningowe, np. sceny i materiały dotyczące stóp (w v4 materiałów stóp jest chyba zbyt mało).

This version used 798 images as training materials and trained for 90 hours using a 3090 graphics card. This version has a more accurate composition and depiction of certain parts in certain prompts compared to v3.5, such as ghosting of fingers and overlapping of some body parts. In terms of prompts, my main training goal is to use medium and slightly shorter prompts, as nobody likes to write a long string of prompts to generate high-quality images, right? After removing the quality prompt of Pony's aesthetic score, the image quality has been significantly improved compared to v3.5, and the resulting quality tends to be more flat rather than three-dimensional, closer to the classic anime style. The testing of the fine-tuning effect of Ponyv6 on the number of images is nearing completion. The next step is to start with the training labels of prompts and try to add more adjustable prompts to Pony's limited number of single training materials (such as adding aesthetic scores, the current training logic still uses mainstream quality words to cover Pony's aesthetic score quality words), and continue to add suitable new training materials, such as scene training materials and more foot training materials (v4's foot training materials seem to be a bit scarce).

v4.1

Przepraszam użytkowników za tak szybkie pojawienie się nowej wersji, to bardzo testuje pamięć RAM i prędkość internetu. O_O

Firstly, I would like to apologize to all users for the release of a new version in such a short period of time, which greatly tests the computer's memory and network speed. O_O

Ta nowa wersja to poprawka kończyn oparta na v4. Ze względu na trudności kontrolowania kończyn w v4, procent perfekcji rąk nie spełniał moich oczekiwań. Więc razem z przyjacielem 木猫猫猫 dokonaliśmy kilku poprawek, które sprawiły, że kończyny w v4.1 spełniają moje oczekiwania. Opublikuję kilka wykresów xy, aby pokazać poprawę vs v4 przy tych samych parametrach.

This new version is based on the limb debugging version of v4. Due to the difficulty in controlling the limb effects of v4, the perfection rate of the hands did not meet my testing expectations in the past few days. So my friend 木猫猫猫 and I made some adjustments and improvements to v4, which ultimately made the limbs of v4.1 meet my expectations. I will release several xy graphs to clearly show the improvement of v4.1 compared to v4 under the same parameters.

v5

W tej wersji materiał treningowy został ograniczony. Po porażce v4 rozpocząłem inny projekt z niską pamięcią VRAM, trenując 4 style lora dopasowane do T-ponynai3, oryginalny model też jest na Civitai. Po testach dopasowania zacząłem trenować te 4 style jako dodatki do T-ponynai3-v5. Zaskakująco, tekstura linii w v5 znacząco się poprawiła, chyba przez bardzo szczegółowy materiał treningowy. Do oznaczania tych stylów użyłem promptów style_1 do style_4, jednak te style nie rozdzieliły się lub efekt był słaby, za to dobrze połączyły się z oryginalnym stylem. Choć cel wspierania wielu stylów nie został osiągnięty, to ładnie poprawiło jakość stylu nai3. Może w następnej wersji pójdę dalej. (Uwielbiam grać, więc brak gier podczas treningów jest trudny).

The training materials for this version have been reduced. Due to the failure of v4, I launched another project to test my idea from a small perspective of memory usage, which is to train four different art styles of Lora adapted to T-ponynai3. Of course, the original model was also uploaded to Civitai. After testing the adaptability, I started training these four different art styles as additives into T-ponynai3-v5. Surprisingly, The line texture of v5 has improved to a high level, probably because I trained a very delicate material. For the marking of these four art styles, I used the prompt words from style_1 to style_4. Unfortunately, for some reason, these four art styles were not separated or the effect was weak, but rather integrated well into the original art style. Although it did not achieve the goal of supporting multiple art styles, it effectively elevated the texture of the original Nai3 art style to a higher level. Perhaps the next version can try to take it even further. (I really enjoy playing games, and it's too difficult for me to play computer games every time I train.)

Podsumowanie problemów z wersją v5.

1. Kompatybilność lora oraz problemy z kończynami i rozmytymi oczami. Kompatybilność lora była zbyt wysoka, co w niektórych przypadkach powoduje naddopasowanie. Ta zoptymalizowana wersja zmniejsza odpowiednie wag, zmniejszając wypadanie kończyn i poprawiając kompatybilność z niektórymi lora. Dla oczu rozmytych przyczyną może być trening style_1, oryginalne materiały miały rozmyte oczy; można poprawić to style_3 lub 4.

2. Problemy z ekspozycją światła wolumetrycznego. Nie wystąpiły podczas testów, lecz może być spowodowane użyciem parametru offsetu szumu zwiększającego czułość modelu na słowa promptów dotyczące światła, powodując jaśniejsze efekty przy tych samych wagach. Zalecam unikanie nawiasów i liczb przy zwiększaniu wagi. Dzięki czułości sdxl na prompty można próbować powtarzać te same słowa, aby uniknąć ekstremalnych efektów. Użycie tego parametru miało naprawić żółte zabarwienie przy niewielu promptach, mam porównania do pokazania.

3. Problem zmniejszonej złożoności modelu. Teoretycznie i praktycznie v5 jest czystszym i bardziej różnorodnym modelem, który pod niektórymi promptami powinien dawać precyzyjniejsze efekty. Zrobiłem porównania. Zestaw treningowy nie zawierał zbyt skomplikowanych materiałów, gdyż skomplikowane obrazy powodują naddopasowanie i utratę detali.

Cel: chcę mieć model wyraźnie różny od poprzednich, a nie niemal identyczny. Wasze opinie to świetna okazja do korekt, bo sam koszt błędów byłby zbyt wysoki. W następnym wydaniu spróbuję zwiększyć materiały dla różnych stylów, aby style dobrze się przenikały i dało się je rozdzielić, używając konkretnych promptów do ich przełączania, co może wymagać nowych technik trenowania. Dziękuję za opinie!

Summarize some issues regarding the v5 version.

1, Lora compatibility and issues with limbs and blurred eyes. Lora compatibility is that I used too much final weight for this training, and in some cases, overfitting may occur. This optimized version is the one that reduces the corresponding weight, and the limb collapse rate and compatibility with some Loras should be better. I have run several comparison charts of Loras trained with v4.1 for reference. The problem of blurred eyes should be the reason why I trained style_1. The eyes in the original material used are blurry, and can be improved by using style_3 or 4.

2. Exposure issues with volume light. I did not encounter this issue during testing, and the reason for it should be that I used the noise offset training parameter to increase the sensitivity of the model to light related prompt words, resulting in brighter results when the same weight of light prompt words were used. I suggest trying not to use parentheses and numbers to increase the weight. Due to the sensitivity of sdxl to prompt words, you can try repeating the same prompt words multiple times to avoid extreme results. At the same time, using this parameter is to fix the problem of generating yellow results under a small number of prompt words. I have run several comparison graphs for reference.

3. The problem of reduced model complexity. In theory and in practice. V5 should be a cleaner and more diverse model than the previous version, and with the help of some prompts, it should be able to achieve more accurate performance. Similarly, I ran several comparison charts for comparison. This training set did not use overly complex materials because I believe that overly complex images tend to overfit the results, which inevitably leads to a certain degree of detail loss.

Purpose: I hope to obtain a model that is significantly different from the previous version, rather than releasing a model that is almost identical to the previous version. This feedback from everyone is a great opportunity for trial and error, and I really don't have any trial and error costs on my own. In the next version, I will try to increase the amount of materials for different art styles, so that the art styles of different materials can be well integrated and separated. Using specific prompts to switch art styles may require some new training techniques. Thank you for your feedback!

Poprzedni
Tponynai3 - v51weight optimized
Następny
CyberRealistic Pony - v40

Szczegóły modelu

Typ modelu

Checkpoint

Model bazowy

Pony

Wersja modelu

v5

Hash modelu

61cc7615e2

Twórca

Dyskusja

Proszę się log in, aby dodać komentarz.