Tponynai3 - v55
Powiązane słowa kluczowe i tagi
Wyróżnione obrazy
Zalecane podpowiedzi
score_9,score_8_up,score_7_up
score_9,score_8_up
Zalecane negatywne podpowiedzi
score_4,score_3,score_2,worst quality, bad hands, bad feet
score_3,score_2,ugly,bad feet
Zalecane parametry
samplers
steps
cfg
clip skip
resolution
other models
Zalecane parametry wysokiej rozdzielczości
upscaler
upscale
steps
denoising strength
Wskazówki
Używaj high-fix przy umiarkowanej rozdzielczości dla najlepszych rezultatów.
Wypróbuj style_3 lub 4, by poprawić szczegóły oczu.
Najważniejsze informacje o wersji
Ta wersja to optymalizacja względem 5.1, poprawiono detale oczu, poprawność stóp, czułość na prompt i logiczność nakładania się kończyn. Mimo to kontrola jasności i cieni obrazu nie spełniła moich oczekiwań; w testach użycie style_4 powoduje ciemniejsze obrazy, co może być krótkoterminowym rozwiązaniem. Wykonałem dodatkowe treningi, gdyż bezpośredni trening nie przyniósł oczekiwanych efektów, co kosztowało mnie trochę czasu. Jeśli macie więcej uwag, koniecznie napiszcie w komentarzach!
Ta wersja to optymalizacja 5.1, poprawiająca detale oczu, logikę stóp, czułość na prompty oraz nakładanie się kończyn. W moich testach użycie style_4 powodowało ciemniejsze obrazy, co może być chwilowym rozwiązaniem. Wykonałem dodatkowe treningi, ponieważ bezpośredni trening nie dał dobrej jakości, co kosztowało mnie trochę czasu. Jeśli macie więcej pytań, koniecznie poinformujcie mnie w komentarzach!
Sponsorzy twórcy
[Niezweryfikowany] Tonade jest autorem modelu T-ponynai3, c-stacja ID: Tonade, | 爱发电 (afdian.net)
To jest kanał wsparcia na 爱发电. Jeśli uważasz, że model jest użyteczny i masz taką możliwość, możesz go wesprzeć! Nie rób tego jednak na siłę, dziękuję za każde wsparcie, będę kontynuować prace nad ulepszaniem modelu!
929721518本人 的 qq 小群群号,有啥不会的关于 tpony 的问题可以进来问。记得备注 c 站哦
Model już ma wbudowany vae, nie trzeba dodawać dodatkowego vae
Model już zawiera vae, nie ma potrzeby dodawania dodatkowego vae
Najlepsza strategia generowania to umiarkowana rozdzielczość z włączoną wysoką naprawą, zamiast bezpośredniego używania wysokiej rozdzielczości
Najlepszą strategią generowania jest użycie high-fix przy umiarkowanej rozdzielczości, zamiast bezpośredniego używania wyjścia o wysokiej rozdzielczości
[Niezweryfikowany] Tonade jest autorem modelu T-ponynai3, c-stacja ID: Tonade, | 爱发电 (afdian.net)
To jest kanał wsparcia na 爱发电. Jeśli uważasz, że model jest użyteczny i masz takie możliwości, możesz go wesprzeć! Nie rób tego jednak na siłę, dziękuję za każde wsparcie, będę kontynuować badania nad ulepszaniem modelu!
(33) T-ponynai3-v5 - (zmodyfikowana wersja wag) | Stable Diffusion Checkpoint | 吐司 tusi.cn (tusiart.com) link do generowania online tusiart (wersja chińska tensor)
(Ponieważ model może istnieć jednocześnie tylko na Tusi i Tensor, lepiej korzystać z niego na Tusi. Jeśli będą jakiekolwiek problemy z użytkowaniem, proszę zgłaszać je do mnie bardziej szczegółowo)
Wersja v5 dodała 4 nowe style, którymi można dostosować detale obrazu za pomocą style_1 do style_4 (teoretycznie tak jest, ale efekt praktyczny jest bardziej tajemniczy lub słabszy)
Wersja V5 dodała 4 nowe style, które można wykorzystać do dopracowania detali obrazu za pomocą style_1 do style_4 (teoretycznie to działa, ale efekt praktyczny jest bardziej mistyczny lub słabszy)
Model w pełni obsługuje modele lora trenowane na bazie ponyv6, lora ani3 i sdxl1.0 również są w pewnym stopniu kompatybilne
Ten model idealnie wspiera lora trenowane z ponyv6 jako bazą, a Lora ani3 i sdxl1.0 mogą być również częściowo dostosowane.
Test inpaintingu obrazu na bazie v4.1 (to był wcześniej pominięty element)
Test inpaintingu obrazu na bazie v4.1 (to była wcześniej pomijana część)
Pony to bóg, kompatybilność doskonała. Model wspiera lora ani i pony
Wymagane słowa kluczowe pozytywne i efekty jak w ponydiffusion
positive:(score_9,score_8_up,score_7_up,score_6_up,score_5_up,score_4_up)
LUB (score_9,score_8_up,score_7_up)
Można dodać negatywne:
negative: (score_4,score_3,score_2,score_1),
Można też dodać normalne negatywne słowa z zakresu nai, na przykład:
negative: worst quality, bad hands, bad feet
Mam nadzieję, że się spodoba ᕕ(◠ڼ◠)ᕗ bazowany na nai3 i ponyv6
Instrukcje treningowe: v1 użyto 94 obrazów, v2 119, v3 348, v3.5 474, wygenerowanych przez nai3, lora przeszły integrację z bazowym modelem dla dopracowania, wszystkie tagi artystów wspierane przez ponyv6 są kompatybilne, ale żaden dodatkowy tag z nai3 nie jest dodany. Używanie więcej niż dwóch tagów artystów może powodować problemy w tle. Obecnie można generować postacie z Genshin Impact, inne nie są znane. Testy modelu są ograniczone, zdumiewa wierne odwzorowanie stylu nai3. Bazowy model to fuzja T-anime-xl, ponyv6 i ani3, nieopublikowany.
Trening wykonano na mojej karcie 3090, czas treningu wyniósł 7 godzin dla v1, 12 godzin dla v2, 35 godzin i 47 godzin dla v3 i v3.5 odpowiednio.
Instrukcje treningowe: Wersja Lora wykorzystała 94 obrazy w v1, 119 w v2, 348 w v3, 474 w v3.5, wygenerowane przez NAI3 do treningu bazowego modelu dla dopracowania. Pony obsługuje wszystkie tagi artystów, które posiada ponyv6, ale nie dodano żadnych z NAI3. Używanie więcej niż dwóch tagów artystów może powodować awarie tła. Obecnie znane są postacie z Genshin Impact. Innych nie testowałem. Zachwycam się odwzorowaniem stylu NAI3. Bazowy model to fuzja T-anime-xl, ponyv6 i ani3, nieopublikowany.
Do treningu użyłem własnej karty graficznej 3090, okresy treningu od v1 do v3.5 to kolejno 7, 12, 35 i 47 godzin.
v1
Ciekawe próby
Interesujące próby
v2
Na podstawie v1 trochę powiększono zbiór treningowy, przeszło około 30 godzin testów parametrów, ale styl nadal ma przeuczenie, np. podwójne pępki i nieładne włosy
Na podstawie v1 powiększono zbiór treningowy, po około 30 godzinach prób i błędów, styl nadal wykazuje przeuczenie, takie jak podwójne pępki i nieuporządkowane włosy
v3
Kończyny v3 są lepsze niż v2. Zrozumienie footfocus pozwala na generowanie bardziej uderzających wizualnie stóp i trudniejszych perspektyw. Włosy v3 są mniej sztuczne niż v2, ponieważ zbiór treningowy dla v2 był za mały, co powodowało przeuczenie i zdarzały się podwójne pępki w v2, które teraz zniknęły. Ogólnie, trzykrotnie większy zbiór treningowy i większy wymiar parametru sprawiają, że styl jest bardziej naturalny, a przy długich promptach wydajność znacznie przewyższa v2.
Kończyny w v3 są lepsze niż w v2, jeśli chodzi o zrozumienie footfocus, v3 może generować stopy o większym wizualnym wpływie i trudniejszych perspektywach, a włosy w v3 mają mniejsze odczucie AI niż w v2, z powodu małego zbioru w v2, co powodowało przeuczenie, oraz sporadyczne podwójne pępki. Ogólnie rzecz biorąc, trzykrotny rozmiar zbioru treningowego oraz większy parametr dim powodują, że styl jest bardziej naturalny, a wydajność pod długim promptem jest dużo lepsza niż w v2.
v3.5
W tej wersji wymagania dotyczące słów jakości nie są tak rygorystyczne, można całkowicie nie używać jakościowych słów Pony do generowania obrazów. W testach czasami pojawiają się bezsensowne kolorowe bloki, wystarczy zastąpić jakościowe słowa estetyczne powszechnie używanymi, np. score_1, score_2 zastąpić worst quality. Ta wersja zawiera około 150 dodatkowych obrazów treningowych, aby zrównoważyć i wzbogacić styl oraz zmniejszyć początkowe nachylenie krzywej uczenia, dzięki czemu model jest mniej przeuczony, może obsługiwać więcej lora i różnorodne wskazówki promptów. Ogólnie jest to bardziej swobodna wersja niż v3, lepiej radząca sobie z męskimi postaciami, a kolory i styl są mniej jaskrawe i tłuste pod pewnymi promptami.
In this version, the requirements for quality words are not so strict, you can completely not to use the quality words of pony's aesthetic score to plot the picture, and occasionally there will be a situation where the picture generates meaningless color blocks in the test, you only need to replace the quality words of the aesthetic score with 1.5 commonly used quality words, such as score_1, score_2 replace it with worst quality. W tej wersji dodałem około 150 więcej danych treningowych, aby zbalansować i wzbogacić styl oraz zmniejszyć początkowe nachylenie krzywej nauki, co sprawia, że model jest mniej przeuczony i może obsługiwać więcej lora oraz bardziej kreatywne prompta. Ogólnie rzecz biorąc, ta wersja jest bardziej swobodna niż v3 i lepiej radzi sobie z męskimi postaciami; kolory i styl malarski pod niektórymi promptami nie są tak przesadnie jaskrawe lub tłuste.
v4
Ta wersja wykorzystuje 798 obrazów treningowych i została wytrenowana na karcie 3090 przez 90 godzin. W porównaniu do v3.5 w niektórych promptach kompozycja i odwzorowanie części ciała są dokładniejsze, np. cienie palców i nakładanie się niektórych części ciała. Głównym celem treningu były średniej i krótkiej długości prompt, bo nikt nie lubi pisać długich promptów, by uzyskać dobre rezultaty, prawda? Po odrzuceniu jakościowych promptów estetycznych Pony jakość obrazu znacznie się poprawiła w porównaniu z v3.5, a obrazy są bardziej płaskie niż trójwymiarowe, bliższe klasycznemu stylowi anime. Testy dostrajania Ponyv6 względem liczby obrazów zbliżają się do końca. Następny krok to praca z etykietami treningowymi promptów i próba dodania więcej sterowalnych promptów do ograniczonej liczby treningowych materiałów Pony (np. dodanie ocen estetycznych, obecna logika treningu nakłada dominujące słowa jakości na estetykę Pony), oraz kontynuacja dodawania nowych materiałów treningowych, np. scen i więcej materiałów dotyczących stóp (materiały treningowe dotyczące stóp w v4 wydają się niewystarczające).
Ta wersja użyła 798 obrazów jako materiał treningowy i była trenowana 90 godzin na karcie 3090. W porównaniu do v3.5, ta wersja ma bardziej poprawną kompozycję i detale części ciała w niektórych promptach, na przykład rozmycie palców i nakładanie się części ciała. Moim głównym celem trenowania były prompt o średniej i krótkiej długości, bo nikt nie chce pisać długich prompt żeby mieć dobrą jakość obrazu, prawda? Po usunięciu jakościowych promptów bazujących na estetyce Pony, jakość obrazu znacznie się poprawiła w porównaniu do v3.5, a efekty są bardziej płaskie niż trójwymiarowe, bliższe klasycznemu stylowi anime. Testy dopasowania Ponyv6 do ilości obrazów kończą się, następnym krokiem będzie praca z etykietami promptów, próba dodania więcej sterowalnych promptów do ograniczonej liczby materiałów treningowych Pony (np. dodając oceny estetyczne, obecna logika treningu nadal zasłania takie jakościowe słowa Pony dominującymi słowami) oraz ciągłe dodawanie odpowiednich nowych materiałów treningowych, np. scen i więcej materiałów treningowych dotyczących stóp (materiały dotyczące stóp w v4 są trochę za małe).
v4.1
Przepraszam użytkowników za wydanie nowej wersji w tak krótkim czasie, co naprawdę testuje pamięć komputera i prędkość sieci. O_O
Chciałbym najpierw przeprosić wszystkich użytkowników za wydanie nowej wersji w tak krótkim czasie, co poważnie testuje pamięć komputera oraz prędkość internetu. O_O
Ta nowa wersja to debugowanie kończyn na bazie v4. Ponieważ efekty kończyn w v4 były trudne do kontrolowania, wskaźnik perfekcji rąk nie spełnił moich oczekiwań podczas testów ostatnich dni. Dlatego wraz z moim przyjacielem 木猫猫猫 dokonaliśmy pewnych korekt i ulepszeń v4, które ostatecznie doprowadziły do osiągnięcia przeze mnie oczekiwań wskaźnika kończyn w v4.1. Zamierzam udostępnić kilka wykresów xy, które wyraźnie pokażą poprawę generowanych obrazów v4.1 względem v4 przy tych samych parametrach.
Ta nowa wersja jest oparta na debugu kończyn v4. Ze względu na trudności w kontroli kończyn w v4, poziom doskonałości rąk w testach nie spełnił ostatnich oczekiwań. Dlatego mój przyjaciel 木猫猫猫 i ja dokonaliśmy pewnych korekt i poprawek v4, które ostatecznie sprawiły, że kończyny w v4.1 spełniły moje oczekiwania. Zamierzam udostępnić kilka wykresów xy, by pokazać poprawę v4.1 w generowaniu obrazów w porównaniu do v4 przy tych samych parametrach.
v5
Zredukowano materiał treningowy w tej wersji. Z powodu niepowodzenia v4 rozpocząłem inny projekt, by przetestować mój pomysł z perspektywy niskiego użycia pamięci VRAM, trenując cztery różne style lora dostosowane do T-ponynai3. Oryginalny model również został przesłany na Civitai. Po testach kompatybilności zacząłem trenować te cztery style jako dodatki do T-ponynai3-v5. Ku mojemu zaskoczeniu, tekstura linii w v5 znacząco się poprawiła, prawdopodobnie dzięki trenowaniu delikatnych materiałów. Do oznaczania stylów użyłem promptów style_1 do style_4. Niestety, z nieznanych powodów, style te nie rozdzieliły się osobno lub ich efekt był słaby, ale dobrze zintegrowały się z oryginalnym stylem. Choć nie osiągnięto celu obsługi wielu stylów, udało się znacząco podnieść jakość oryginalnego stylu nai3. Może w następnej wersji spróbuję pójść dalej. (Bardzo lubię grać, trudno mi nie grać podczas treningów modeli.)
Materiał treningowy na tę wersję został zmniejszony. Z powodu niepowodzenia v4 rozpocząłem inny projekt, aby przetestować mój pomysł z punktu widzenia niewielkiego zużycia pamięci, trenując cztery różne style lora dopasowane do T-ponynai3. Oryginalny model był też przesłany na Civitai. Po testach zgodności zacząłem trenować te cztery style jako dodatki do T-ponynai3-v5. Ku mojemu zaskoczeniu, tekstura linii w v5 znacznie się poprawiła, prawdopodobnie dzięki użyciu bardzo delikatnego materiału. Do oznaczania tych stylów użyłem promptów style_1 do style_4. Niestety, z jakiegoś powodu te cztery style nie rozdzieliły się lub efekt był słaby, ale dobrze zintegrowały się z oryginalnym stylem. Mimo że nie osiągnięto celu wspierania wielu stylów, skutecznie podniesiono jakość oryginalnego stylu nai3. Może kolejna wersja pójdzie dalej. (Bardzo lubię grać w gry, ciężko mi nie grać komputerowo podczas treningu.)
Podsumowanie niektórych problemów wersji v5.
1. Kompatybilność lora, problemy z kończynami i rozmytymi oczami. Kompatybilność lora jest wynikiem użycia zbyt wysokich wag końcowych w tym treningu, co w niektórych przypadkach powoduje przeuczenie. Ta zoptymalizowana wersja zmniejsza odpowiednie wagi, dzięki czemu problem załamań kończyn i kompatybilności z niektórymi lora powinien się poprawić. Dla porównania załączyłem kilka porównań z lora trenowanymi na bazie v4.1. Problem rozmytych oczu jest prawdopodobnie spowodowany trenowaniem style_1, oryginalne materiały mają rozmyte oczy, co można poprawić używając style_3 lub 4.
2. Problem z ekspozycją światła objętościowego. Nie spotkałem się z tym problemem podczas testów, ale przyczyną może być użycie parametru noise offset podczas treningu, co zwiększa czułość modelu na słowa kluczowe związane ze światłem, powodując jaśniejsze efekty nawet przy standardowych wagach. Zalecam unikanie nawiasów i liczb do podnoszenia wag. Z powodu czułości sdxl na słowa, można próbować wielokrotnego powtarzania tych samych słów prompt, co zmniejsza skrajne efekty. Parametr ten ma też na celu naprawę żółknięcia wyników przy małej liczbie słów prompt. Dołączam kilka grafik porównawczych.
3. Problem z redukcją złożoności modelu. Teoretycznie i praktycznie v5 powinien być czystszym i bardziej różnorodnym modelem niż poprzednie wersje. W pewnych promptach można uzyskać bardziej precyzyjne efekty. Do porównania dołączyłem kilka grafik. Ten zbiór treningowy nie zawierał nadmiernie skomplikowanych materiałów, ponieważ przesadne skomplikowanie może prowadzić do przeuczenia i utraty szczegółów.
Cel: chcę uzyskać model znacząco różniący się od poprzednich wersji, a nie niemal identyczny. Wasze opinie to świetna okazja do testów i korekt, gdyż sam ponosiłbym koszty prób i błędów. W następnej wersji spróbuję zwiększyć ilość materiałów z różnymi stylami, żeby możliwe było ich lepsze łączenie i rozdzielanie, umożliwiając przełączanie stylów za pomocą odpowiednich promptów. Może to wymagać nowych technik treningu. Dziękuję za wasze opinie!
Podsumowanie niektórych problemów dotyczących wersji v5.
1. Kompatybilność Lora i problemy z kończynami oraz rozmytymi oczami. Kompatybilność Lora wynika ze zbyt dużych wag końcowych użytych podczas tego treningu, co czasem powoduje przeuczenie. Ta zoptymalizowana wersja obniża te wagi, co powinno poprawić stopień załamania kończyn i kompatybilność z niektórymi lora. Załączyłem kilka porównań lora trenowanych na bazie v4.1 do odniesienia. Problem rozmytych oczu wynika prawdopodobnie z trenowania style_1, gdyż oryginalne materiały mają rozmyte oczy, można to naprawić stosując style_3 lub 4.
2. Problem z ekspozycją światła objętościowego. Nie napotkałem tego problemu podczas testów. Przyczyną może być użycie parametru noise offset podczas treningu, co zwiększa czułość modelu na słowa prompt związane ze światłem, powodując jaśniejsze efekty przy tych samych wagach. Proponuję unikać nawiasów i liczb przy podnoszeniu wag. Ze względu na czułość sdxl na słowa prompt, warto powtarzać te same słowa wielokrotnie, aby uniknąć skrajnych efektów. Ten parametr jest także używany do poprawy problemu żółknięcia obrazów przy małej liczbie słów prompt. Załączam kilka grafik porównujących efekty.
3. Problem z redukcją złożoności modelu. Teoretycznie i praktycznie v5 powinien być czyściejszym i bardziej zróżnicowanym modelem niż poprzednie wersje. Przy pomocy niektórych promptów można uzyskać bardziej precyzyjną ekspresję. Do porównania załączyłem kilka grafik. Zbiór treningowy nie zawierał nadmiernie skomplikowanych materiałów, ponieważ uważam, że zbyt skomplikowane obrazy prowadzą do przeuczenia i utraty detali.
Cel: chcę otrzymać model wyraźnie różny od wcześniejszej wersji, a nie prawie identyczny. Wasze opinie to świetna okazja do eksperymentów, ciężko byłoby mi robić to samodzielnie bez ponoszenia dużych kosztów. W kolejnej wersji zamierzam zwiększyć ilość materiałów w różnych stylach, by uzyskać ich dobrą integrację i możliwość rozdzielenia stylów oraz przełączania dzięki specyficznym promptom, co może wymagać nowych technik treningu. Dziękuję za wasze cenne spostrzeżenia!
Szczegóły modelu
Dyskusja
Proszę się log in, aby dodać komentarz.