modele/Vanillaware Style PonyXL - v0.1

Vanillaware Style PonyXL - v0.1

|
10/17/2025
|
12:59:58 AM
| Discussion|
0
Fantastyczna czarodziejka w pełnej krasie z długimi czerwonymi włosami, ubrana w czarny gorset i duży kapelusz czarownicy, trzymająca drewniany kostur pod nocnym niebem
Blond wróżka z spiczastymi uszami i przezroczystymi zielonymi skrzydłami, ubrana w zieloną sukienkę, otoczona świecącymi niebieskimi motylami i cząstkami światła nocą.
Portret Miyuki Inaba z krótkimi brązowymi włosami i brązowymi oczami, ubraną w szary top na ramiączkach, pozującą z ręką na czole na białym tle.
Portret spokojnej kobiety z białymi włosami i brązowymi oczami, ubranej w czarny gorset i koronkowy kołnierz, ozdobionej niebieskimi piórami, na czarnym tle.
Fotorealistyczny portret dziewczyny o białych włosach z zaplecioną fryzurą, ubraną w czarny gorset z dekoltem, otoczoną świecącymi niebieskimi piórami i cząstkami światła na czarnym tle.

Zalecane podpowiedzi

score_9, score_8_up, score_7_up, <lora:vanillawareStyle:1>, 1girl, solo, looking at viewer, full body, light particles

Zalecane negatywne podpowiedzi

thumbnail,3d

3d, bad anatomy, watermark

Zalecane parametry

samplers

Euler a

steps

20

cfg

7

clip skip

2

resolution

768x1344

vae

sdxl_vae.safetensors

other models

vanillawareStyle (272b477439ee), ponyDiffusionFor_v10 (7ad8ce957e)

Zalecane parametry wysokiej rozdzielczości

upscaler

4xUltrasharp_4xUltrasharpV10

upscale

1.2 - 2

denoising strength

0.2

Wskazówki

Twórz prompty w kolejności: [cechy postaci] + [styl] + [wyraz] + [ubranie] + [kamera i akcja] + [tło], modyfikując w razie potrzeby.

Jeśli obraz jest rozmyty, dodaj "thumbnail" do promptów negatywnych i zwiększ jego wagę, aby poprawić klarowność.

Dodanie '3d' do promptów negatywnych może poprawić wyniki.

Dodanie tagów takich jak 'realistic' lub 'realism' może wzmocnić cechy postaci.

Dostosuj zalecaną wagę między 1.0 a 0.6 dla pożądanego wyglądu postaci.

Popraw jakość zbioru danych i stosuj staranne oznaczanie dla lepszego treningu.

Umieszczaj tagi obrazów niższej jakości w promptach negatywnych, aby zmniejszyć ich wpływ podczas generowania.

Szkolenie tego modelu i generowane obrazy służą wyłącznie celom edukacyjnym.

Nic nie zrobiłem, jestem tylko porterem.

Ten model bardziej przypomina pakiet postaci, a jego skutkiem ubocznym jest styl, który wnosi.

Szkolenie trwało ponad 30 godzin powtarzanych prób, podczas których prawie się poddałem, ale ostatecznie udało mi się osiągnąć bardziej zbalansowany efekt. Co najważniejsze, moja hipoteza szkoleniowa została zweryfikowana. W przyszłości mogę zorganizować te doświadczenia w artykule.

Mimo to wciąż występują problemy z jakością rąk.

Słowo wyzwalające: vanillastyle

Przykładowe prompty można znaleźć na obrazach powyżej.

Prompt poprzedniej wersji modelu również głównie działał.

Moje prompty są zasadniczo komponowane w kolejności [cechy postaci] + [styl] + [wyraz] + [ubranie] + [kamera i akcja] + [tło], które można usuwać lub modyfikować według potrzeby.

Jeśli obraz jest szczególnie rozmyty, rozważ dodanie „thumbnail” do promptu negatywnego i zwiększenie jego wagi, aż obraz stanie się wyraźny.

Dodanie '3d' do promptu negatywnego może przynieść lepszy rezultat, podczas gdy tagi takie jak 'realistic', 'realism' mogą wzmocnić cechy postaci.

Zalecana waga: 1.0~0.6, dostosuj według potrzeb, aż wygląd postaci spełni wymagania.

Zalecana wartość upscale to około 1.2~2.0, siła denoisingu to 0.2

Zbiór danych skupiał się głównie na pracach George'a Kamitani.

20240907v0.2

W tej wersji oznaczyłem więcej obrazów, a z pozostałych usunąłem tagi, pozostawiając tylko słowa wyzwalające, by zapobiec konfliktom z dokładnie oznaczonymi. (Ta metoda może być błędna.)

Podczas treningu było wiele przypadków, gdy obrazy w zbiorze danych nie były dokładnie reprezentowane przez prompt. Próbowałem zmieniać różne tagi i trenować ponownie, otrzymując ten sam rezultat. Powtarzalność tych obrazów w zbiorze jest też niska, brak im ciągłości.

W końcu przeczytałem artykuł, który mówił o zwiększeniu liczby powtórzeń treningu dla określonych postaci, by zapobiec niedostatecznemu nauczeniu się ich przez model.

Dlatego umieściłem wszystkie obrazy występujące pojedynczo w podfolderze, ustawiłem powtórzenia treningu na 2 i pozostawiłem obrazy, które były już dobrze nauczone, bez zmian.

Jednakże, ponieważ jest całkiem sporo problemów z jakością tych nierozciągłych obrazów i na razie ich nie naprawiłem, zwiększenie powtórzeń treningu miało pewien wpływ na ogólny styl.

Aby ulepszyć następną wersję, najważniejsze jest podniesienie jakości zbioru danych oraz dobre wykorzystanie technik opisywania, dodając ten sam tag do tych nieco gorszej jakości obrazów, a następnie umieszczając je wszystkie w promptach negatywnych podczas uruchamiania modelu.

20240715v0.1

Ten model można uważać tylko za v0.1, nie jest zbyt łatwy w normalnym użyciu, i uważam, że najlepiej jest dokładniej oznaczyć więcej obrazów w zbiorze dla lepszych rezultatów. W przyszłości mogę powoli ukończyć szkolenie tego modelu.

Wydajność tej wersji nie jest najlepsza, generowane obrazy mogą często być chaotyczne.

Zebrałem ponad 100 obrazów jako zbiór danych, ale liczba jest nadal zbyt duża do ręcznego oznaczania. Początkowo użyłem wd1.4 do oznaczenia wszystkich obrazów, ale jakość oznaczeń nie była dobra, (może mój sposób użytkowania nie był wystarczająco poprawny, zapraszam do sugestii).

Chcąc szybko zobaczyć wyniki, w tym zbiorze oznaczyłem ręcznie tylko obrazy spełniające moje osobiste preferencje, więc efekt działania modelu będzie lepszy dla tych obrazów.

Poprzedni
Breakdancing PONY XL (Koncepcja) - v1.0
Następny
Goose Ambush - Illustrious - v1.0

Szczegóły modelu

Typ modelu

LORA

Model bazowy

Pony

Wersja modelu

v0.1

Hash modelu

33ee0b8061

Twórca

Dyskusja

Proszę się log in, aby dodać komentarz.

Obrazy autorstwa Vanillaware Style PonyXL - v0.1

Obrazy z styl

Obrazy z vanillaware