Bezpłciowa dziewczyna z długimi czarnymi włosami i czarną szatą z szachownicowymi wzorami stoi na gigantycznym pianinie, złośliwie się uśmiechając, podczas gdy czarny wilk chodzi po pejzażu z szachownicowego piasku poniżej.

Zalecane podpowiedzi

masterpiece

Zalecane negatywne podpowiedzi

worst quality,low quality,watermark

worst quality, low quality, watermark

Zalecane parametry

samplers

Euler_a, Euler a

steps

20 - 28

cfg

4 - 9

resolution

1024x1024, 1216x832, 1376x832, 1280x800, 1200x1920, 832x1216, 1216x832

vae

sdxl_vae.safetensors

Zalecane parametry wysokiej rozdzielczości

upscaler

Latent

upscale

1.5

steps

15 - 22

denoising strength

0.5 - 0.65

Wskazówki

Tagi artysty/stylu muszą być w osobnym kawałku CLIP lub na końcu promptu z tokenem BREAK dla najlepszego odwzorowania promptu.

Używaj tylko 4 tagów jakości: 'masterpiece' i 'best quality' dla pozytywnych, 'low quality' i 'worst quality' dla negatywnych promptów.

Unikaj tagów meta jak 'lowres'; zostały usunięte i nie wpływają na wyniki.

Dla wersji vpred stosuj niższe wartości CFG (3 do 5).

Meta tagi związane z jasnością, kontrastem i kolorem (np. 'niska jasność', 'wysoka saturacja') poprawiają jakość wyjścia i działają w obu wersjach epsilon i vpred.

Używaj naturalnego tekstu z tagami booru i utrzymuj prompty krótkie i jasne dla najlepszych wyników.

Wiele stylów artystów można łączyć z wagami i zaklęciami promptów.

Najważniejsze informacje o wersji

Vpred dla v0.8

Sponsorzy twórcy

Wspieraj model i autorów przez Repozytorium Huggingface oraz dołącz do Serwera Discord. Wpłaty możliwe BTC, ETH/USDT, XMR lub czas GPU (A100+). Szczegóły na stronie.

Dogłębne przetrenowanie Illustrious, aby osiągnąć najlepsze odwzorowanie promptu, wiedzę i najnowocześniejszą wydajność.

Wielkie marzenia się spełniają

Numer wersji to tylko indeks obecnego finalnego wydania, a nie ułamek planowanego treningu.

Repozytorium HF

Dopasowanie na dużą skalę z użyciem klastra GPU i zbioru danych ~13 mln obrazów (~4 mln z naturalnymi podpisami)

  • Świeża i szeroka wiedza o postaciach, koncepcjach, stylach, kulturze i pokrewnych tematach

  • Najlepsze odwzorowanie promptu wśród modeli SDXL anime w momencie wydania

  • Rozwiązane główne problemy z przenikaniem tagów i uprzedzeniami, charakterystyczne dla Illustrious, NoobAi i innych checkpointów

  • Doskonale estetyka i wiedza obejmująca szeroki zakres stylów (ponad 50 000 artystów (przykłady), w tym setki unikalnych, starannie wybranych zbiorów z prywatnych galerii, w tym otrzymanych od samych artystów)

  • Wysoka elastyczność i różnorodność bez kompromisów w stabilności

  • Brak irytujących znaków wodnych dla popularnych stylów dzięki czystemu zbiorowi danych

  • Żywe kolory i płynne przejścia bez śladów przepalenia, pełny zakres nawet w wersji epsilon

  • Czysty trening z Illustrious v0.1 bez udziału checkpointów stron trzecich, Lorasów, modyfikatorów itp.

Są też pewne problemy i zmiany w porównaniu do poprzedniej wersji, proszę o przeczytanie dokumentacji.

Przerwanie danych - koniec kwietnia 2025.

Funkcje i promptowanie:

Ważna zmiana:

Podczas promptowania stylów artystów, zwłaszcza mieszaniny kilku, ich tagi MUSZĄ BYĆ w osobnym kawałku CLIP. Dodaj po nich BREAK (dla A1111 i pochodnych), użyj węzła concatenation conditioning (dla Comfy) lub przynajmniej umieść je na samym końcu promptu. W przeciwnym razie możliwa jest znaczna degradacja wyników.

Podstawowe:

Checkpoint działa z krótkimi i prostymi oraz z długimi i złożonymi promptami. Jednak jeśli występują sprzeczności lub dziwne treści - inaczej niż w innych modelach, nie będą ignorowane i wpłyną na rezultat. Brak zabezpieczeń i ograniczeń.

Po prostu podaj co chcesz zobaczyć i nie promptuj tego, co nie powinno być na obrazie. Jeśli chcesz widok z góry - nie dodawaj sufitu pozytywnie, jeśli chcesz widok przycięty z głową poza kadrem - nie opisuj szczegółowo rysów twarzy, itd. Proste, ale często pomijane.

Wersja 0.8 ma zaawansowane rozumienie naturalnych promptów tekstowych. Nie oznacza to, że musisz ich używać, samo tagowanie też działa, i to z lepszym zrozumieniem kombinacji tagów.

Nie oczekuj działania jak Flux czy inne modele bazujące na T5 lub LLM. Cały model SDXL jest mniejszy niż sam ten enkoder tekstu, a baza illustrious-v0.1 zapomniała wiele rzeczy z vanilla sdxl-base.

Mimo to działa znacznie lepiej, pozwalając na nowe możliwości zwykle niemożliwe bez zewnętrznej kontroli, ułatwia ręczne edycje, inpainting itd.

Dla najlepszej wydajności warto śledzić kawałki CLIP. W SDXL prompt jest dzielony na kawałki po 75 tokenów (77 z BOS i EOS), które CLIP przetwarza oddzielnie, potem są łączone i podawane do unetu.

Jeśli chcesz określić cechy postaci/obiektu i oddzielić je od reszty promptu - umieść je w tym samym kawałku i opcjonalnie odizoluj BREAK. Nie rozwiąże to całkowicie mieszania cech, ale może poprawić ogólne zrozumienie, ponieważ enkodery tekstu w RouWei lepiej przetwarzają sekwencję całościowo niż pojedyncze koncepcje.

Zbiór danych zawiera tylko tagi w stylu booru i naturalny tekst. Pomimo obecności futrzaków, zdjęć życia codziennego, mediów zachodnich itp., podpisy zostały przekształcone do klasycznego stylu booru, by uniknąć problemów ze łączeniem różnych systemów. Tagów e621 nie rozumie poprawnie.

Parametry próbkowania:

  • ~1 megapiksel dla txt2img, dowolny AR wielokrotność 32 (1024x1024, 1056x, 1152x, 1216x832,...). Euler_a, 20..28 kroków.

  • CFG: dla wersji epsilon 4..9 (7 najlepsze), dla vpred 3..5

  • Mnożenie Sigmas może nieco poprawić wyniki, samplery CFG++ działają dobrze. LCM/PCM/DMD/... i egzotyczne nie testowane.

  • Niektóre schedulery działają słabo.

  • Highresfix - x1.5 latent + denoise 0.6 lub dowolne gan + denoise 0.3..0.55.

  • Dla wersji vpred konieczne jest niższe CFG 3..5!

Dla wersji vpred konieczne jest niższe CFG 3..5!

Klasyfikacja jakości:

Tylko 4 tagi jakości:

masterpiece, best quality

dla promptów pozytywnych oraz

low quality, worst quality

dla negatywnych.

Nic więcej. Można nawet pominąć pozytywne i ograniczyć negatywne do low quality bo to wpływa na styl i kompozycję.

Tagi meta jak lowres zostały usunięte, lepiej ich nie używać. Niskiej rozdzielczości obrazy usunięto albo poddano upscale i czyszczeniu DAT zależnie od istotności.

Negative prompt:

worst quality, low quality, watermark

Tylko tyle, nie są potrzebne "rusty trombone", "farting on prey" i inne. Nie dodawaj tagów typu greyscale, monochrome w negatywnym, chyba że dokładnie wiesz co robisz. Dodatkowe tagi do jasności/kolorów/kontrastu można używać (patrz niżej).

Style artystów:

Gridy z przykładami, lista/wildcard (dostępne też w "training data").

Obowiązkowo używaj "by " jako prefiksu. Bez tego tagi stylu nie działają poprawnie.

"by " to metatag stylów, zapobiega mieszaniu i błędnej interpretacji tagów czy postaci o podobnych nazwach. Dzięki temu uzyskuje się lepsze wyniki i unika losowych fluktuacji stylu obserwowanych w innych checkpointach.

Kilka stylów można łączyć, kontrolować to można wagami w promptach i zaklęciami.

MUSISZ dodać BREAK po tagach artystów/stylów (dla A1111) lub concatenation conditioning (dla Comfy), albo umieścić je na końcu promptu.

Przykład:

by kantoku, by wlop, best quality, masterpiece BREAK 1girl, ...

Style ogólne:

2.5d, anime screencap, bold line, sketch, cgi, digital painting, flat colors, smooth shading, minimalistic, ink style, oil style, pastel style

Style tagów booru:

1950s (style), 1960s (style), 1970s (style), 1980s (style), 1990s (style), 2000s (style), animification, art nouveau, pinup (style), toon (style), western comics (style), nihonga, shikishi, minimalism, fine art parody

oraz wszystko z tej grupy.

Można używać łącznie (również z artystami), wagami, zarówno w promptach pozytywnych jak i negatywnych.

Postacie:

Używaj pełnych nazw tagów booru i poprawnego formatowania, np. karin_(blue_archive)karin \(blue archive\), używaj tagów skóry dla lepszego odwzorowania, np. karin \(bunny\) \(blue archive\). Wtyczka autocomplete jest bardzo pomocna.

Większość postaci rozpoznawana jest po tagu booru, ale dokładniejsze są jeśli opiszesz ich cechy. Możesz łatwo przebierać waifu/husbenda przez prompt bez narażania się na typowe błędy w podstawowych cechach.

Naturalny tekst:

Używaj go razem z tagami booru, działa świetnie. Stosuj tylko naturalny tekst po stylach i tagach jakości. Możesz używać samych tagów booru, to Twój wybór. Aby uzyskać najlepsze rezultaty, pilnuj kawałków CLIP po 75 tokenów.

Około 4 mln obrazów w zbiorze miało hybrydowe podpisy natural-tekst, stworzone przez Claude, GPT, Gemini, ToriiGate, następnie przetworzone, wyczyszczone i połączone z tagami w różnorodne wariacje do augmentacji.

W odróżnieniu od zwykłych podpisów, zawierają one nazwy postaci, co jest bardzo użyteczne. Najlepiej utrzymywać czysty, krótki, wygodny opis. Nie używaj długiego, chaotycznego bełkotu jak

Tajemniczo urzekająca kobieca istota o nieokreślonej, lecz młodzieńczej esencji, której niebiańska twarz świeci eterycznym blaskiem tysiąca umierających gwiazd, obdarzona włosami opadającymi niczym złote rzeki starożytnej mitologii, być może ułożonymi w sposób przypominający współczesne trendy modowe, niekoniecznie przestrzegającymi określonego paradygmatu estetycznego. Jej oczy, głębokie i barwne, błyszczą mądrością tysiącleci, zachowując niewinność przekraczającą granice czasu...

Do podpisywania można używać ToriiGate w trybie skróconym.

Nie oczekuj jednak jakości jak flux i inne, model bardzo się stara, po kilku próbach zwykle można uzyskać oczekiwany efekt, ale nie jest on tak stabilny i szczegółowy.

Tak, tak

cenzura ogona, trzymanie własnego ogona, przytulanie własnego ogona, trzymanie czyjegoś ogona, chwyt ogona, ogon uniesiony, ogon opuszczony, uszy opuszczone, ręka na własnym uchu, ogon wokół własnej nogi, ogon wokół penisa, gra ogonem, ogon przez ubranie, ogon pod ubraniem, uniesiony przez ogon, gryzienie ogona, penetracja ogona (w tym waginalna/analna), masturbacja ogonem, trzymanie ogona, majtki na ogonie, biustonosz na ogonie, ogon w centrum uwagi, prezentowanie własnego ogona...

(znaczenie booru, nie e621) i wiele innych z naturalnym tekstem. Większość działa perfekcyjnie, niektóre wymagają wielu prób.

Jasność/kolory/kontrast:

Możesz używać dodatkowych tagów meta do kontroli:

niska jasność, wysoka jasność, niska saturacja, wysoka saturacja, niska gamma, wysoka gamma, ostre kolory, miękkie kolory, hdr, sdr

Przykład

Działa to dobrze zarówno w wersji epsilon jak i vpred.

Wersja epsilon zbytnio polega na nich. Bez niskiej jasności lub niskiej gammie lub ograniczonego zakresu (w negatywnym prompt) trudno uzyskać prawdziwą czerń 0,0,0, podobnie z bielą.

Obie wersje mają prawdziwe zsnr, pełny zakres kolorów i jasności bez typowych wad. Zachowują się jednak różnie, spróbuj sam.

Wersja vpred

Główna uwaga to obniżenie CFG z 7 do 5 (lub mniej). Poza tym użycie podobne z zaletami.

Od v0.7 vpred działa bez zarzutu. Nie ignoruje tagów blisko granic 75-tokenowych chunków jak nai. Trudniej uzyskać przepalone obrazy - na cfg7 zazwyczaj tylko przesycenie kolorów z gładkimi przejściami, co bywa zaletą dla niektórych stylów. Tak, może generować wszystko od (0,0,0) do (255,255,255). Tagi jasności opisane powyżej ułatwiają promptowanie, naturalny tekst też działa. Aby uzyskać ciemniejszy obraz dodaj wysoka jasność do promptu negatywnego i/lub niska jasność, niska gamma. Jeśli nie chcesz bardzo jasnej skóry na ciemnym tle i chcesz zmniejszyć kontrast (lub odwrotnie zwiększyć) - użyj hdr/sdr w odpowiednich promptach.

Zgłaszano rzadkie przypadki spadku kontrastu przy niektórych promptach. Inne modele vpred zachowują się podobnie, dodanie "separatora" bliżej granicy 75-tokenowego chunku rozwiązuje problem. W 0.7 osobiście tego nie zaobserwowałem.

Do uruchomienia wersji vpred potrzebna jest dev build A1111, Comfy (ze specjalnym loaderem), Forge lub Reforge. Używaj takich samych parametrów (Euler a, cfg 3..5, 20..28 kroków) jak epsilon. Nie musisz używać Cfg rescale, ale możesz, cfg++ działa świetnie.

Model bazowy:

Model ma drobne poprawki unet po głównym treningu dla ulepszenia detali, rozdzielczości i innych. Możesz być też zainteresowany RouWei-Base, który czasem lepiej radzi sobie przy złożonych promptach mimo drobnych błędów w detalach. Dostępny także w FP32, np. do użycia fp32 text encoderów w Comfy, merge'owania lub dalszego trenowania.

Dostępny w repozytorium Huggingface

Znane problemy:

Oczywiście występują:

  • Tagi artystów i stylów muszą być oddzielone w osobny chunk lub być na końcu promptu

  • Mogą występować rzadkie uprzedzenia pozycyjne lub kombinatoryczne, nie jest to jeszcze jasne.

  • Są skargi na niektóre ogólne style.

  • Wersja epsilon zbytnio polega na tagach jasności, czasem trzeba ich użyć, aby uzyskać pożądane przesunięcie jasności

  • Niektóre nowo dodane style/postaci mogą być niedoskonałe i nieodróżnialne jak powinny

  • Do odkrycia

Prośby o artystów/postacie do przyszłych modeli są otwarte. Jeśli znajdziesz artystę/postać/koncepcję, która działa słabo, niedokładnie lub ma mocny znak wodny - zgłoś to, zostaną dodane explicite. Śledź nowe wersje.

DOŁĄCZ DO SERWERA DISCORD

Licencja:

Ta sama co illustrious. Możesz używać w swoich merge'ach, fine-tunach itd., ale proszę o podanie linku lub wzmianki, jest to obowiązkowe.

Jak powstało

Rozważę zrobienie raportu lub czegoś podobnego później. Na pewno.

W skrócie, 98% pracy to przygotowanie zbioru danych. Zamiast polegać ślepo na ważeniu strat bazującym na częstotliwości tagów z artykułu nai, użyto własną implementację ważenia strat sterowaną oraz asynchroniczny collator do balansowania. Ztsnr (lub blisko niego) z predykcją Epsilon osiągnięto używając augmentacji schedule'ra szumu.

Zużyty czas obliczeniowy - ponad 8 tys. godzin na H100 (poza badaniami i nieudanymi próbami)

Podziękowania:

Przede wszystkim chciałbym podziękować wszystkim, którzy wspierają open source, rozwijają i ulepszają kod. Dzięki autorom illustrious za udostępnienie modelu, zespołowi NoobAI za pionierskie otwarte fine-tuning na taką skalę, za dzielenie się doświadczeniem, zgłaszanie i rozwiązywanie problemów nie zauważanych wcześniej.

Osobiste:

Artyści chcą pozostać anonimowi za udostępnianie prywatnych prac; Kilka anonimowych osób - darowizny, kod, podpisy itd., Soviet Cat - sponsoring GPU; Sv1. - dostęp do llm, podpisy, kod; K. - kod treningu; Bakariso - zbiory danych, testy, porady, uwagi; NeuroSenko - darowizny, testy, kod; LOL2024 - wiele unikalnych zbiorów; T.,[] - zbiory, testy, porady; rred, dga, Fi., ello - darowizny; TekeshiX - zbiory. I inni bracia, którzy pomagali. Kocham was bardzo ❤️.

Oczywiście wszystkim, którzy dali feedback i prośby, to bardzo cenne.

Jeśli kogoś pominąłem, proszę o informację.

Darowizny

Jeśli chcesz wesprzeć - udostępniaj moje modele, zostaw feedback, zrób uroczy obrazek z dziewczyną kemonomimi. I oczywiście, wspieraj oryginalnych artystów.

Sztuczna inteligencja to moje hobby, wydaję na to pieniądze, nie proszę o datki. Jednak przedsięwzięcie stało się duże i kosztowne. Rozważ wsparcie dla przyspieszenia nowych treningów i badań.

(Pamiętaj tylko, że mogę je przepić na alkohol albo cosplay girls)

BTC: bc1qwv83ggq8rvv07uk6dv4njs0j3yygj3aax4wg6c

ETH/USDT(e): 0x04C8a749F49aE8a56CB84cF0C99CD9E92eDB17db

XMR: 47F7JAyKP8tMBtzwxpoZsUVB8wzg2VrbtDKBice9FAS1FikbHEXXPof4PAb42CQ5ch8p8Hs4RvJuzPHDtaVSdQzD6ZbA5TZ

jeśli możesz zaoferować czas gpu (a100+) - napisz do mnie.

Poprzedni
Colorful Chaos Cracks and Drops XL - v1.0
Następny
Psychedelic Vibes Artstyle - (Dreambooth Trained - SDXL LoRA) - v1.0

Szczegóły modelu

Typ modelu

Checkpoint

Model bazowy

Illustrious

Wersja modelu

v0.8.0 vpred

Hash modelu

1a40b1babc

Dyskusja

Proszę się log in, aby dodać komentarz.

Obrazy autorstwa RouWei - v0.8.0 vpred

Obrazy z anime

Obrazy z model bazowy

Obrazy z wspaniały