Szczegółowa ilustracja sowy w stylu tuszu z białymi oczami, skupiająca się na misternych piórach i linii.

Zalecane podpowiedzi

masterpiece

Zalecane negatywne podpowiedzi

worst quality,low quality,watermark

worst quality, low quality, watermark

Zalecane parametry

samplers

Euler_a, Euler a

steps

20 - 28

cfg

4 - 9

resolution

1024x1024, 1216x832, 800x1280, 1216x832, 832x1216, 1024x1024

vae

sdxl_vae.safetensors

Zalecane parametry wysokiej rozdzielczości

upscaler

Latent

upscale

1.5

steps

15 - 22

denoising strength

0.55 - 0.7

Wskazówki

Podczas promptowania stylów artystów, ich tagi muszą być w osobnym fragmencie CLIP — dodaj BREAK dla A1111 i pochodnych, użyj concat conditioning dla Comfy albo umieść je na samym końcu, aby uniknąć pogorszenia jakości.

Promptuj to, co chcesz zobaczyć i unikaj promptowania niechcianych elementów; model respektuje sprzeczne i złożone prompty bez prowadnic czy zabezpieczeń.

Używaj tylko czterech tagów jakości: pozytywne "masterpiece, best quality" oraz negatywne "low quality, worst quality"; metatagi takie jak "lowres" zostały usunięte i są nieskuteczne.

Dla najlepszej kontroli jasności i kolorów używaj metatagów takich jak niska/wysoka jasność, nasycenie, gamma, ostre/miękkie kolory, hdr oraz sdr.

Dla wersji vpred obniż CFG do 3-5 i używaj tych samych parametrów próbkowania; generuje płynne gradienty i pełen zakres kolorów.

Używaj pełnych nazw tagów booru dla postaci z odpowiednim formatowaniem, aby poprawić dokładność.

Unikaj długich, rozwlekłych promptów naturalnego tekstu; krótkie, czyste opisy najlepiej działają dla wejścia naturalnego tekstu.

Najważniejsze informacje o wersji

Główna aktualizacja

Sponsorzy twórcy

Dogłębne przeuczenie Illustrious, aby osiągnąć najlepszą zgodność z promptami, wiedzę i najnowocześniejsze wyniki.

Wielkie marzenia się spełniają

Numer wersji to tylko indeks obecnego finalnego wydania, a nie ułamek planowanego treningu.

Repozytorium HF

Dostrajanie na dużą skalę z użyciem klastra GPU z zestawem danych ~13 mln obrazów (~4 mln z naturalnymi podpisami tekstowymi)

  • Świeża i rozległa wiedza o postaciach, konceptach, stylach, kulturze i pokrewnych tematach

  • Najlepsza zgodność z promptami wśród modeli SDXL anime w momencie wydania

  • Rozwiązane główne problemy z przenikaniem tagów i uprzedzeniami, powszechne dla Illustrious, NoobAi i innych checkpointów

  • Świetna estetyka i wiedza na temat szerokiego zakresu stylów (ponad 50 000 artystów (przykłady), w tym setki unikalnych, starannie wyselekcjonowanych zestawów z prywatnych galerii, także otrzymanych od samych artystów)

  • Wysoka elastyczność i różnorodność bez kompromisu w stabilności

  • Brak uciążliwych znaków wodnych dla popularnych stylów dzięki czystemu zbiorowi danych

  • Żywe kolory i płynne gradienty bez śladów przypalenia, pełen zakres nawet w wersji epsilon

  • Czysty trening na bazie Illustrious v0.1 bez użycia checkpointów stron trzecich, Lora, tweakerów itp.

Są też pewne problemy i zmiany w porównaniu do poprzedniej wersji, proszę przeczytać dokumentację.

Przecięcie zbioru danych - koniec kwietnia 2025.

Funkcje i promptowanie:

Ważna zmiana:

Gdy promptujesz style artystów, zwłaszcza mieszasz kilka, ich tagi MUSZĄ być w osobnym fragmencie CLIP. Po prostu dodaj BREAK po nich (dla A1111 i pochodnych), użyj węzła condicion concat (dla Comfy) lub przynajmniej umieść je na samym końcu. W przeciwnym razie może dojść do znacznej degradacji jakości wyników.

Podstawy:

Checkpoint działa zarówno z krótkimi i prostymi, jak i długimi i złożonymi promptami. Jednak, jeśli pojawią się sprzeczności lub dziwne elementy - w przeciwieństwie do innych modeli - nie będą ignorowane, co wpływa na output. Brak prowadnic, zabezpieczeń, brak lobotomii.

Po prostu promptuj to, co chcesz zobaczyć i unikaj promptowania tego, co nie powinno się znaleźć na obrazku. Jeśli chcesz widok z góry - nie dodawaj sufitu do promptów pozytywnych, jeśli chcesz widok crop z głową poza ramką - nie rób szczegółowego opisu cech twarzy postaci itd. Proste, ale czasem ludzie o tym zapominają.

Wersja 0.8 ma zaawansowane rozumienie naturalnych promptów tekstowych. Nie oznacza to, że musisz z nich korzystać, tagi same w sobie - zupełnie wystarczające, zwłaszcza że zrozumienie kombinacji tagów również zostało poprawione.

Nie oczekuj, że będzie działać jak Flux lub inne modele oparte na T5 czy LLM enkoderach tekstu. Cały rozmiar checkpointa SDXL jest mniejszy niż sam ten enkoder tekstu, dodatkowo illustrious-v0.1, który jest bazą, całkowicie zapomniał wielu ogólnych informacji z vanilla sdxl-base.

Jednak w obecnym stanie działa znacznie lepiej, pozwala na nowe rzeczy zwykle niemożliwe bez zewnętrznej wskazówki, a także ułatwia ręczną edycję, inpainting itd.

Dla najlepszych wyników powinieneś kontrolować fragmenty CLIP. W SDXL prompt jest podzielony na fragmenty po 75 (77 z BOS i EOS) tokenów, które są przetwarzane przez CLIP osobno, a następnie łączone i przekazywane jako warunki do unet.

Jeśli chcesz wyodrębnić cechy postaci/obiektu i oddzielić je od pozostałej części promptu - upewnij się, że są w tym samym fragmencie i opcjonalnie oddziel je BREAK. To nie rozwiąże całkowicie problemu mieszania cech, ale może go zmniejszyć poprawiając ogólne zrozumienie, ponieważ enkodery tekstu w RouWei potrafią przetwarzać całą sekwencję, a nie pojedyncze koncepcje, lepiej niż inne.

Zbiór danych zawiera wyłącznie tagi w stylu booru i naturalne wyrażenia tekstowe. Pomimo udziału furry, zdjęć realnych, zachodnich mediów itp., wszystkie napisy zostały przekonwertowane do klasycznego stylu booru, aby uniknąć problemów wynikających z mieszania różnych systemów. Tagi e621 nie będą prawidłowo rozumiane.

Parametry próbkowania:

  • ~1 megapiksel dla txt2img, dowolny AR z rozdzielczością będącą wielokrotnością 32 (1024x1024, 1056x, 1152x, 1216x832,...). Euler_a, 20..28 kroków.

  • CFG: dla wersji epsilon 4..9 (7 jest najlepsze), dla wersji vpred 3..5

  • Mnożenie sigm może nieznacznie poprawić wyniki, próbki CFG++ działają dobrze. LCM/PCM/DMD/... i egzotyczne próbki nie były testowane.

  • Niektóre schedulery działają źle.

  • Highresfix - x1.5 latent + denoise 0.6 lub dowolny gan + denoise 0.3..0.55.

  • Dla wersji vpred konieczne jest niższe CFG 3..5!

Dla wersji vpred konieczne jest niższe CFG 3..5!

Klasyfikacja jakości:

Tylko 4 tagi jakości:

masterpiece, best quality

dodatnie oraz

low quality, worst quality

ujemne.

Nic więcej. Właściwie możesz pominąć tagi dodatnie i ograniczyć negatywne do low quality tylko, ponieważ wpływają one na podstawowy styl i kompozycję.

Metatagi jak lowres zostały usunięte i nie działają, lepiej ich nie używać. Obrazy o niskiej rozdzielczości zostały albo usunięte, albo poddane upscale'owi i oczyszczeniu przy pomocy DAT w zależności od ich ważności.

Negatywny prompt:

worst quality, low quality, watermark

To wszystko, nie ma potrzeby używania "rusty trombone", "farting on prey" i innych. Nie używaj tagów takich jak greyscale, monochrome w negatywnych, chyba że rozumiesz, co robisz. Można używać dodatkowych tagów dotyczących jasności/kolorów/kontrastu poniżej.

Style artystów:

Zbiory z przykładami, lista/wildcard (znajdują się też w "datach treningowych").

Używane z "by " jest obowiązkowe. Bez tego nie będzie działać poprawnie.

"by " to meta-token dla stylów, by uniknąć mieszania/zamieszania z tagami/postaciami o podobnych lub zbliżonych nazwach. Pozwala to uzyskać lepsze wyniki dla stylów i jednocześnie unika losowych wahań stylu, które można zauważyć w innych checkpointach.

Wiele ich razem daje interesujące rezultaty, można nimi sterować wagami prompta i czarami.

MUSISZ DODAĆ BREAK po tagach artystów/stylów (dla A1111) lub użyć concat conditioning (dla Comfy) albo umieścić je na samym końcu prompta.

Na przykład:

by kantoku, by wlop, best quality, masterpiece BREAK 1girl, ...

Style ogólne:

2.5d, anime screencap, bold line, sketch, cgi, digital painting, flat colors, smooth shading, minimalistic, ink style, oil style, pastel style

Style tagów booru:

1950s (style), 1960s (style), 1970s (style), 1980s (style), 1990s (style), 2000s (style), animification, art nouveau, pinup (style), toon (style), western comics (style), nihonga, shikishi, minimalism, fine art parody

oraz wszystko z tej grupy.

Można stosować w kombinacjach (również z artystami), z wagami, zarówno w promptach pozytywnych, jak i negatywnych.

Postaci:

Używaj pełnych nazw tagów booru i odpowiedniego formatowania, np. karin_(blue_archive) -> karin \(blue archive\), stosuj tagi skóry dla lepszego odwzorowania, np. karin \(bunny\) \(blue archive\). Auto-uzupełnianie może być bardzo pomocne.

Większość postaci jest rozpoznawana tylko po tagu booru, ale dokładniej jest, jeśli opiszesz podstawowe cechy. Możesz łatwo przebrać swoją waifu/husbendo poprzez prompt bez problemów typowych wycieków cech podstawowych.

Naturalny tekst:

Używaj w połączeniu z tagami booru, działa świetnie. Używaj tylko naturalnego tekstu po wpisaniu stylów i tagów jakości. Możesz używać tylko tagów booru i zapomnieć o tym, to zależy od Ciebie. Dla najlepszej wydajności kontroluj fragmenty CLIP 75 tokenów.

Około 4 mln obrazów w zbiorze miało hybrydowe podpisy naturalnym tekstem, tworzone przez Claude, GPT, Gemini, ToriiGate, następnie refaktoryzowane, oczyszczane i łączone z tagami w różnych wariantach dla augmentacji.

W przeciwieństwie do typowych podpisów zawierają nazwy postaci, co jest bardzo przydatne. Najlepiej trzymać się krótkich, jasnych i wygodnych opisów. Lepiej nie używać długich i rozwlekłych bzdetów jak

Tajemniczo czarująca żeńska istota o nieokreślonej, lecz młodzieńczej esencji, której niebiańska twarz promieniuje eterycznym blaskiem tysiąca umierających gwiazd, błogosławiona włosami spływającymi jak złote rzeki starożytnej mitologii, być może ułożonymi w sposób przypominający współczesne trendy mody, choć niekoniecznie podporządkowanymi żadnemu specyficznemu paradygmatowi estetycznemu. Jej oczy, głębiny trudne do zbadania i barwy, błyszczą mądrością tysiącleci, zachowując jednak niewinną jakość, która przeczy ograniczeniom czasowym...

Do podpisów możesz używać ToriiGate w trybie skróconym.

Nie oczekuj, że będzie tak dobre jak flux i inne, model bardzo się stara i zwykle po kilku próbach można uzyskać to, czego chcesz, ale nie jest aż tak stabilny i szczegółowy.

O tak

cenzura ogona, trzymanie własnego ogona, przytulanie własnego ogona, trzymanie ogona innego, chwyt ogona, ogon uniesiony, ogon opuszczony, uszy opuszczone, ręka na własnym uchu, ogon wokół własnej nogi, ogon wokół penisa, tailjob, ogon przez ubrania, ogon pod ubraniami, podniesiony przez ogon, gryzienie ogona, penetracja ogona (w tym oznaczenie waginalne/analne), masturbacja ogonem, trzymanie ogona, majtki na ogonie, biustonosz na ogonie, fokus na ogon, prezentowanie własnego ogona...

(znaczenie booru, nie e621) i wiele innych z naturalnym tekstem. Większość działa świetnie, niektóre wymagają wielu prób.

Jasność/kolory/kontrast:

Możesz używać dodatkowych metatagów do kontroli:

niska jasność, wysoka jasność, nasycenie niskie, nasycenie wysokie, niska gamma, wysoka gamma, ostre kolory, miękkie kolory, hdr, sdr

Przykład

Działają zarówno w wersji epsilon, jak i vpred i działają naprawdę dobrze.

Wersja epsilon zbytnio na nich polega. Bez niskiej jasności lub niskiej gammy albo ograniczonego zakresu (w negatywie) może być trudno osiągnąć prawdziwą czerń 0,0,0, podobnie z bielą.

Obie wersje epsilon i vpred mają prawdziwy zsnr, pełen zakres kolorów i jasności bez typowych wad. Ale zachowują się inaczej, po prostu spróbuj.

Wersja vpred

Główna rzecz, którą musisz wiedzieć - obniż CFG z 7 do 5 (lub mniej). Poza tym użycie jest podobne z korzyściami.

Wygląda na to, że od wersji 0.7 vpred działa bezbłędnie. Nie powinien ignorować tagów blisko granic fragmentu 75 tokenów jak nai. Trudniej uzyskać przypalone obrazy - nawet przy cfg7 zwykle są tylko przesycone, ale z gładkimi gradientami, co może być przydatne dla niektórych stylów. Tak, potrafi wygenerować wszystko od (0,0,0) do (255,255,255). Przydatne będą metatagi jasności opisane wyżej do łatwiejszego/porażonego promptowania, działają też naturalne wyrażenia tekstowe. Dla najciemniejszego obrazu - umieść wysoka jasność w negatywie i/lub użyj tagów niska jasność, niska gamma. Jeśli nie chcesz bardzo jasnej skóry na ciemnym tle i chcesz zmniejszyć kontrast (lub przeciwnie, wzmocnić efekt) - użyj hdr/sdr w negatywie/pozytywie.

Zgłoszono, że w rzadkich przypadkach przy niektórych promptach kontrast spada. Wygląda na to, że inne modele vpred mają podobne zachowanie z takimi promptami, dodanie "separatora" bliżej granicy fragmentu 75-tokenowego to naprawia. Jednak z 0.7 sam tego nie doświadczyłem.

Do uruchomienia wersji vpred potrzebna będzie dev build A1111, Comfy (ze specjalnym węzłem ładowania), Forge lub Reforge. Użyj tych samych parametrów (Euler a, cfg 3..5, 20..28 kroków) jak epsilon. Nie trzeba używać Cfg rescale, ale można spróbować, cfg++ działa świetnie.

Model bazowy:

Model tutaj ma małe poprawki unet po głównym treningu, by poprawić drobne detale, zwiększyć rozdzielczość itd. Możesz też być zainteresowany RouWei-Base, który czasem działa lepiej przy złożonych promptach, mimo drobnych błędów w detalach. Dostępny też w FP32, np. jeśli chcesz używać fp32 węzłów enkodera tekstu w Comfy, połączyć go lub dociągnąć.

Znajdziesz go w repozytorium Huggingface

Znane problemy:

Oczywiście są:

  • Tagi artystów i stylów muszą być oddzielnym fragmentem od głównego promptu lub znajdować się na samym końcu

  • Mogą występować pewne uprzedzenia pozycyjne lub kombinacyjne w rzadkich przypadkach, ale to nie jest jeszcze jasne.

  • Są pewne skargi na kilka ogólnych stylów.

  • Wersja epsilon zbytnio polega na metatagach jasności, czasami trzeba ich używać, aby uzyskać pożądane przesunięcie jasności

  • Niektóre nowo dodane style/postaci mogą być mniej dobre i wyraziste niż na to zasługują

  • Do odkrycia

Prośby o artystów/postaci w przyszłych modelach są otwarte. Jeśli znajdziesz artystę/postać/koncepcję, która działa słabo, niedokładnie lub ma silny znak wodny – zgłoś to, dodamy ją wyraźnie. Śledź nas na nowe wersje.

DOŁĄCZ DO SERWERA DISCORD

Licencja:

Tak jak illustrious. Śmiało używaj w swoich merge'ach, finetuningu itp., ale pozostaw link lub wzmiankę, to obowiązkowe

Jak to zostało zrobione

Rozważę przygotowanie raportu lub czegoś podobnego później. Na pewno.

W skrócie, 98% pracy dotyczyło przygotowania zbioru danych. Zamiast ślepo polegać na ważeniu strat na podstawie częstotliwości tagów z pracy nai, zastosowano własne prowadzone ważenie strat wraz z asynchronicznym kolatorem do balansowania. Ztsnr (lub coś bliskiego) z predykcją Epsilon osiągnięto za pomocą augmentacji scheduera szumu.

Zużyte zasoby - ponad 8 tys. godzin H100 (poza badaniami i nieudanymi próbkami)

Podziękowania:

Przede wszystkim chciałbym podziękować wszystkim, którzy wspierają open source, rozwijają i ulepszają kod. Podziękowania dla autorów illustrious za wydanie modelu, dla zespołu NoobAI za bycie pionierami otwartego finetuningu na taką skalę, dzielenie się doświadczeniem, zgłaszanie i rozwiązywanie problemów wcześniej niezauważonych.

Osobiste:

Artyści chcą pozostać anonimowi za udostępnianie prywatnych prac; kilka anonimowych osób - darowizny, kod, podpisy itd., Soviet Cat - sponsorowanie GPU; Sv1. - dostęp do llm, podpisywanie, kod; K. - kod treningowy; Bakariso - zbiory danych, testy, porady, informacje; NeuroSenko - darowizny, testowanie, kod; LOL2024 - wiele unikalnych zestawów; T.,[] - zbiory danych, testy, porady; rred, dga, Fi., ello - darowizny; TekeshiX - zbiory danych. I inni bracia, którzy pomagali. Kocham was bardzo ❤️.

Oczywiście także każdemu, kto dawał feedback i prośby, to bardzo cenne.

Jeśli pominąłem kogoś, proszę o zgłoszenie.

Darowizny

Jeśli chcesz wspierać - udostępniaj moje modele, zostawiaj feedback, twórz urocze obrazki z kemonomimi-girl. I oczywiście wspieraj oryginalnych artystów.

AI to moje hobby, wydaję na to pieniądze i nie proszę o darowizny. Jednak przerodziło się to w duże i kosztowne przedsięwzięcie. Rozważ wsparcie, by przyspieszyć nowe treningi i badania.

(Pamiętaj, że mogę je wydać na alkohol lub cosplay girls)

BTC: bc1qwv83ggq8rvv07uk6dv4njs0j3yygj3aax4wg6c

ETH/USDT(e): 0x04C8a749F49aE8a56CB84cF0C99CD9E92eDB17db

XMR: 47F7JAyKP8tMBtzwxpoZsUVB8wzg2VrbtDKBice9FAS1FikbHEXXPof4PAb42CQ5ch8p8Hs4RvJuzPHDtaVSdQzD6ZbA5TZ

jeśli możesz zaoferować czas na GPU (a100+) - napisz PM.

Poprzedni
ADD Transluminescent! - V1
Następny
Vessels Style SDXL - v1.0

Szczegóły modelu

Typ modelu

Checkpoint

Model bazowy

Illustrious

Wersja modelu

v0.8.0 epsilon

Hash modelu

1aba15decd

Dyskusja

Proszę się log in, aby dodać komentarz.