RouWei - v0.8.0 epsilon
Powiązane słowa kluczowe i tagi
Zalecane podpowiedzi
masterpiece
Zalecane negatywne podpowiedzi
worst quality,low quality,watermark
worst quality, low quality, watermark
Zalecane parametry
samplers
steps
cfg
resolution
vae
Zalecane parametry wysokiej rozdzielczości
upscaler
upscale
steps
denoising strength
Wskazówki
Podczas promptowania stylów artystów, ich tagi muszą być w osobnym fragmencie CLIP — dodaj BREAK dla A1111 i pochodnych, użyj concat conditioning dla Comfy albo umieść je na samym końcu, aby uniknąć pogorszenia jakości.
Promptuj to, co chcesz zobaczyć i unikaj promptowania niechcianych elementów; model respektuje sprzeczne i złożone prompty bez prowadnic czy zabezpieczeń.
Używaj tylko czterech tagów jakości: pozytywne "masterpiece, best quality" oraz negatywne "low quality, worst quality"; metatagi takie jak "lowres" zostały usunięte i są nieskuteczne.
Dla najlepszej kontroli jasności i kolorów używaj metatagów takich jak niska/wysoka jasność, nasycenie, gamma, ostre/miękkie kolory, hdr oraz sdr.
Dla wersji vpred obniż CFG do 3-5 i używaj tych samych parametrów próbkowania; generuje płynne gradienty i pełen zakres kolorów.
Używaj pełnych nazw tagów booru dla postaci z odpowiednim formatowaniem, aby poprawić dokładność.
Unikaj długich, rozwlekłych promptów naturalnego tekstu; krótkie, czyste opisy najlepiej działają dla wejścia naturalnego tekstu.
Najważniejsze informacje o wersji
Główna aktualizacja
Sponsorzy twórcy
Dogłębne przeuczenie Illustrious, aby osiągnąć najlepszą zgodność z promptami, wiedzę i najnowocześniejsze wyniki.
Wielkie marzenia się spełniają
Numer wersji to tylko indeks obecnego finalnego wydania, a nie ułamek planowanego treningu.
Dostrajanie na dużą skalę z użyciem klastra GPU z zestawem danych ~13 mln obrazów (~4 mln z naturalnymi podpisami tekstowymi)
Świeża i rozległa wiedza o postaciach, konceptach, stylach, kulturze i pokrewnych tematach
Najlepsza zgodność z promptami wśród modeli SDXL anime w momencie wydania
Rozwiązane główne problemy z przenikaniem tagów i uprzedzeniami, powszechne dla Illustrious, NoobAi i innych checkpointów
Świetna estetyka i wiedza na temat szerokiego zakresu stylów (ponad 50 000 artystów (przykłady), w tym setki unikalnych, starannie wyselekcjonowanych zestawów z prywatnych galerii, także otrzymanych od samych artystów)
Wysoka elastyczność i różnorodność bez kompromisu w stabilności
Brak uciążliwych znaków wodnych dla popularnych stylów dzięki czystemu zbiorowi danych
Żywe kolory i płynne gradienty bez śladów przypalenia, pełen zakres nawet w wersji epsilon
Czysty trening na bazie Illustrious v0.1 bez użycia checkpointów stron trzecich, Lora, tweakerów itp.
Są też pewne problemy i zmiany w porównaniu do poprzedniej wersji, proszę przeczytać dokumentację.
Przecięcie zbioru danych - koniec kwietnia 2025.
Funkcje i promptowanie:
Ważna zmiana:
Gdy promptujesz style artystów, zwłaszcza mieszasz kilka, ich tagi MUSZĄ być w osobnym fragmencie CLIP. Po prostu dodaj BREAK po nich (dla A1111 i pochodnych), użyj węzła condicion concat (dla Comfy) lub przynajmniej umieść je na samym końcu. W przeciwnym razie może dojść do znacznej degradacji jakości wyników.
Podstawy:
Checkpoint działa zarówno z krótkimi i prostymi, jak i długimi i złożonymi promptami. Jednak, jeśli pojawią się sprzeczności lub dziwne elementy - w przeciwieństwie do innych modeli - nie będą ignorowane, co wpływa na output. Brak prowadnic, zabezpieczeń, brak lobotomii.
Po prostu promptuj to, co chcesz zobaczyć i unikaj promptowania tego, co nie powinno się znaleźć na obrazku. Jeśli chcesz widok z góry - nie dodawaj sufitu do promptów pozytywnych, jeśli chcesz widok crop z głową poza ramką - nie rób szczegółowego opisu cech twarzy postaci itd. Proste, ale czasem ludzie o tym zapominają.
Wersja 0.8 ma zaawansowane rozumienie naturalnych promptów tekstowych. Nie oznacza to, że musisz z nich korzystać, tagi same w sobie - zupełnie wystarczające, zwłaszcza że zrozumienie kombinacji tagów również zostało poprawione.
Nie oczekuj, że będzie działać jak Flux lub inne modele oparte na T5 czy LLM enkoderach tekstu. Cały rozmiar checkpointa SDXL jest mniejszy niż sam ten enkoder tekstu, dodatkowo illustrious-v0.1, który jest bazą, całkowicie zapomniał wielu ogólnych informacji z vanilla sdxl-base.
Jednak w obecnym stanie działa znacznie lepiej, pozwala na nowe rzeczy zwykle niemożliwe bez zewnętrznej wskazówki, a także ułatwia ręczną edycję, inpainting itd.
Dla najlepszych wyników powinieneś kontrolować fragmenty CLIP. W SDXL prompt jest podzielony na fragmenty po 75 (77 z BOS i EOS) tokenów, które są przetwarzane przez CLIP osobno, a następnie łączone i przekazywane jako warunki do unet.
Jeśli chcesz wyodrębnić cechy postaci/obiektu i oddzielić je od pozostałej części promptu - upewnij się, że są w tym samym fragmencie i opcjonalnie oddziel je BREAK. To nie rozwiąże całkowicie problemu mieszania cech, ale może go zmniejszyć poprawiając ogólne zrozumienie, ponieważ enkodery tekstu w RouWei potrafią przetwarzać całą sekwencję, a nie pojedyncze koncepcje, lepiej niż inne.
Zbiór danych zawiera wyłącznie tagi w stylu booru i naturalne wyrażenia tekstowe. Pomimo udziału furry, zdjęć realnych, zachodnich mediów itp., wszystkie napisy zostały przekonwertowane do klasycznego stylu booru, aby uniknąć problemów wynikających z mieszania różnych systemów. Tagi e621 nie będą prawidłowo rozumiane.
Parametry próbkowania:
~1 megapiksel dla txt2img, dowolny AR z rozdzielczością będącą wielokrotnością 32 (1024x1024, 1056x, 1152x, 1216x832,...). Euler_a, 20..28 kroków.
CFG: dla wersji epsilon 4..9 (7 jest najlepsze), dla wersji vpred 3..5
Mnożenie sigm może nieznacznie poprawić wyniki, próbki CFG++ działają dobrze. LCM/PCM/DMD/... i egzotyczne próbki nie były testowane.
Niektóre schedulery działają źle.
Highresfix - x1.5 latent + denoise 0.6 lub dowolny gan + denoise 0.3..0.55.
Dla wersji vpred konieczne jest niższe CFG 3..5!
Dla wersji vpred konieczne jest niższe CFG 3..5!
Klasyfikacja jakości:
Tylko 4 tagi jakości:
masterpiece, best qualitydodatnie oraz
low quality, worst qualityujemne.
Nic więcej. Właściwie możesz pominąć tagi dodatnie i ograniczyć negatywne do low quality tylko, ponieważ wpływają one na podstawowy styl i kompozycję.
Metatagi jak lowres zostały usunięte i nie działają, lepiej ich nie używać. Obrazy o niskiej rozdzielczości zostały albo usunięte, albo poddane upscale'owi i oczyszczeniu przy pomocy DAT w zależności od ich ważności.
Negatywny prompt:
worst quality, low quality, watermarkTo wszystko, nie ma potrzeby używania "rusty trombone", "farting on prey" i innych. Nie używaj tagów takich jak greyscale, monochrome w negatywnych, chyba że rozumiesz, co robisz. Można używać dodatkowych tagów dotyczących jasności/kolorów/kontrastu poniżej.
Style artystów:
Zbiory z przykładami, lista/wildcard (znajdują się też w "datach treningowych").
Używane z "by " jest obowiązkowe. Bez tego nie będzie działać poprawnie.
"by " to meta-token dla stylów, by uniknąć mieszania/zamieszania z tagami/postaciami o podobnych lub zbliżonych nazwach. Pozwala to uzyskać lepsze wyniki dla stylów i jednocześnie unika losowych wahań stylu, które można zauważyć w innych checkpointach.
Wiele ich razem daje interesujące rezultaty, można nimi sterować wagami prompta i czarami.
MUSISZ DODAĆ BREAK po tagach artystów/stylów (dla A1111) lub użyć concat conditioning (dla Comfy) albo umieścić je na samym końcu prompta.
Na przykład:
by kantoku, by wlop, best quality, masterpiece BREAK 1girl, ...Style ogólne:
2.5d, anime screencap, bold line, sketch, cgi, digital painting, flat colors, smooth shading, minimalistic, ink style, oil style, pastel styleStyle tagów booru:
1950s (style), 1960s (style), 1970s (style), 1980s (style), 1990s (style), 2000s (style), animification, art nouveau, pinup (style), toon (style), western comics (style), nihonga, shikishi, minimalism, fine art parodyoraz wszystko z tej grupy.
Można stosować w kombinacjach (również z artystami), z wagami, zarówno w promptach pozytywnych, jak i negatywnych.
Postaci:
Używaj pełnych nazw tagów booru i odpowiedniego formatowania, np. karin_(blue_archive) -> karin \(blue archive\), stosuj tagi skóry dla lepszego odwzorowania, np. karin \(bunny\) \(blue archive\). Auto-uzupełnianie może być bardzo pomocne.
Większość postaci jest rozpoznawana tylko po tagu booru, ale dokładniej jest, jeśli opiszesz podstawowe cechy. Możesz łatwo przebrać swoją waifu/husbendo poprzez prompt bez problemów typowych wycieków cech podstawowych.
Naturalny tekst:
Używaj w połączeniu z tagami booru, działa świetnie. Używaj tylko naturalnego tekstu po wpisaniu stylów i tagów jakości. Możesz używać tylko tagów booru i zapomnieć o tym, to zależy od Ciebie. Dla najlepszej wydajności kontroluj fragmenty CLIP 75 tokenów.
Około 4 mln obrazów w zbiorze miało hybrydowe podpisy naturalnym tekstem, tworzone przez Claude, GPT, Gemini, ToriiGate, następnie refaktoryzowane, oczyszczane i łączone z tagami w różnych wariantach dla augmentacji.
W przeciwieństwie do typowych podpisów zawierają nazwy postaci, co jest bardzo przydatne. Najlepiej trzymać się krótkich, jasnych i wygodnych opisów. Lepiej nie używać długich i rozwlekłych bzdetów jak
Tajemniczo czarująca żeńska istota o nieokreślonej, lecz młodzieńczej esencji, której niebiańska twarz promieniuje eterycznym blaskiem tysiąca umierających gwiazd, błogosławiona włosami spływającymi jak złote rzeki starożytnej mitologii, być może ułożonymi w sposób przypominający współczesne trendy mody, choć niekoniecznie podporządkowanymi żadnemu specyficznemu paradygmatowi estetycznemu. Jej oczy, głębiny trudne do zbadania i barwy, błyszczą mądrością tysiącleci, zachowując jednak niewinną jakość, która przeczy ograniczeniom czasowym...Do podpisów możesz używać ToriiGate w trybie skróconym.
Nie oczekuj, że będzie tak dobre jak flux i inne, model bardzo się stara i zwykle po kilku próbach można uzyskać to, czego chcesz, ale nie jest aż tak stabilny i szczegółowy.
Mnóstwo koncepcji związanych z ogonami/uszami:
O tak
cenzura ogona, trzymanie własnego ogona, przytulanie własnego ogona, trzymanie ogona innego, chwyt ogona, ogon uniesiony, ogon opuszczony, uszy opuszczone, ręka na własnym uchu, ogon wokół własnej nogi, ogon wokół penisa, tailjob, ogon przez ubrania, ogon pod ubraniami, podniesiony przez ogon, gryzienie ogona, penetracja ogona (w tym oznaczenie waginalne/analne), masturbacja ogonem, trzymanie ogona, majtki na ogonie, biustonosz na ogonie, fokus na ogon, prezentowanie własnego ogona...(znaczenie booru, nie e621) i wiele innych z naturalnym tekstem. Większość działa świetnie, niektóre wymagają wielu prób.
Jasność/kolory/kontrast:
Możesz używać dodatkowych metatagów do kontroli:
niska jasność, wysoka jasność, nasycenie niskie, nasycenie wysokie, niska gamma, wysoka gamma, ostre kolory, miękkie kolory, hdr, sdrDziałają zarówno w wersji epsilon, jak i vpred i działają naprawdę dobrze.
Wersja epsilon zbytnio na nich polega. Bez niskiej jasności lub niskiej gammy albo ograniczonego zakresu (w negatywie) może być trudno osiągnąć prawdziwą czerń 0,0,0, podobnie z bielą.
Obie wersje epsilon i vpred mają prawdziwy zsnr, pełen zakres kolorów i jasności bez typowych wad. Ale zachowują się inaczej, po prostu spróbuj.
Wersja vpred
Główna rzecz, którą musisz wiedzieć - obniż CFG z 7 do 5 (lub mniej). Poza tym użycie jest podobne z korzyściami.
Wygląda na to, że od wersji 0.7 vpred działa bezbłędnie. Nie powinien ignorować tagów blisko granic fragmentu 75 tokenów jak nai. Trudniej uzyskać przypalone obrazy - nawet przy cfg7 zwykle są tylko przesycone, ale z gładkimi gradientami, co może być przydatne dla niektórych stylów. Tak, potrafi wygenerować wszystko od (0,0,0) do (255,255,255). Przydatne będą metatagi jasności opisane wyżej do łatwiejszego/porażonego promptowania, działają też naturalne wyrażenia tekstowe. Dla najciemniejszego obrazu - umieść wysoka jasność w negatywie i/lub użyj tagów niska jasność, niska gamma. Jeśli nie chcesz bardzo jasnej skóry na ciemnym tle i chcesz zmniejszyć kontrast (lub przeciwnie, wzmocnić efekt) - użyj hdr/sdr w negatywie/pozytywie.
Zgłoszono, że w rzadkich przypadkach przy niektórych promptach kontrast spada. Wygląda na to, że inne modele vpred mają podobne zachowanie z takimi promptami, dodanie "separatora" bliżej granicy fragmentu 75-tokenowego to naprawia. Jednak z 0.7 sam tego nie doświadczyłem.
Do uruchomienia wersji vpred potrzebna będzie dev build A1111, Comfy (ze specjalnym węzłem ładowania), Forge lub Reforge. Użyj tych samych parametrów (Euler a, cfg 3..5, 20..28 kroków) jak epsilon. Nie trzeba używać Cfg rescale, ale można spróbować, cfg++ działa świetnie.
Model bazowy:
Model tutaj ma małe poprawki unet po głównym treningu, by poprawić drobne detale, zwiększyć rozdzielczość itd. Możesz też być zainteresowany RouWei-Base, który czasem działa lepiej przy złożonych promptach, mimo drobnych błędów w detalach. Dostępny też w FP32, np. jeśli chcesz używać fp32 węzłów enkodera tekstu w Comfy, połączyć go lub dociągnąć.
Znajdziesz go w repozytorium Huggingface
Znane problemy:
Oczywiście są:
Tagi artystów i stylów muszą być oddzielnym fragmentem od głównego promptu lub znajdować się na samym końcu
Mogą występować pewne uprzedzenia pozycyjne lub kombinacyjne w rzadkich przypadkach, ale to nie jest jeszcze jasne.
Są pewne skargi na kilka ogólnych stylów.
Wersja epsilon zbytnio polega na metatagach jasności, czasami trzeba ich używać, aby uzyskać pożądane przesunięcie jasności
Niektóre nowo dodane style/postaci mogą być mniej dobre i wyraziste niż na to zasługują
Do odkrycia
Prośby o artystów/postaci w przyszłych modelach są otwarte. Jeśli znajdziesz artystę/postać/koncepcję, która działa słabo, niedokładnie lub ma silny znak wodny – zgłoś to, dodamy ją wyraźnie. Śledź nas na nowe wersje.
DOŁĄCZ DO SERWERA DISCORD
Licencja:
Tak jak illustrious. Śmiało używaj w swoich merge'ach, finetuningu itp., ale pozostaw link lub wzmiankę, to obowiązkowe
Jak to zostało zrobione
Rozważę przygotowanie raportu lub czegoś podobnego później. Na pewno.
W skrócie, 98% pracy dotyczyło przygotowania zbioru danych. Zamiast ślepo polegać na ważeniu strat na podstawie częstotliwości tagów z pracy nai, zastosowano własne prowadzone ważenie strat wraz z asynchronicznym kolatorem do balansowania. Ztsnr (lub coś bliskiego) z predykcją Epsilon osiągnięto za pomocą augmentacji scheduera szumu.
Zużyte zasoby - ponad 8 tys. godzin H100 (poza badaniami i nieudanymi próbkami)
Podziękowania:
Przede wszystkim chciałbym podziękować wszystkim, którzy wspierają open source, rozwijają i ulepszają kod. Podziękowania dla autorów illustrious za wydanie modelu, dla zespołu NoobAI za bycie pionierami otwartego finetuningu na taką skalę, dzielenie się doświadczeniem, zgłaszanie i rozwiązywanie problemów wcześniej niezauważonych.
Osobiste:
Artyści chcą pozostać anonimowi za udostępnianie prywatnych prac; kilka anonimowych osób - darowizny, kod, podpisy itd., Soviet Cat - sponsorowanie GPU; Sv1. - dostęp do llm, podpisywanie, kod; K. - kod treningowy; Bakariso - zbiory danych, testy, porady, informacje; NeuroSenko - darowizny, testowanie, kod; LOL2024 - wiele unikalnych zestawów; T.,[] - zbiory danych, testy, porady; rred, dga, Fi., ello - darowizny; TekeshiX - zbiory danych. I inni bracia, którzy pomagali. Kocham was bardzo ❤️.
Oczywiście także każdemu, kto dawał feedback i prośby, to bardzo cenne.
Jeśli pominąłem kogoś, proszę o zgłoszenie.
Darowizny
Jeśli chcesz wspierać - udostępniaj moje modele, zostawiaj feedback, twórz urocze obrazki z kemonomimi-girl. I oczywiście wspieraj oryginalnych artystów.
AI to moje hobby, wydaję na to pieniądze i nie proszę o darowizny. Jednak przerodziło się to w duże i kosztowne przedsięwzięcie. Rozważ wsparcie, by przyspieszyć nowe treningi i badania.
(Pamiętaj, że mogę je wydać na alkohol lub cosplay girls)
BTC: bc1qwv83ggq8rvv07uk6dv4njs0j3yygj3aax4wg6c
ETH/USDT(e): 0x04C8a749F49aE8a56CB84cF0C99CD9E92eDB17db
XMR: 47F7JAyKP8tMBtzwxpoZsUVB8wzg2VrbtDKBice9FAS1FikbHEXXPof4PAb42CQ5ch8p8Hs4RvJuzPHDtaVSdQzD6ZbA5TZ
jeśli możesz zaoferować czas na GPU (a100+) - napisz PM.
Szczegóły modelu
Typ modelu
Model bazowy
Wersja modelu
Hash modelu
Twórca
Dyskusja
Proszę się log in, aby dodać komentarz.









