Szczegółowy portret białego futrzastego kota z czerwonymi oczami ozdobionego misterną biżuterią z niebieskimi i czerwonymi klejnotami, na czarnym tle.
Portret rudej dziewczyny z uszami zwierząt i zielonymi oczami, noszącej kolczyki i naszyjnik, w ciemnej tematyce i malarskim stylu

Zalecane podpowiedzi

masterpiece, best quality, 1girl

Zalecane negatywne podpowiedzi

worst quality,low quality,watermark

worst quality, low quality

Zalecane parametry

samplers

Euler_a, CFG++, Euler Ancestral CFG++, Euler CFG++, Euler a

steps

20 - 28

cfg

1.4 - 9

resolution

1024x1024, 1216x832, 832x1216, 1344x800, 1216x832, 896x1152, 800x1280

vae

sdxl_vae.safetensors

Zalecane parametry wysokiej rozdzielczości

upscaler

Latent

upscale

1.5

steps

15 - 22

denoising strength

0.6 - 0.7

Wskazówki

Tagi artystów/stylów MUSZĄ być w osobnym kawałku CLIP lub umieszczone na końcu promptu, oddzielone BREAK (dla A1111) lub concat conditioning (dla Comfy), aby uniknąć znaczącej degradacji.

Używaj tylko czterech tagów jakości: masterpiece, best quality (pozytywne) oraz low quality, worst quality (negatywne). Unikaj innych meta-tagów jak lowres.

Dla wersji vpred obniż CFG do 3..5 dla najlepszych rezultatów.

Używaj tagów jasności/meta do kontroli jasności, nasycenia, gamma i kontrastu dla lepszej wierności kolorów.

Podczas mieszania stylów artystów używaj prefiksu "by " aby zapobiec problemom z mieszaniem stylów.

Utrzymuj prompt czysty i zwięzły; unikaj zbyt długich lub chaotycznych opisów języka naturalnego.

Najważniejsze informacje o wersji

Wersja vpred

Sponsorzy twórcy

Dogłębne ponowne szkolenie Illustrious, aby osiągnąć najlepszą zgodność z promptem, wiedzę oraz najnowocześniejsze osiągi.

Wielkie marzenia się spełniają

Numer wersji jest tylko indeksem aktualnego finalnego wydania, a nie ułamkiem planowanego treningu.

Repozytorium HF

Duża skala dostrajania przy użyciu klastra GPU z zestawem danych około 13 mln obrazów (~4 mln z opisami w języku naturalnym)

  • Świeża i obszerna wiedza o postaciach, koncepcjach, stylach, kulturze i powiązanych rzeczach

  • Najlepsza zgodność z promptem spośród modeli SDXL anime na moment wydania

  • Rozwiązane główne problemy z przenikaniem tagów i biasami, powszechne dla Illustrious, NoobAi i innych checkpointów

  • Świetna estetyka i znajomość szerokiego zakresu stylów (ponad 50 000 artystów (przykłady), w tym setki unikalnych, starannie wybranych zestawów danych z prywatnych galerii, także otrzymanych od samych artystów)

  • Wysoka elastyczność i różnorodność bez kompromisów w stabilności

  • Brak irytujących znaków wodnych dla popularnych stylów dzięki czystemu zestawowi danych

  • Żywe kolory i gładkie gradienty bez śladów przepaleń, pełny zakres nawet z epsilon

  • Czysty trening z Illustrious v0.1 bez użycia checkpointów stron trzecich, Lora, tweakerów itp.

Są też pewne problemy i zmiany w porównaniu do poprzedniej wersji, proszę przeczytać dokumentację.

Data cięcia danych to koniec kwietnia 2025.

Funkcje i podpowiadanie:

Ważna zmiana:

Podczas podpowiadania stylów artystów, zwłaszcza mieszania kilku, ich tagi MUSZĄ znajdować się w osobnym kawałku CLIP. Po prostu dodaj BREAK po nich (dla A1111 i pochodnych), użyj węzła concat conditioning (dla Comfy) lub przynajmniej umieść je na samym końcu promptu. W przeciwnym razie wyniki mogą ulec znacznemu pogorszeniu.

Podstawy:

Checkpoint działa zarówno z krótkimi, prostymi, jak i długimi, złożonymi promptami. Jednak, jeśli pojawią się sprzeczności lub dziwne elementy - w przeciwieństwie do innych modeli nie będą one ignorowane, wpływając na wynik. Brak prowadnic, zabezpieczeń, czy lobotomii.

Po prostu podawaj, co chcesz zobaczyć i nie podawaj tego, co nie powinno znaleźć się na obrazie. Jeśli chcesz widok z góry – nie dodawaj sufitu w pozytywnych promptach, jeśli chcesz kadrowanie z głową poza kadrem – nie opisuj szczegółowo cech twarzy postaci itd. Całkiem proste, ale czasem ludzie o tym zapominają.

Wersja 0.8 ma zaawansowane rozumienie naturalnych tekstów promptów. Nie oznacza to, że musisz z tego korzystać, tagi same w sobie są dobre, zwłaszcza że lepiej rozumie się kombinacje tagów.

Nie oczekuj działania na poziomie Flux czy innych modeli opartych na T5 lub LLM jako enkoderów tekstu. Cały checkpoint SDXL jest mniejszy niż sam ten enkoder tekstu, dodatkowo illustrious-v0.1, który jest bazą, zapomniał wiele ogólnych rzeczy z vanilla sdxl-base.

Jednak w obecnym stanie działa o wiele lepiej, pozwala na nowe rzeczy zwykle niemożliwe bez zewnętrznego wsparcia, ułatwiając także edycję ręczną, inpainting itp.

Aby uzyskać najlepszą wydajność, trzeba śledzić kawałki CLIP. W SDXL prompt jest dzielony na fragmenty po 75 tokenów (77 z BOS i EOS), które są przetwarzane osobno przez CLIP, a potem łączone i przekazywane jako warunki do unet.

Jeśli chcesz określić cechy postaci/obiektu i oddzielić je od innych części promptu - upewnij się, że są w tym samym kawałku i opcjonalnie oddziel je za pomocą BREAK. To nie rozwiąże całkowicie problemu mieszania cech, ale może go zredukować poprawiając zrozumienie całości, gdyż enkodery tekstu w RouWei potrafią lepiej przetwarzać całą sekwencję niż pojedyncze koncepcje.

Zestaw danych zawiera tylko tagi w stylu booru i wyrażenia w języku naturalnym. Mimo udziału furry, zdjęć z życia, zachodnich mediów itp. wszystkie podpisy zostały przekształcone do klasycznego stylu booru, aby uniknąć problemów z mieszaniem różnych systemów. Tagi e621 nie są prawidłowo rozumiane.

Parametry próbkowania:

  • około 1 megapiksel na txt2img, dowolny aspect ratio będący wielokrotnością 32 (1024x1024, 1056x, 1152x, 1216x832,...). Euler_a, 20..28 kroków.

  • CFG: dla wersji epsilon 4..9 (7 jest najlepsze), dla wersji vpred 3..5

  • Mnożenie sigm może trochę poprawić rezultaty, CFG++ samplery działają dobrze. LCM/PCM/DMD/... i egzotyczne samplery nieprzetestowane.

  • Niektóre schedulery nie działają dobrze.

  • Highresfix - 1.5x latent + denoise 0.6 lub dowolny gan + denoise 0.3..0.55.

  • Dla wersji vpred konieczne jest niższe CFG 3..5!

Dla wersji vpred konieczne jest niższe CFG 3..5!

Klasyfikacja jakości:

Tylko 4 tagi jakości:

masterpiece, best quality

dla pozytywnych i

low quality, worst quality

dla negatywnych.

Nic więcej. Można nawet pominąć tagi pozytywne i ograniczyć negatywne tylko do low quality, bo mają wpływ na podstawowy styl i kompozycję.

Meta tagi jak lowres zostały usunięte i nie działają, lepiej ich nie używać. Obrazy niskiej rozdzielczości zostały usunięte lub poddane skalowaniu i oczyszczeniu za pomocą DAT, w zależności od ich ważności.

Negatywny prompt:

worst quality, low quality, watermark

To wszystko, nie potrzeba "rusty trombone", "farting on prey" i innych. Nie dodawaj tagów jak greyscale, monochrome w negatywach, chyba że rozumiesz, co robisz. Dodatkowe tagi jasności/kolorów/kontrastu poniżej można stosować.

Style artystów:

Siatki z przykładami, lista/wildcard (również w "danych treningowych").

Używane z "by " jest obowiązkowe. Bez tego nie będzie działać poprawnie.

"by " to meta-token dla stylów, aby uniknąć mieszania/niewłaściwej interpretacji z tagami/postaciami o podobnych lub bliskich nazwach. Pozwala to na lepsze rezultaty stylów i jednocześnie unika losowych fluktuacji stylów, co można zauważyć w innych checkpointach.

Kilka tagów daje bardzo interesujące efekty, można to kontrolować wagami w promptach i zaklęciami.

MUSISZ DODAĆ BREAK po tagach artystów/stylów (dla A1111) lub concat conditioning (dla Comfy) lub umieścić je na samym końcu promptu.

Na przykład:

by kantoku, by wlop, best quality, masterpiece BREAK 1girl, ...

Style ogólne:

2.5d, anime screencap, bold line, sketch, cgi, digital painting, flat colors, smooth shading, minimalistic, ink style, oil style, pastel style

Style tagów booru:

1950s (style), 1960s (style), 1970s (style), 1980s (style), 1990s (style), 2000s (style), animification, art nouveau, pinup (style), toon (style), western comics (style), nihonga, shikishi, minimalism, fine art parody

oraz wszystko z tej grupy.

Mogą być używane w kombinacjach (również z artystami), z wagami, zarówno w promptach pozytywnych jak i negatywnych.

Postacie:

Używaj pełnych nazw tagów booru i odpowiedniego formatowania, np. karin_(blue_archive) -> karin \(blue archive\), stosuj tagi dotyczące skóry dla lepszego odwzorowania, np. karin \(bunny\) \(blue archive\). Rozszerzenia do autouzupełniania mogą być bardzo pomocne.

Większość postaci jest rozpoznawana tylko po tagu booru, ale trafność zwiększa opis podstawowych cech. Tu możesz łatwo przebrać swoją waifu/husbendo za pomocą promptu bez kłopotu z typowymi wyciekami cech podstawowych.

Tekst naturalny:

Używaj go w połączeniu z tagami booru, działa świetnie. Po wpisaniu stylów i tagów jakości używaj tylko tekstu naturalnego. Możesz też używać tylko tagów booru i tyle, to zależy od Ciebie. Dla najlepszych wyników obserwuj fragmenty CLIP po 75 tokenów.

Około 4M obrazów w zestawie danych miało hybrydowe podpisy w tekście naturalnym, stworzone przez Claude, GPT, Gemini, ToriiGate, a następnie zrefaktoryzowane, oczyszczone i połączone z tagami na różne sposoby dla augmentacji.

W przeciwieństwie do typowych podpisów zawierają nazwy postaci, co jest bardzo przydatne. Lepsze są krótkie, czyste i wygodne opisy. Lepiej nie używać długich i chaotycznych bzdetów jak

Tajemniczo czarująca kobieca istota o nieokreślonej, ale młodzieńczej esencji, której niebiańska twarz promieniuje eterycznym światłem tysiąca umierających gwiazd, obdarzona włosami spływającymi niczym złote rzeki starożytnej mitologii, być może stylizowanymi zgodnie z współczesnymi trendami mody, choć niekoniecznie przystającymi do żadnego konkretnego paradygmatu estetycznego. Jej oczy, baseny niezgłębionej głębi i barwy, błyszczą mądrością tysiącleci, a jednocześnie zachowują niewinną jakość, która przeczy ograniczeniom czasu...

Do podpisywania możesz używać ToriiGate w trybie krótkim.

Nie oczekuj, że będzie tak dobry jak flux i inne; bardzo się stara i po kilku próbach zwykle uzyskujesz to, czego chcesz, ale nie jest tak stabilny i szczegółowy.

O tak

cenzura ogona, trzymanie własnego ogona, przytulanie własnego ogona, trzymanie ogona innego, chwyt ogona, uniesiony ogon, opuszczony ogon, opadające uszy, ręka na własnym uchu, ogon wokół własnej nogi, ogon wokół penisa, praca ogonem, ogon przez ubrania, ogon pod ubraniami, podnoszony przez ogon, gryzienie ogona, penetracja ogona (w tym wyraźne wskazanie waginalnej/analnej), masturbacja ogonem, trzymanie ogona, majtki na ogonie, stanik na ogonie, skupienie na ogonie, prezentowanie własnego ogona...

(znaczenie booru, nie e621) i wiele innych w tekście naturalnym. Większość działa perfekcyjnie, niektóre wymagają wielu prób.

Jasność/kolory/kontrast:

Możesz użyć dodatkowych meta-tagów do kontroli:

low brightness, high brightness, low saturation, high saturation, low gamma, high gamma, sharp colors, soft colors, hdr, sdr

Przykład

Działają zarówno w wersji epsilon, jak i vpred i działają bardzo dobrze.

Wersja epsilon zbytnio na nich polega. Bez low brightness, low gamma lub ograniczonego zakresu (w negatywie) może być trudno osiągnąć prawdziwą czerń 0,0,0, podobnie z bielą.

Obie wersje, epsilon i vpred, mają prawdziwe zsnr, pełny zakres kolorów i jasności bez powszechnych wad. Zachowują się jednak inaczej - po prostu spróbuj.

Wersja vpred

Główna rzecz, którą musisz wiedzieć – obniż CFG z 7 do 5 (lub mniej). Inaczej użycie jest podobne z zaletami.

Wygląda na to, że od wersji v0.7 vpred działa bezbłędnie. Nie powinien mieć problemów z ignorowaniem tagów blisko granic 75-tokenowego kawałka, jak nai. Trudniej uzyskać przepalone obrazy - nawet przy cfg7 jest zwykle tylko przesycenie, ale z gładkimi gradientami, co może być przydatne dla niektórych stylów. Tak, potrafi zrobić cokolwiek od (0,0,0) do (255,255,255). Meta tagi jasności opisane powyżej będą bardzo pomocne dla łatwiejszego/lniejszego promptowania, działają też wyrażenia w tekście naturalnym. Aby uzyskać najciemniejszy obraz - dodaj high brightness do negatywnego i/lub użyj tagów low brightness, low gamma. Jeśli nie lubisz bardzo jasnej skóry na ciemnym tle i chcesz zmniejszyć kontrast (lub przeciwnie, wzmocnić efekt) - użyj hdr/sdr w negatywie/pozytywie.

Zgłoszono, że w rzadkich przypadkach w niektórych promptach spada kontrast. Wygląda na to, że inne modele vpred mają podobne zachowanie z takimi promptami, dodanie "separatora" bliżej granicy kawałka 75-tokenowego to naprawia. Jednak dla 0.7 osobiście tego nie doświadczyłem.

Aby uruchomić wersję vpred, potrzebujesz dev buildu A1111, Comfy (ze specjalnym loaderem), Forge lub Reforge. Użyj tych samych parametrów (Euler a, cfg 3..5, 20..28 kroków) co epsilon. Nie trzeba stosować Cfg rescale, ale można spróbować, cfg++ działa świetnie.

Model bazowy:

Model ma małe poprawki unet po głównym treningu, aby poprawić drobne detale, zwiększyć rozdzielczość i inne. Możesz być także zainteresowany RouWei-Base, który czasem radzi sobie lepiej przy złożonych promptach mimo drobnych błędów w detalach. Dostępny jest też w FP32, np. gdy chcesz używać węzłów enkodera tekstu fp32 w Comfy, scalić go lub dostroić.

Dostępny w repozytorium Huggingface

Znane problemy:

Oczywiście istnieją:

  • Tagi artystów i stylów muszą być oddzielone do innego kawałka niż główny prompt lub znajdować się na samym końcu

  • Mogą wystąpić rzadkie błędy pozycyjne lub kombinacyjne, ale to nie jest jeszcze potwierdzone.

  • Są skargi na kilka ogólnych stylów.

  • Wersja epsilon zbytnio polega na meta-tagach jasności; czasem trzeba ich użyć, aby uzyskać pożądane przesunięcie jasności.

  • Niektóre nowo dodane style/postacie mogą być mniej dobre i mniej wyraźne niż powinny.

  • Do odkrycia.

Prośby o artystów/postacie do przyszłych modeli są otwarte. Jeśli znajdziesz artystę/postać/koncepcję, która działa słabo, niedokładnie lub ma mocny znak wodny – zgłoś to, dodamy je wyraźnie. Śledź nowe wersje.

DOŁĄCZ DO SERWERA DISCORD

Licencja:

Ta sama co illustrious. Śmiało używaj w swoich merge'ach, finetuningu itd., ale zostaw link lub wzmiankę, to obowiązkowe.

Jak to zrobiono

Później rozważę zrobienie raportu lub czegoś podobnego. Na pewno.

Krótko: 98% pracy związane z przygotowaniem zestawu danych. Zamiast ślepo polegać na ważeniu strat według częstotliwości tagów z pracy nai, użyto niestandardowej implementacji ważonej straty z asynchronicznym collatorem do balansu. Ztsnr (lub blisko niego) z predykcją Epsilon osiągnięto dzięki augmentacji schedulerem szumu.

Wykorzystano ponad 8 tys. godzin H100 (poza badaniami i nieudanymi próbami)

Podziękowania:

Przede wszystkim dziękuję wszystkim wspierającym open source, rozwijającym i ulepszającym kod. Dzięki autorom illustrious za udostępnienie modelu, zespołowi NoobAI za pionierskie otwarte finetuningi na taką skalę, dzielenie się doświadczeniem, zgłaszanie i rozwiązywanie problemów wcześniej niezauważonych.

Osobiste:

Artyści chcą pozostać anonimowi za udostępnianie prywatnych prac; Kilku anonimowych – donacje, kod, podpisy itp.; Soviet Cat – sponsoring GPU; Sv1. – dostęp do llm, podpisywanie, kod; K. – kod treningowy; Bakariso – zestawy danych, testy, porady, spostrzeżenia; NeuroSenko – donacje, testy, kod; LOL2024 – wiele unikalnych zestawów; T.,[] – zestawy danych, testy, rady; rred, dga, Fi., ello – donacje; TekeshiX – zestawy danych. I inni bracia, którzy pomogli. Kocham was bardzo ❤️.

I oczywiście wszyscy, którzy dali feedback i składali prośby, to bardzo cenne.

Jeśli kogoś pominąłem, proszę daj znać.

Donacje

Jeśli chcesz wspierać – udostępniaj moje modele, zostaw feedback, stwórz ładny obrazek z dziewczyną kemonomimi. Oczywiście wspieraj też oryginalnych artystów.

Sztuczna inteligencja to moje hobby, wydaję na nie pieniądze, nie proszę o datki. Jednak przekształciło się to w duże i kosztowne przedsięwzięcie. Rozważ wsparcie, by przyspieszyć nowe treningi i badania.

(Pamiętaj, że mogę to przepić na alkohol lub cosplayowe dziewczyny)

BTC: bc1qwv83ggq8rvv07uk6dv4njs0j3yygj3aax4wg6c

ETH/USDT(e): 0x04C8a749F49aE8a56CB84cF0C99CD9E92eDB17db

XMR: 47F7JAyKP8tMBtzwxpoZsUVB8wzg2VrbtDKBice9FAS1FikbHEXXPof4PAb42CQ5ch8p8Hs4RvJuzPHDtaVSdQzD6ZbA5TZ

jeśli możesz zaoferować czas gpu (a100+) - napisz PM.

Poprzedni
RedCraft | 红潮 CADS | Aktualizacja-CZE29 | Najnowsze - Red-K Kontext DEV NSFW - Reveal5[SFW]ULTRA
Następny
RedCraft | 红潮 CADS | Zaktualizowano 29.06 | Najnowsze - Red-K Kontext DEV NSFW - 赩梦|REDiDream(NSFW i1)

Szczegóły modelu

Typ modelu

Checkpoint

Model bazowy

Illustrious

Wersja modelu

v0.7 vpred

Hash modelu

66076a003a

Dyskusja

Proszę się log in, aby dodać komentarz.

Obrazy autorstwa RouWei - v0.7 vpred

Obrazy z anime

Obrazy z model bazowy

Obrazy z wspaniały