RouWei - v0.8.0 epsilon
Empfohlene Prompts
masterpiece
Empfohlene Negative Prompts
worst quality,low quality,watermark
worst quality, low quality, watermark
Empfohlene Parameter
samplers
steps
cfg
resolution
vae
Empfohlene Hires (Hochauflösungs-) Parameter
upscaler
upscale
steps
denoising strength
Tipps
Beim Eingeben von Künstlerstilen müssen deren Tags in einem separaten CLIP-Chunk sein – fügen Sie BREAK für A1111 und Derivate hinzu, verwenden Sie den conditioning concat node für Comfy oder platzieren Sie sie am Ende, um Qualitätsverlust zu vermeiden.
Geben Sie ein, was Sie sehen möchten, und vermeiden Sie unerwünschte Elemente; das Modell respektiert widersprüchliche und komplexe Prompts ohne Sicherungen oder Einschränkungen.
Verwenden Sie nur vier Qualitätstags: positiv "masterpiece, best quality" und negativ "low quality, worst quality"; Meta-Tags wie "lowres" wurden entfernt und sind wirkungslos.
Für beste Steuerung von Helligkeit und Farben verwenden Sie Meta-Tags wie low/high brightness, saturation, gamma, scharfe/weiche Farben, hdr und sdr.
Für die vpred-Version CFG auf 3-5 senken und die gleichen Sampling-Parameter verwenden; es erzeugt glatte Verläufe und kann volle Farbskalen erreichen.
Verwenden Sie volle Booru-Tags für Charaktere mit korrekter Formatierung zur Genauigkeitsverbesserung.
Vermeiden Sie lange, ausschweifende natürliche Texteingaben; kurze, saubere Beschreibungen funktionieren am besten.
Versions-Highlights
Wichtiges Update
Ersteller-Sponsoren
Umfassendes Retraining von Illustrious zur Erreichung bester Eingabeauftragstreue, Wissens und modernster Leistung.
Große Träume werden wahr
Die Versionsnummer ist lediglich ein Index der aktuellen finalen Veröffentlichung, kein Bruchteil der geplanten Trainings.
Groß angelegte Feinabstimmung mit GPU-Cluster und einem Datensatz von ~13M Bildern (~4M mit natürlichen Textbeschreibungen)
Aktuelles und umfassendes Wissen über Charaktere, Konzepte, Stile, Kultur und verwandte Themen
Beste Eingabeauftragstreue unter den SDXL Anime-Modellen zum Release-Zeitpunkt
Behebung der Hauptprobleme mit Tag-Bleeding und Verzerrungen, typisch für Illustrious, NoobAi und andere Checkpoints
Exzellente Ästhetik und Wissen über eine breite Palette von Stilen (über 50.000 Künstler (Beispiele), einschließlich Hunderten einzigartiger, sorgfältig ausgewählter Datensätze aus privaten Galerien, auch direkt von Künstlern erhalten)
Hohe Flexibilität und Vielfalt ohne Einbußen bei der Stabilität
Keine störenden Wasserzeichen mehr für populäre Stile dank sauberem Datensatz
Lebendige Farben und sanfte Verläufe ohne Spuren von Überbelichtung, volle Farbskala auch bei epsilon
Reines Training aus Illustrious v0.1 ohne Einbindung von Drittanbieter-Checkpoints, Loras, Tweakern etc.
Es gibt auch einige Probleme und Änderungen im Vergleich zur vorherigen Version, bitte die Dokumentation lesen.
Datensatz-Schnitt - Ende April 2025.
Funktionen und Eingaben:
Wichtige Änderung:
Beim Eingeben von Künstlerstilen, besonders bei Mischungen, MÜSSEN deren Tags in einem separaten CLIP-Chunk SEIN. Fügen Sie einfach BREAK danach hinzu (für A1111 und Derivate), verwenden Sie den „conditioning concat node“ (für Comfy) oder setzen Sie sie mindestens ans Ende. Andernfalls kann es zu deutlichen Qualitätsverschlechterungen kommen.
Grundlagen:
Der Checkpoint funktioniert sowohl mit kurzen, einfachen als auch langen, komplexen Eingaben. Wenn es widersprüchliche oder merkwürdige Elemente gibt, werden diese - anders als bei anderen Modellen - nicht ignoriert und beeinflussen das Ergebnis. Keine Einschränkungen, keine Sicherheitsvorkehrungen, keine Lobotomie.
Tippen Sie einfach das, was Sie sehen möchten, und vermeiden Sie Eingaben von Elementen, die nicht im Bild sein sollen. Wenn Sie eine Ansicht von oben wollen, geben Sie keine Decke positiv an, möchten Sie eine Nahaufnahme mit Kopf außerhalb des Rahmens, vermeiden Sie eine detaillierte Beschreibung der Gesichtszüge der Figur, und so weiter. Ziemlich einfach, aber manchmal wird es übersehen.
Version 0.8 bringt ein fortgeschrittenes Verständnis für natürliche Texteingaben. Das bedeutet nicht, dass Sie verpflichtet sind, es zu nutzen, auch reine Tags sind völlig in Ordnung, vor allem da die Kombination von Tags besser verstanden wird.
Erwarten Sie nicht, dass es so arbeitet wie Flux oder andere Modelle, die auf T5 oder LLM-Textcodierern basieren. Die gesamte Größe des SDXL-Checkpoints ist kleiner als allein dieser Textcodierer, darüber hinaus hat illustrious-v0.1 als Basis viele allgemeine Dinge von vanilla sdxl-base vergessen.
Aber selbst im aktuellen Zustand funktioniert es deutlich besser, ermöglicht neue Anwendungen, die sonst ohne externe Steuerung unmöglich wären, und macht manuelle Bearbeitung, Inpainting etc. komfortabler.
Für beste Ergebnisse sollten Sie die CLIP-Chunks beachten. SDXL teilt Prompt in Chunks zu je 75 (77 inklusive BOS und EOS) Tokens, die von CLIP separat verarbeitet und erst danach an UNet als Bedingungen übergeben werden.
Wenn Sie bestimmte Merkmale für Charakter/Objekt angeben und vom Rest trennen wollen, sorgen Sie dafür, dass sie im gleichen Chunk sind und trennen Sie optional mit BREAK. Es löst das Problem der Trait-Mischung nicht komplett, kann es aber reduzieren und das Verständnis verbessern, da RouWei-Textcodierer im Vergleich besser ganze Sequenzen statt nur Einzelkonzepte verarbeiten.
Der Datensatz enthält nur booru-bezogene Tags und natürliche Textausdrücke. Trotz Einbeziehung von Furry, realen Fotos, westlichen Medien etc. wurden alle Beschreibungen im klassischen Booru-Stil konvertiert, um Probleme durch Mischungen verschiedener Systeme zu vermeiden. e621-Tags werden daher nicht richtig verstanden.
Sampling-Parameter:
~1 Megapixel für txt2img, beliebiges Seitenverhältnis mit Auflösung als Vielfaches von 32 (1024x1024, 1056x, 1152x, 1216x832,...). Euler_a, 20-28 Schritte.
CFG: Für epsilon-Version 4-9 (7 am besten), für vpred-Version 3-5
Multiplikation von Sigmas kann Ergebnisse leicht verbessern, CFG++ Sampler funktionieren gut. LCM/PCM/DMD/... und exotische Sampler unerprobt.
Einige Scheduler funktionieren nicht gut.
Highresfix - x1.5 latent + Denoise 0.6 oder irgendein GAN + Denoise 0.3-0.55.
Für vpred-Version ist ein niedrigeres CFG von 3-5 erforderlich!
Für vpred-Version wird ein niedrigeres CFG von 3-5 benötigt!
Qualitätsklassifikation:
Nur 4 Qualitäts-Tags:
masterpiece, best qualityfür positive und
low quality, worst qualityfür negative.
Nicht mehr. Tatsächlich können Sie sogar die Positiv-Tags weglassen und die Negativ-Tags auf low quality reduzieren, da diese Stil und Komposition beeinflussen können.
Meta-Tags wie lowres wurden entfernt und funktionieren nicht mehr, besser nicht nutzen. Niedrig aufgelöste Bilder wurden entfernt oder mit DAT hochskaliert und bereinigt, je nach Wichtigkeit.
Negativer Prompt:
worst quality, low quality, watermarkDas ist alles, kein Bedarf an "rostige Posaune", "furzen auf Beute" und anderem. Vermeiden Sie Tags wie Graustufen, Monochrom im negativen Prompt, es sei denn, Sie wissen, was Sie tun. Zusätzliche Tags für Helligkeit/Farben/Kontrast siehe unten.
Künstlerstile:
Gitternetze mit Beispielen, Liste/Wildcard (auch im "Training Data" zu finden).
Mit "by " verwenden, das ist Pflicht. Es funktioniert sonst nicht richtig.
"by " ist ein Meta-Token für Stile, um Verwechslungen mit ähnlichen Tags/Charakteren zu vermeiden. So werden bessere Ergebnisse für Stile erreicht und zufällige Stilfluktuationen, die bei anderen Checkpoints auftreten, vermieden.
Mehrere Stilangaben liefern interessante Ergebnisse und können mit Prompt-Gewichten und Zaubern gesteuert werden.
Sie MÜSSEN BREAK nach Künstler- oder Stil-Tags (für A1111) oder Konditionierungs-Konkat (für Comfy) hinzufügen oder diese ans Ende Ihres Prompts stellen.
Zum Beispiel:
by kantoku, by wlop, best quality, masterpiece BREAK 1girl, ...Allgemeine Stile:
2.5d, anime screencap, bold line, sketch, cgi, digital painting, flat colors, smooth shading, minimalistic, ink style, oil style, pastel styleBooru-Tags Stile:
1950s (style), 1960s (style), 1970s (style), 1980s (style), 1990s (style), 2000s (style), animification, art nouveau, pinup (style), toon (style), western comics (style), nihonga, shikishi, minimalism, fine art parodyund alles aus dieser Gruppe.
Kann kombiniert (auch mit Künstlern), mit Gewichten sowohl in positiven als auch negativen Prompts verwendet werden.
Charaktere:
Nutzen Sie volles Booru-Tag mit korrekter Formatierung, z.B. karin_(blue_archive) → karin \(blue archive\), verwenden Sie Haut-Tags für bessere Reproduktion, z.B. karin \(bunny\) \(blue archive\). Autocomplete-Erweiterung kann sehr hilfreich sein.
Die meisten Charaktere werden durch ihren Booru-Tag erkannt, aber es ist genauer, grundlegende Merkmale zu beschreiben. So können Sie Ihre Waifu/Husbando einfach übers Prompt umkleiden ohne typische Leaks der Grundmerkmale.
Natürlicher Text:
In Kombination mit Booru-Tags funktioniert das sehr gut. Verwenden Sie nur natürlichen Text nach Angabe von Stilen und Qualitätstags. Alternativ nur Booru-Tags verwenden, ganz nach Wunsch. Für beste Leistung auf CLIP-Chunks von 75 Tokens achten.
Ca. 4M Bilder im Datensatz hatten hybride natürliche Textbeschreibungen, erstellt von Claude, GPT, Gemini, ToriiGate, danach überarbeitet, bereinigt und mit Tags in verschiedenen Varianten zur Augmentation kombiniert.
Im Gegensatz zu typischen Captions enthalten diese die Charakternamen, was sehr hilfreich ist. Kurze, prägnante und klare Beschreibungen funktionieren am besten. Vermeiden Sie lange, ausschweifende Texte wie
Ein geheimnisvoll bezauberndes, feminines Wesen unbestimmten, aber jugendlichen Wesens, dessen himmlisches Antlitz mit dem ätherischen Leuchten tausender sterbender Sterne strahlt, gesegnet mit Haaren, die wie goldene Flüsse der antiken Mythologie herabfallen, vielleicht gestylt in einem zeitgenössischen Modetrend, aber nicht notwendigerweise einem bestimmten ästhetischen Paradigma folgend. Ihre Augen, Tiefen und Töne unergründlich, funkeln mit der Weisheit der Jahrtausende und bewahren zugleich eine Unschuld, die zeitliche Beschränkungen übersteigt...Für Captions können Sie ToriiGate im Kurzmodus verwenden.
Erwarten Sie nicht, dass es so gut ist wie Flux und andere; es arbeitet hart und mit etwas Ausprobieren erhält man meist das Gewünschte, aber es ist nicht so stabil und detailreich.
Viele Schwanz-/Ohren-bezogene Konzepte:
Oh ja
tail censor, holding own tail, hugging own tail, holding another's tail, tail grab, tail raised, tail down, ears down, hand on own ear, tail around own leg, tail around penis, tailjob, tail through clothes, tail under clothes, lifted by tail, tail biting, tail penetration (including a specific indication of vaginal/anal), tail masturbation, holding with tail, panties on tail, bra on tail, tail focus, presenting own tail...(Booru-Bedeutung, nicht e621) und viele andere mit natürlichem Text. Die meisten funktionieren einwandfrei, einige benötigen viel Ausprobieren.
Helligkeit/Farben/Kontrast:
Sie können zusätzliche Meta-Tags zur Steuerung verwenden:
low brightness, high brightness, low saturation, high saturation, low gamma, high gamma, sharp colors, soft colors, hdr, sdrFunktionieren in epsilon- und vpred-Version sehr gut.
Die epsilon-Version verlässt sich stark darauf. Ohne Tags wie low brightness oder low gamma bzw. begrenzten Bereich (im negativen Prompt) ist es schwierig, echtes Schwarz (0,0,0) zu erreichen, oft ebenso bei Weiß.
Beide Versionen bieten echtes zsnr, volle Farb- und Helligkeitsspanne ohne übliche Fehler. Doch sie verhalten sich unterschiedlich, probieren Sie es aus.
Vpred-Version
Das Wichtigste: Senken Sie ihr CFG von 7 auf 5 (oder weniger). Ansonsten ähnlich wie epsilon mit Vorteilen.
Ab v0.7 scheint vpred nun fehlerfrei zu funktionieren. Es ignoriert Tags in der Nähe von 75-Token-Chungrändern nicht wie Nai. Brennen von Bildern ist schwieriger, bei CFG 7 führt es meist zu übersättigten, aber sanften Verläufen, was für manche Stile nützlich ist. Es kann alles von (0,0,0) bis (255,255,255) erzeugen. Die oben genannten Helligkeits-Tags sind hilfreich für einfacheres Prompting, natürliche Texteingaben funktionieren ebenfalls. Für die dunkelste Darstellung geben Sie high brightness im negativen und/oder low brightness, low gamma Tags ein. Möchten Sie sehr helle Haut auf dunklem Hintergrund vermeiden oder Kontrast reduzieren (oder verstärken), verwenden Sie hdr/sdr in negativen/positiven Prompts.
Gelegentlich wird bei manchen Prompts Kontrastverlust beobachtet. Andere vpred-Modelle zeigen ähnliches Verhalten, ein "Separator" nahe der Chunk-Grenze kann das beheben. Mit 0.7 konnte ich das selbst nicht reproduzieren.
Zum Start der vpred-Version benötigen Sie eine Entwickler-Build von A1111, Comfy (mit speziellem Loader Node), Forge oder Reforge. Nutzen Sie dieselben Parameter (Euler a, CFG 3-5, 20-28 Schritte) wie bei epsilon. Kein Cfg-Rescale nötig, aber möglich; CFG++ funktioniert gut.
Basismodell:
Das Modell hier enthält eine kleine UNet-Nachbearbeitung nach dem Haupttraining zur Verbesserung kleiner Details, Erhöhung der Auflösung und mehr. Alternativ gibt es RouWei-Base, das bei komplexen Prompts trotz kleiner Fehler bessere Leistungen erzielen kann. Es ist auch in FP32 verfügbar, z.B. für FP32 Textencoder Nodes in Comfy, zum Mergen oder Feinabstimmen.
Es ist im Huggingface-Repo zu finden.
Bekannte Probleme:
Natürlich gibt es welche:
Künstler- und Stil-Tags müssen in einem separaten Chunk vom Hauptprompt sein oder ganz am Ende
Gelegentlich können seltene Positions- oder Kombinationsverzerrungen auftreten, noch unklar
Einige Beschwerden zu wenigen allgemeinen Stilen
Epsilon-Version verlässt sich stark auf Helligkeits-Tags, manchmal nötig für erwünschte Helligkeitsänderung
Einige neu hinzugefügte Stile/Charaktere könnten nicht so gut und markant sein wie erwartet
Weitere Probleme werden entdeckt
Anfragen für Künstler/Charaktere in zukünftigen Modellen sind offen. Finden Sie einen Künstler/Charakter/Konzept, das schwach, ungenau oder stark mit Wasserzeichen versehen ist, melden Sie es bitte, wir fügen es gezielt hinzu. Folgen Sie für neue Versionen.
Discord-Server beitreten
Lizenz:
Gleich wie illustrious. Fühlen Sie sich frei, es in Ihren Merges, Feinabstimmungen etc. zu verwenden, aber bitte mit Link oder Erwähnung, dies ist verpflichtend.
Herstellung:
Ich plane später einen Bericht oder Ähnliches zu veröffentlichen. Ganz sicher.
Kurz gesagt: 98% der Arbeit waren Vorbereitung des Datensatzes. Anstatt blind Loss-Weighting basierend auf Tag-Häufigkeit aus dem NAI-Paper anzuwenden, wurde eine benutzerdefinierte gesteuerte Loss-Weighting-Implementierung zusammen mit asynchronem Kollator zur Balance verwendet. Ztsnr (oder ähnlich) mit Epsilon-Vorhersage wurde mittels Noise Scheduler Augmentation erreicht.
Berechnungsaufwand - über 8.000 Stunden auf H100 (neben Forschung und Fehlversuchen)
Danke:
Zuerst möchte ich allen danken, die Open-Source unterstützen und Code entwickeln und verbessern. Danke an die Autoren von illustrious für die Veröffentlichung, danke an das NoobAI-Team für Pionierarbeit bei groß angelegter offener Feinabstimmung, das Teilen von Erfahrungen, das Ansprechen und Lösen von bislang unbeachteten Problemen.
Persönlich:
Künstler, die anonym bleiben wollen für private Werke; einige anonyme Personen - Spenden, Code, Captions etc., Soviet Cat - GPU-Sponsoring; Sv1. - llm-Zugang, Captioning, Code; K. - Trainingscode; Bakariso - Datensätze, Tests, Ratschläge, Einblicke; NeuroSenko - Spenden, Tests, Code; LOL2024 - viele einzigartige Datensätze; T.,[] - Datensätze, Tests, Ratschläge; rred, dga, Fi., ello - Spenden; TekeshiX - Datensätze. Und andere Mitbrüder, die geholfen haben. Liebe euch sehr ❤️.
Und natürlich allen, die Feedback gaben und Anfragen stellten, das ist sehr wertvoll.
Falls ich jemanden vergessen habe, bitte melden.
Spenden
Wenn Sie unterstützen wollen - teilen Sie meine Modelle, geben Sie Feedback, machen Sie ein schönes Bild mit Kemonomimi-Mädchen. Und natürlich unterstützen Sie die Originalkünstler.
KI ist mein Hobby, ich investiere eigenes Geld und bitte nicht um Spenden. Es wurde jedoch zu einem groß angelegten und teuren Projekt. Erwägen Sie Unterstützung zur Beschleunigung neuer Trainings und Forschung.
(Aber bedenken Sie, ich könnte es auch für Alkohol oder Cosplay-Mädchen ausgeben)
BTC: bc1qwv83ggq8rvv07uk6dv4njs0j3yygj3aax4wg6c
ETH/USDT(e): 0x04C8a749F49aE8a56CB84cF0C99CD9E92eDB17db
XMR: 47F7JAyKP8tMBtzwxpoZsUVB8wzg2VrbtDKBice9FAS1FikbHEXXPof4PAb42CQ5ch8p8Hs4RvJuzPHDtaVSdQzD6ZbA5TZ
Falls GPU-Zeit (A100+) angeboten werden kann – PM.
Modell-Details
Modelltyp
Basismodell
Modellversion
Modell-Hash
Ersteller
Diskussion
Bitte log in um einen Kommentar zu hinterlassen.









