RouWei - v0.7 vpred
Empfohlene Prompts
masterpiece, best quality, 1girl
Empfohlene Negative Prompts
worst quality,low quality,watermark
worst quality, low quality
Empfohlene Parameter
samplers
steps
cfg
resolution
vae
Empfohlene Hires (Hochauflösungs-) Parameter
upscaler
upscale
steps
denoising strength
Tipps
Künstler-/Stil-Tags MÜSSEN in einem separaten CLIP-Chunk sein oder ganz ans Ende des Prompts, getrennt durch BREAK (für A1111) oder Concat Conditioning (für Comfy), um signifikante Verschlechterungen zu vermeiden.
Verwenden Sie nur vier Qualitätstags: masterpiece, best quality (positiv) und low quality, worst quality (negativ). Vermeiden Sie andere Meta-Tags wie lowres.
Für die Vpred-Version ist ein niedrigerer CFG-Wert von 3..5 für beste Ergebnisse nötig.
Verwenden Sie Helligkeits-/Meta-Tags zur Steuerung von Helligkeit, Sättigung, Gamma und Kontrast für bessere Farbtreue.
Beim Mischen von Künstlerstilen verwenden Sie das Präfix "by ", um Stil-Mischungsprobleme zu vermeiden.
Halten Sie Prompts sauber und prägnant; vermeiden Sie zu lange oder schlampige natürliche Sprachbeschreibungen.
Versions-Highlights
Vpred-Version
Ersteller-Sponsoren
Tiefgehendes Retraining von Illustrious zur Erreichung bester Prompt-Treue, Kenntnis und modernster Leistung.
Große Träume werden wahr
Die Versionsnummer ist nur ein Index der aktuellen finalen Veröffentlichung, kein Bruchteil des geplanten Trainings.
Großangelegtes Finetuning mit GPU-Cluster und einem Datensatz von ~13 Mio. Bildern (~4 Mio. mit natürlichen Textbeschreibungen)
Frisches und aktuelles Wissen über Charaktere, Konzepte, Stile, Kultur und verwandte Bereiche
Beste Prompt-Treue unter SDXL Anime-Modellen zum Zeitpunkt der Veröffentlichung
Hauptprobleme mit Tag-Bleeding und Bias, die bei Illustrious, NoobAi und anderen Checkpoints üblich sind, wurden gelöst
Ausgezeichnete Ästhetik und Kenntnis über eine breite Palette von Stilen (über 50.000 Künstler (Beispiele), einschließlich Hunderten ausgewählter besonderer Datensätze aus privaten Galerien, darunter auch solche von den Künstlern selbst)
Hohe Flexibilität und Vielfalt ohne Kompromisse bei der Stabilität
Keine lästigen Wasserzeichen für beliebte Stile dank sauberem Datensatz
Lebendige Farben und fließende Verläufe ohne Anzeichen von Brennen, volle Farbskala auch bei Epsilon
Reines Training ab Illustrious v0.1 ohne Einbindung von Drittanbieter-Checkpoints, Loras, Tweaks usw.
Im Vergleich zur vorherigen Version gibt es auch einige Probleme und Änderungen, bitte lesen Sie das Handbuch sorgfältig.
Datensatz-Schnittpunkt - Ende April 2025.
Eigenschaften und Prompting:
Wichtige Änderung:
Beim Prompten von Künstler-Stilen, besonders beim Mischen mehrerer, müssen deren Tags in einem separaten CLIP-Chunk stehen. Fügen Sie einfach BREAK danach ein (für A1111 und Derivate), verwenden Sie die Konditionierungs-Concat-Node (für Comfy) oder legen Sie sie mindestens ans Ende. Andernfalls ist mit einer deutlichen Verschlechterung der Ergebnisse zu rechnen.
Grundlegend:
Der Checkpoint funktioniert sowohl mit kurzen einfachen als auch mit langen komplexen Prompts. Wenn widersprüchliche oder merkwürdige Angaben gemacht werden, werden diese – anders als bei anderen Modellen – nicht ignoriert, sondern beeinflussen das Ergebnis. Keine Leitplanken, keine Schutzmechanismen, kein Lobotomie-Effekt.
Prompten Sie einfach, was Sie sehen möchten, und vermeiden Sie, was nicht auf dem Bild sein sollte. Wenn Sie eine Draufsicht wünschen, setzen Sie die Decke nicht positiv, wenn eine Nahaufnahme ohne Kopfrand gewünscht ist, beschreiben Sie die Gesichtszüge nicht zu detailliert usw. Ziemlich einfach, doch manche vergessen das.
Version 0.8 verfügt über ein verbessertes Verständnis natürlicher Textprompts. Das heißt aber nicht, dass Sie es verwenden müssen, Tag-only ist völlig in Ordnung, besonders da die Kombinationsverständnis für Tags ebenfalls verbessert wurde.
Erwarten Sie nicht, dass es wie Flux oder andere auf T5 oder LLM-Textencoder basierende Modelle arbeitet. Die gesamte Größe des SDXL-Checkpoints ist kleiner als nur dieser Textencoder, zudem hat illustrious-v0.1 als Basis viele allgemeine Dinge von vanilla sdxl-base vergessen.
Dennoch arbeitet es in seinem jetzigen Zustand deutlich besser, erlaubt neue Möglichkeiten, die ohne externe Steuerung nicht möglich wären, und erleichtert manuelles Editieren, Inpainting usw.
Um die beste Leistung zu erzielen, sollten Sie CLIP-Chunks beachten. Im SDXL-Prompt wird der Text in 75 Token (77 inklusive BOS und EOS) unterteilt, die von CLIP separat verarbeitet werden, bevor sie zusammengefügt als Bedingungen an das UNet gehen.
Wenn Sie Charakter- oder Objektmerkmale hervorheben und vom übrigen Prompt trennen möchten, stellen Sie sicher, dass sie im selben Chunk sind, optional mit BREAK getrennt. Das löst nicht vollständig das Problem der Merkmalsvermischung, kann aber das Verständnis verbessern, da die Textencoder von RouWei in der Lage sind, die ganze Sequenz besser als andere zu verarbeiten.
Der Datensatz enthält nur Booru-ähnliche Tags und natürliche Textausdrücke. Trotz eines Anteils an Furries, Real-Life-Fotos, westlichen Medien usw. wurden alle Beschriftungen in klassischen Booru-Stil konvertiert, um Probleme durch Mischen verschiedener Systeme zu vermeiden. e621-Tags werden daher nicht korrekt erkannt.
Sampling-Parameter:
~1 Megapixel für txt2img, beliebiges Seitenverhältnis mit Auflösung als Vielfaches von 32 (1024x1024, 1056x, 1152x, 1216x832,...). Euler_a, 20–28 Schritte.
CFG: Für Epsilon-Version 4..9 (7 ist optimal), für Vpred-Version 3..5
Multiplikation der Sigmas kann Ergebnisse leicht verbessern, CFG++ Sampler funktionieren gut. LCM/PCM/DMD/... und exotische Sampler sind ungetestet.
Einige Scheduler funktionieren nicht gut.
Highresfix - x1,5 latent + Denoise 0,6 oder beliebiger GAN + Denoise 0,3..0,55.
Für Vpred-Version ist ein niedriger CFG von 3..5 notwendig!
Für Vpred-Version ist ein niedriger CFG von 3..5 notwendig!
Qualitätsklassifikation:
Nur 4 Qualitätstags:
masterpiece, best qualityfür Positiv und
low quality, worst qualityfür Negativ.
Nichts weiter. Tatsächlich kann man sogar positive weglassen und negatives nur auf low quality reduzieren, da diese Stil und Komposition beeinflussen können.
Meta-Tags wie lowres wurden entfernt und funktionieren nicht, besser nicht verwenden. Niedrigauflösende Bilder wurden je nach Wichtigkeit gelöscht oder mit DAT hochskaliert und bereinigt.
Negativer Prompt:
worst quality, low quality, watermarkDas ist alles, keine Notwendigkeit für "rostige Posaune", "Furzen auf Beute" und dergleichen. Verwenden Sie keine Tags wie Graustufen oder Monochrom negativ, es sei denn, Sie wissen, was Sie tun. Zusätzliche Tags für Helligkeit/Farben/Kontrast siehe unten.
Künstlerstile:
Galerien mit Beispielen, Liste/Wildcard (auch in "Trainingsdaten" zu finden).
Mit "by " verwenden, es ist verpflichtend. Ohne wird es nicht richtig funktionieren.
"by " ist ein Meta-Token für Stile, um Verwechslungen mit Tags/Charakteren ähnlichen Namens zu vermeiden. Dies ermöglicht bessere Ergebnisse bei Stilzuweisung und verhindert unerwünschte Stilfluktuationen, wie sie in anderen Checkpoints auftreten.
Mehrere "by" ergeben sehr interessante Resultate, steuerbar durch Prompt-Gewichte und Zauber.
Sie müssen BREAK nach Künstler/Stil-Tags (für A1111) oder Concat Conditioning (für Comfy) einfügen oder sie ans Ende des Prompts setzen.
Zum Beispiel:
by kantoku, by wlop, best quality, masterpiece BREAK 1girl, ...Allgemeine Stile:
2.5d, anime screencap, bold line, sketch, cgi, digital painting, flat colors, smooth shading, minimalistic, ink style, oil style, pastel styleBooru-Tags-Stile:
1950s (style), 1960s (style), 1970s (style), 1980s (style), 1990s (style), 2000s (style), animification, art nouveau, pinup (style), toon (style), western comics (style), nihonga, shikishi, minimalism, fine art parodyund alles aus dieser Gruppe.
Kann in Kombinationen (auch mit Künstlern), mit Gewichten, sowohl in positiven als auch negativen Prompts verwendet werden.
Charaktere:
Verwenden Sie den vollständigen Booru-Tag und korrektes Format, z.B. karin_(blue_archive) -> karin \(blue archive\), verwenden Sie Haut-Tags für bessere Reproduktion, z.B. karin \(bunny\) \(blue archive\). Autovervollständigungs-Erweiterungen können sehr hilfreich sein.
Die meisten Charaktere werden allein durch ihren Booru-Tag erkannt, aber es ist genauer, wenn Sie ihre grundlegenden Merkmale beschreiben. So können Sie Ihre Waifu/Husbendo problemlos via Prompt umkleiden, ohne unter typischen Leaks der Basismerkmale zu leiden.
Natürlicher Text:
Verwenden Sie ihn in Kombination mit Booru-Tags, funktioniert sehr gut. Setzen Sie nur nach Stil- und Qualitäts-Tags natürlichen Text ein. Verwenden Sie auch nur Booru-Tags, ganz wie Sie möchten. Für beste Ergebnisse beachten Sie die CLIP 75-Tokens-Chunks.
Etwa 4 Mio. Bilder im Datensatz verfügen über hybride natürliche Textbeschreibungen, erstellt von Claude, GPT, Gemini, ToriiGate, danach überarbeitet, bereinigt und mit Tags in verschiedenen Variationen für Datenaugmentation kombiniert.
Im Unterschied zu typischen Captions enthalten diese auch Charakternamen, was sehr hilfreich ist. Bessere Ergebnisse erzielt man mit kurzen, präzisen Beschreibungen. Verwenden Sie besser kein langes und schwammiges Zeug wie:
Eine mysteriös bezaubernde feminine Entität unbestimmter, aber jugendlicher Essenz, deren himmlisches Antlitz mit dem ätherischen Leuchten tausender sterbender Sterne strahlt, gesegnet mit Locken wie goldene Flüsse der alten Mythologie, vielleicht im Stil aktueller Modetrends, aber ohne an ein bestimmtes ästhetisches Paradigma zu gebunden zu sein. Ihre Augen, Seen von unergründlicher Tiefe und Farbe, funkeln mit der Weisheit von Jahrtausenden und bewahren eine unschuldige Qualität, die zeitlichen Grenzen trotzt...Zum Captioning können Sie ToriiGate im kurzen Modus verwenden.
Und erwarten Sie nicht dieselbe Qualität wie bei Flux und anderen, es bemüht sich sehr und nach mehreren Versuchen können Sie meist das gewünschte Ergebnis erreichen, doch es ist nicht so stabil und detailliert.
Viele Schwanz-/Ohren-bezogene Konzepte:
Ja, tatsächlich
tail censor, holding own tail, hugging own tail, holding another's tail, tail grab, tail raised, tail down, ears down, hand on own ear, tail around own leg, tail around penis, tailjob, tail through clothes, tail under clothes, lifted by tail, tail biting, tail penetration (including a specific indication of vaginal/anal), tail masturbation, holding with tail, panties on tail, bra on tail, tail focus, presenting own tail...(Booru-Bedeutung, nicht e621) und viele weitere mit natürlichem Text. Die meisten funktionieren perfekt, manche benötigen mehrere Versuche.
Helligkeit/Farben/Kontrast:
Sie können zusätzliche Meta-Tags zur Steuerung verwenden:
low brightness, high brightness, low saturation, high saturation, low gamma, high gamma, sharp colors, soft colors, hdr, sdrDiese funktionieren sowohl in der Epsilon- als auch in der Vpred-Version sehr gut.
Die Epsilon-Version ist stark auf sie angewiesen. Ohne niedrige Helligkeit oder Gamma oder eingeschränkten Bereich (negativ) ist es schwer, echtes Schwarz (0,0,0) zu erreichen, ähnliches gilt oft für Weiß.
Beide Versionen haben eine echte ZSNR, volle Farb- und Helligkeitsskala ohne gängige Fehler. Verhalten sich jedoch unterschiedlich, einfach testen.
Vpred-Version
Das Wichtigste: Senken Sie CFG von 7 auf 5 (oder weniger). Ansonsten ist Gebrauch ähnlich mit Vorteilen.
Ab v0.7 arbeitet Vpred jetzt fehlerfrei. Es ignoriert keine Tags nahe der 75-Tokens-Chunk-Grenzen wie Nai. Es ist schwieriger, verbrannte Bilder zu erzeugen – oft nur übersättigt mit weichen Verläufen, was für einige Stile nützlich sein kann. Ja, es kann alles von (0,0,0) bis (255,255,255) erzeugen. Die oben beschriebenen Helligkeits-Meta-Tags sind hilfreich für einfacheres/komfortables Prompting, natürliche Textausdrücke funktionieren ebenfalls. Für das dunkelste Bild setzen Sie high brightness in die negative Sektion und/oder verwenden low brightness, low gamma. Wenn sehr heller Hautton auf dunklem Hintergrund stört und Sie Kontrast reduzieren (oder erhöhen) möchten – verwenden Sie HDR/SDR negativ/positiv.
Es wurde berichtet, dass bei manchen Prompts selten Kontrastabfall bei Vpred auftritt. Ähnliche Verhaltensweise bei anderen Vpred-Modellen. Ein "Separator" näher an der 75-Token-Chunks-Grenze behebt dies. Mit 0.7 trat es bei mir nicht auf.
Zum Starten der Vpred-Version benötigen Sie eine Dev-Build von A1111, Comfy (mit speziellem Loader-Node), Forge oder Reforge. Verwenden Sie einfach die gleichen Parameter (Euler a, cfg 3..5, 20..28 Schritte) wie bei Epsilon. Cfg-Rescale ist nicht nötig, kann aber ausprobiert werden, CFG++ funktioniert exzellent.
Basismodell:
Das Modell hat nach dem Haupttraining noch eine kleine UNet-Nachbearbeitung zur Verbesserung kleiner Details, Auflösungserhöhung und anderem. Sie könnten auch an RouWei-Base interessiert sein, das bei komplexen Prompts manchmal besser performt, trotz kleiner Fehler in Details. Es ist auch in FP32 verfügbar, falls Sie FP32 Textencoder Nodes in Comfy verwenden, mergen oder finetunen möchten.
Es ist im Huggingface-Repo zu finden.
Bekannte Probleme:
Natürlich gibt es welche:
Künstler- und Stil-Tags müssen in einem separaten Chunk vom Hauptprompt sein oder ganz am Ende stehen
In seltenen Fällen kann es Positions- oder Kombinations-Bias geben, ist aber noch nicht klar.
Es gibt Beschwerden über einige allgemeine Stile.
Epsilon-Version ist stark von Helligkeits-Meta-Tags abhängig, manchmal muss man diese für gewünschte Helligkeitsanpassungen nutzen.
Einige neu hinzugefügte Stile/Charaktere könnten nicht so gut und deutlich sein, wie sie sein sollten.
Weitere sind noch zu entdecken.
Anfragen für Künstler/Charaktere in zukünftigen Modellen sind offen. Wenn Sie einen Künstler/Charakter/Konzept finden, der schwach, ungenau ist oder ein starkes Wasserzeichen hat – bitte melden, wir fügen es explizit hinzu. Folgen Sie für neue Versionen.
TRETEN SIE DEM DISCORD-SERVER BEI
Lizenz:
Wie bei Illustrious. Frei zu verwenden in Ihren Merges und Finetunes, aber bitte mit Link oder Nennung, das ist verpflichtend.
Wie es gemacht wurde
Ich werde später überlegen, einen Bericht oder Ähnliches zu machen. Ganz sicher.
Kurz gesagt: 98 % der Arbeit entfällt auf die Datensatzvorbereitung. Statt blind auf Loss-Weighting basierend auf Tag-Häufigkeit laut Nai-Paper zu vertrauen, wurde eine eigene verlustgeführte Gewichtung implementiert, zusammen mit einem asynchronen Collator zum Balancieren genutzt. ZTSNR (oder ähnlich) mit Epsilon-Vorhersage wurde durch Rausch-Scheduler-Augmentierung erreicht.
Rechenaufwand: über 8000 Stunden H100 (abzüglich Forschung und Fehlversuchen)
Danke:
Zuerst möchte ich allen danken, die Open Source unterstützen, am Code arbeiten und verbessern. Danke an die Autoren von Illustrious für die Veröffentlichung des Modells, danke an das NoobAI-Team für Pionierarbeiten im großflächigen offenen Finetuning, Erfahrungsaustausch, Erkennen und Lösen von bisher unbeachteten Problemen.
Persönlich:
Künstler wollen anonym bleiben für das Teilen privater Werke; einige anonyme Personen – Spenden, Code, Beschriftungen usw., Soviet Cat – GPU-Sponsoring; Sv1. – LLM-Zugang, Beschriftung, Code; K. – Trainingscode; Bakariso – Datensätze, Tests, Ratschläge, Einblicke; NeuroSenko – Spenden, Tests, Code; LOL2024 – viele einzigartige Datensätze; T.,[] – Datensätze, Tests, Ratschläge; rred, dga, Fi., ello – Spenden; TekeshiX – Datensätze. Und andere Brüder, die geholfen haben. Liebe euch sehr ❤️.
Und natürlich alle, die Feedback und Anfragen gemacht haben, das ist sehr wertvoll.
Falls ich jemanden vergessen habe zu erwähnen, bitte melden.
Spenden
Wenn Sie unterstützen möchten – teilen Sie meine Modelle, hinterlassen Sie Feedback, erstellen Sie ein schönes Bild mit Kemonomimi-Mädchen. Und natürlich unterstützen Sie die Originalkünstler.
KI ist mein Hobby, ich gebe Geld dafür aus und bettle nicht um Spenden. Allerdings ist es ein großangelegtes und teures Unterfangen geworden. Erwägen Sie Unterstützung zur Beschleunigung neuer Trainings und Forschung.
(Bedenken Sie bitte, ich könnte es auch für Alkohol oder Cosplay-Mädchen verschwenden)
BTC: bc1qwv83ggq8rvv07uk6dv4njs0j3yygj3aax4wg6c
ETH/USDT(e): 0x04C8a749F49aE8a56CB84cF0C99CD9E92eDB17db
XMR: 47F7JAyKP8tMBtzwxpoZsUVB8wzg2VrbtDKBice9FAS1FikbHEXXPof4PAb42CQ5ch8p8Hs4RvJuzPHDtaVSdQzD6ZbA5TZ
Wenn Sie GPU-Zeit (a100+) anbieten können – bitte PM.
Modell-Details
Modelltyp
Basismodell
Modellversion
Modell-Hash
Ersteller
Diskussion
Bitte log in um einen Kommentar zu hinterlassen.


