Ein gesichtsloses Mädchen mit langem schwarzen Haar und einem schwarzen Gewand mit karierten Mustern steht auf einem riesigen Klavier und lächelt böse, während ein schwarzer Wolf auf einer Landschaft aus kariertem Sand darunter läuft.

Empfohlene Prompts

masterpiece

Empfohlene Negative Prompts

worst quality,low quality,watermark

worst quality, low quality, watermark

Empfohlene Parameter

samplers

Euler_a, Euler a

steps

20 - 28

cfg

4 - 9

resolution

1024x1024, 1216x832, 1376x832, 1280x800, 1200x1920, 832x1216, 1216x832

vae

sdxl_vae.safetensors

Empfohlene Hires (Hochauflösungs-) Parameter

upscaler

Latent

upscale

1.5

steps

15 - 22

denoising strength

0.5 - 0.65

Tipps

Künstler-/Stiltags müssen zur besten Prompt-Einhaltung in einem separaten CLIP-Chunk sein oder am Ende des Prompts mit einem BREAK-Token stehen.

Verwenden Sie nur 4 Qualitätstags: 'masterpiece' und 'best quality' für positive, 'low quality' und 'worst quality' für negative Prompts.

Vermeiden Sie Metadaten-Tags wie 'lowres'; diese wurden entfernt und beeinflussen die Ergebnisse nicht.

Für die vpred-Version verwenden Sie niedrigere CFG-Werte (3 bis 5).

Helligkeits-, Kontrast- und Farbetags (z. B. 'low brightness', 'high saturation') verbessern die Ausgabequalität und funktionieren in beiden Versionen epsilon und vpred.

Nutzen Sie natürlichen Text kombiniert mit booru-Tags und halten Sie Prompts kurz und klar für beste Resultate.

Mehrere Künstlerstile können mit Prompt-Gewichtungen und Zaubern kombiniert werden.

Versions-Highlights

Vpred für v0.8

Ersteller-Sponsoren

Unterstützen Sie das Modell und die Autoren über das Huggingface Repository und treten Sie dem Discord-Server bei. Spenden sind willkommen via BTC, ETH/USDT, XMR oder GPU-Zeit (A100+). Details auf der Seite.

Tiefgehendes Retraining von Illustrious, um beste Prompt-Einhaltung, Wissen und modernste Leistung zu erreichen.

Große Träume werden wahr

Die Versionsnummer ist nur ein Index der aktuellen finalen Veröffentlichung, nicht ein Bruchteil des geplanten Trainings.

HF-Repository

Großangelegte Feinabstimmung mit GPU-Cluster auf einem Datensatz von ca. 13M Bildern (~4M mit nativen Textbeschreibungen)

  • Frisches und umfassendes Wissen über Charaktere, Konzepte, Stile, Kultur und verwandte Themen

  • Die beste Prompt-Einhaltung unter den SDXL-Anime-Modellen zum Zeitpunkt der Veröffentlichung

  • Gelöste Hauptprobleme mit Tag-Bleeding und Verzerrungen, die bei Illustrious, NoobAi und anderen Checkpoints üblich sind

  • Exzellente Ästhetik und Wissen über eine breite Palette von Stilen (über 50.000 Künstler (Beispiele), einschließlich hunderter sorgfältig ausgewählter Datensätze aus privaten Galerien, auch von den Künstlern selbst bereitgestellt)

  • Hohe Flexibilität und Vielfalt ohne Stabilitätskompromisse

  • Keine lästigen Wasserzeichen bei beliebten Stilen dank sauberem Datensatz

  • Lebendige Farben und sanfte Farbverläufe ohne Anzeichen von Überbelichtung, voller Farbbereich auch mit Epsilon-Version

  • Reines Training basierend auf Illustrious v0.1 ohne Einbindung von Drittanbieter-Checkpoints, Loras, Tweakers usw.

Es gibt auch einige Probleme und Änderungen im Vergleich zur vorherigen Version, bitte lesen Sie das Handbuch (RTFM).

Datensatz-Abschluss - Ende April 2025.

Funktionen und Prompting:

Wichtige Änderung:

Beim Prompten von Künstlerstilen, besonders beim Mischen mehrerer, MÜSSEN deren Tags in einem separaten CLIP-Chunk stehen. Fügen Sie danach einen BREAK hinzu (für A1111 und Derivate), nutzen Sie den Konditionierungs-Konkatenationsknoten (für Comfy) oder setzen Sie sie zumindest ans Ende des Prompts. Andernfalls ist mit einer erheblichen Qualitätsminderung zu rechnen.

Grundlegend:

Der Checkpoint funktioniert sowohl mit kurzen-einfachen als auch langen-komplexen Prompts. Wenn jedoch widersprüchliche oder seltsame Dinge vorkommen, werden diese im Gegensatz zu anderen Modellen nicht ignoriert und beeinflussen das Ergebnis. Keine Sicherheitsleinen, keine Schutzmaßnahmen, keine Lobotomie.

Prompten Sie genau das, was Sie sehen möchten, und vermeiden Sie, Dinge zu beschreiben, die nicht im Bild sein sollten. Wenn Sie eine Draufsicht möchten, geben Sie keine Decke positiv an; wenn Sie eine Nahaufnahme mit Kopf außerhalb des Bildrahmens möchten, verzichten Sie auf detaillierte Beschreibungen von Gesichtszügen usw. Einfach, aber oft übersehen.

Version 0.8 bringt ein fortgeschrittenes Verständnis natürlicher Textprompts. Das bedeutet nicht, dass Sie es verwenden müssen, Tags allein sind völlig ausreichend, insbesondere da das Verständnis von Tag-Kombinationen ebenfalls verbessert wurde.

Erwarten Sie nicht, dass die Leistung mit Flux oder anderen Modellen auf Basis von T5 oder LLM-Textencodern vergleichbar ist. Der gesamte SDXL-Checkpoint ist kleiner als der Textencoder allein; zudem hat illustrious-v0.1 als Basis viele allgemeine Dinge vom vanilla sdxl-base vergessen.

Dennoch funktioniert er im aktuellen Zustand deutlich besser, ermöglicht neue Dinge, die sonst ohne externe Steuerung kaum möglich sind, und macht manuelle Bearbeitung, Inpainting usw. bequemer.

Für beste Ergebnisse sollten Sie die CLIP-Chunks im Blick behalten. SDXL teilt den Prompt in Chunks von 75 (77 mit BOS und EOS) Tokens, die separat von CLIP verarbeitet und dann an das UNet weitergegeben werden.

Möchten Sie bestimmte Merkmale für Charakter/Objekt getrennt vom restlichen Prompt spezifizieren, stellen Sie sicher, dass sie im selben Chunk sind und optional mit BREAK getrennt werden. Das löst das Problem der Trait-Mischung nicht vollständig, kann aber das Verständnis verbessern, da die Textencoder von RouWei die gesamte Sequenz besser verarbeiten als nur einzelne Konzepte.

Der Datensatz enthält nur booru-artige Tags und natürliche Textausdrücke. Trotz Anteilen von Furries, Fotos, westlichen Medien usw. wurden alle Beschreibungen in klassischen Booru-Stil konvertiert, um Probleme durch Systemmischungen zu vermeiden. e621-Tags werden daher nicht richtig verstanden.

Sampling-Parameter:

  • ~1 Megapixel für txt2img, beliebiges Seitenverhältnis mit Auflösung als Vielfaches von 32 (1024x1024, 1056x, 1152x, 1216x832,...). Euler_a, 20..28 Schritte.

  • CFG: für epsilon Version 4..9 (7 ist optimal), für vpred Version 3..5

  • Faktor-Sigmata können Ergebnisse leicht verbessern, CFG++ Sampler funktionieren gut. LCM/PCM/DMD/... und exotische Sampler ungetestet.

  • Einige Scheduler funktionieren nicht gut.

  • Highresfix - x1.5 latent + Entrauschen 0.6 oder jedes GAN + Entrauschen 0.3..0.55.

  • Für vpred Version ist ein niedrigerer CFG-Wert von 3..5 notwendig!

Für die vpred Version ist ein niedrigerer CFG-Wert von 3..5 nötig!

Qualitätsklassifizierung:

Es gibt nur 4 Qualitätstags:

masterpiece, best quality

für Positiv und

low quality, worst quality

für Negativ.

Sonst nichts. Eigentlich kann man Positiv sogar weglassen und Negativ auf low quality reduzieren, da diese den Stil und die Komposition beeinflussen.

Metatags wie lowres wurden entfernt und wirken nicht mehr, besser sie nicht zu verwenden. Bilder mit niedriger Auflösung wurden entweder entfernt oder mit DAT hochskaliert und bereinigt, abhängig von ihrer Wichtigkeit.

Negative Prompt:

worst quality, low quality, watermark

Das ist alles, kein "rostiges Pos" oder "Flatulenz auf Beute" und ähnliches nötig. Vermeiden Sie negative Tags wie Greyscale oder Monochrome, sofern Sie nicht genau wissen, was Sie tun. Zusätzliche Tags für Helligkeit/Farben/Kontrast (siehe unten) können verwendet werden.

Künstlerstile:

Grids mit Beispielen, Liste/Wildcard (auch als „Training Data“ verfügbar).

Verwendung mit "by " ist zwingend. Ohne funktioniert es nicht richtig.

"by " ist ein Meta-Token für Stile, um eine Verwechslung oder Fehlinterpretation mit Tags/Charakteren ähnlichen Namens zu vermeiden. Dies führt zu besseren Ergebnissen bei Stilen und verhindert zufällige Stilfluktuationen, wie sie in anderen Checkpoints vorkommen können.

Mehrere Kombinationen liefern sehr interessante Ergebnisse und können mit Prompt-Gewichtungen und Zaubern gesteuert werden.

SIE MÜSSEN BREAK nach Künstler-/Stiltags einfügen (für A1111) oder Concat-Conditioning (für Comfy) verwenden oder sie ans Ende Ihres Prompts setzen.

Beispiel:

by kantoku, by wlop, best quality, masterpiece BREAK 1girl, ...

Allgemeine Stile:

2.5d, anime screencap, bold line, sketch, cgi, digital painting, flat colors, smooth shading, minimalistisch, Tintenstil, Ölmalerei-Stil, Pastellstil

booru-Tag-Stile:

1950er (Stil), 1960er (Stil), 1970er (Stil), 1980er (Stil), 1990er (Stil), 2000er (Stil), Animifizierung, Jugendstil, Pin-up (Stil), Cartoon (Stil), Western Comics (Stil), Nihonga, Shikishi, Minimalismus, Fine Art-Parodie

und alles aus dieser Gruppe.

Kombinationen (auch mit Künstlern), Gewichte, sowohl im Positiv- als auch im Negativ-Prompt möglich.

Charaktere:

Nutzen Sie den vollständigen booru-Tag und korrekte Formatierung, z. B. karin_(blue_archive) -> karin \(blue archive\). Verwenden Sie Skintags für bessere Reproduktion, z. B. karin \(bunny\) \(blue archive\). Autocomplete-Erweiterungen sind sehr nützlich.

Die meisten Charaktere werden allein durch ihren booru-Tag erkannt, aber eine kurze Beschreibung grundlegender Merkmale erhöht die Genauigkeit. So können Sie Ihre Waifu/Husbando einfach prompten, ohne typische Fehler bei Basismerkmalen.

Natürlicher Text:

Kombinieren Sie ihn mit booru-Tags, funktioniert sehr gut. Verwenden Sie nach Stilen und Qualitätstags nur natürlichen Text oder nur booru-Tags, ganz wie Sie möchten. Für beste Ergebnisse behalten Sie CLIP-Tokenchunks von 75 Tokens im Auge.

Ca. 4M Bilder im Datensatz verfügen über hybride natürliche Textbeschreibungen, erstellt von Claude, GPT, Gemini, ToriiGate, dann bereinigt, kombiniert und augmentiert.

Im Gegensatz zu typischen Captions enthalten diese auch Charakternamen, was sehr nützlich ist. Kurz und klar funktioniert am besten. Am besten nicht lange, schwammige Beschreibungen wie

Eine mysteriös bezaubernde feminine Entität von unbestimmter, aber jugendlicher Essenz, deren himmlisches Antlitz mit dem ätherischen Leuchten tausender sterbender Sterne strahlt, gesegnet mit Locken, die wie goldene Flüsse antiker Mythologien herabfließen, möglicherweise im Stil zeitgenössischer Modetrends, ohne jedoch an ein bestimmtes ästhetisches Paradigma gebunden zu sein. Ihre Augen, Tiefen von unergründlicher Farbe, funkeln mit der Weisheit Jahrtausende alten Wissens, behalten dabei eine Unschuld, die zeitliche Grenzen übersteigt...

Zum Captioning eignet sich ToriiGate im Kurzmodus.

Erwarten Sie kein Flux-Niveau, es bemüht sich sehr und oft bekommt man die gewünschten Resultate, ist aber nicht so stabil und detailreich.

Ja, genau.

Schwanzzensur, eigener Schwanz gehalten, eigenen Schwanz umarmt, fremden Schwanz gehalten, Schwanz gegriffen, Schwanz erhoben, Schwanz gesenkt, Ohren gesenkt, Hand am eigenen Ohr, Schwanz um eigenes Bein, Schwanz um Penis, Schwanzjob, Schwanz durch Kleidung, Schwanz unter Kleidung, am Schwanz aufgehoben, Schwanzgebiss, Schwanzpenetration (inklusive vaginal/anal), Schwanzmasturbation, mit Schwanz gehalten, Slip am Schwanz, BH am Schwanz, Schwanzfokus, eigenen Schwanz präsentiert...

(booru-Bedeutung, nicht e621) und viele andere mit Natürlichem Text. Die Mehrheit funktioniert perfekt, einige erfordern viel Ausprobieren.

Helligkeit/Farben/Kontrast:

Zusätzliche Meta-Tags zur Steuerung:

niedrige Helligkeit, hohe Helligkeit, niedrige Sättigung, hohe Sättigung, niedrige Gamma, hohe Gamma, scharfe Farben, weiche Farben, HDR, SDR

Beispiel

Funktionieren sowohl in epsilon als auch in vpred Version sehr gut.

Die Epsilon-Version ist stark darauf angewiesen. Ohne niedrige Helligkeit, niedriges Gamma oder begrenzte Bereiche (im Negativ) ist es schwer, echtes 0,0,0 Schwarz zu erreichen, ebenso oft für Weiß.

Beide Versionen haben echtes zsnr, vollen Farbbereich und Helligkeit ohne übliche Fehler. Sie verhalten sich jedoch unterschiedlich, probieren Sie es aus.

Vpred Version

Wichtigstes: Senken Sie Ihren CFG von 7 auf 5 (oder weniger). Ansonsten ist die Nutzung ähnlich mit Vorteilen.

Ab v0.7 funktioniert vpred nun fehlerfrei. Es ignoriert keine Tags mehr nahe der 75-Token-Grenzen wie nai. Verbrennungen sind seltener - bei cfg7 meist nur Über-Sättigung mit sanften Farbverläufen, was bei bestimmten Stilen nützlich sein kann. Ja, es kann jeden Farbwert von (0,0,0) bis (255,255,255) erzeugen. Nutzen Sie die oben beschriebenen Helligkeitsmeta-Tags für leichteres Prompting; natürliche Texte funktionieren ebenfalls. Für das dunkelste Bild setzen Sie high brightness ins Negative und/oder verwenden low brightness, low gamma. Mögen Sie keine sehr helle Haut auf dunklem Hintergrund und wollen den Kontrast verringern (oder umgekehrt verstärken), verwenden Sie HDR/SDR im Negativ/Positiv.

Es wurde berichtet, dass bei seltenen Prompts der Kontrast abfällt. Andere vpred-Modelle zeigen dasselbe Verhalten, ein "Separator" nahe dem 75-Token-Limit behebt das. Bei 0.7 kam das bei mir nicht vor.

Für vpred-Version benötigen Sie eine Entwickler-Build von A1111, Comfy (mit speziellem Loader-Knoten), Forge oder Reforge. Verwenden Sie dieselben Parameter (Euler a, cfg 3..5, 20..28 Schritte) wie für epsilon. Keine Cfg-Reskalierung notwendig, cfg++ funktioniert sehr gut.

Basismodell:

Das Modell hier hat nach dem Haupttraining eine kleine UNet-Politur zur Verbesserung feiner Details, Auflösungserhöhung u.a. Alternativ könnte RouWei-Base interessant sein, manchmal besser bei komplexen Prompts trotz kleiner Fehler bei Details. Es gibt es auch in FP32, z.B. für Verwendung von fp32-Textencoder-Knoten in Comfy, zum Mergen oder Finetuning.

Erhältlich im Huggingface-Repository

Bekannte Probleme:

Natürlich gibt es welche:

  • Künstler- und Stil-Tags müssen in einem separaten Chunk vom Hauptprompt sein oder ganz am Ende stehen

  • Gelegentliche Positions- oder Kombinations-Bias, noch unklar

  • Einige allgemeine Stile werden kritisch gesehen

  • Epsilon-Version ist stark von Helligkeits-Meta-Tags abhängig, oft notwendig für gewünschte Helligkeit

  • Neu hinzugefügte Stile/Charaktere sind eventuell nicht so sauber und ausgeprägt wie erwartet

  • Weitere können entdeckt werden

Anfragen für Künstler/Charaktere in zukünftigen Modellen sind offen. Finden Sie einen Künstler/Charakter/Konzept mit schwacher Leistung, Ungenauigkeit oder starkem Wasserzeichen, melden Sie es bitte, wir fügen sie explizit hinzu. Folgen Sie für neue Versionen.

TRETEN SIE DEM DISCORD-SERVER BEI

Lizenz:

Wie bei illustrious. Frei zu verwenden in Ihren Merges, Finetunings usw., bitte aber Link oder Nennung als Pflicht.

Wie es gemacht wurde

Bericht wird eventuell noch erstellt. Kurz: 98% der Arbeit bezog sich auf Datensatzvorbereitung. Anstatt sich blind auf gewichtete Verluste basierend auf Tag-Häufigkeiten aus nai-Papier zu verlassen, wurde eine eigene gesteuerte Verlustgewichtung mit asynchronem Collator zur Balance eingesetzt. Ztsnr (oder Ähnliches) mit Epsilon-Prediction wurde durch Rausch-Scheduler-Augmentation erreicht.

Berechnungszeit - über 8000 Stunden H100 (neben Forschung und Fehlschlägen)

Danke:

Zuallererst möchte ich allen danken, die Open Source unterstützen und Code verbessern. Danke an die Autoren von illustrious für das Modell, danke an das NoobAI-Team für Pionierarbeit bei groß angelegtem Open Finetuning, Erfahrungsaustausch und Problemlösungen.

Persönlich:

Künstler möchten anonym bleiben für private Werke; einige anonyme Personen - Spenden, Code, Beschreibungen usw.; Soviet Cat - GPU-Sponsoring; Sv1. - LLM-Zugang, Captioning, Code; K. - Trainingscode; Bakariso - Datensätze, Tests, Ratschläge, Einblicke; NeuroSenko - Spenden, Tests, Code; LOL2024 - viele einzigartige Datensätze; T.,[] - Datensätze, Tests, Ratschläge; rred, dga, Fi., ello - Spenden; TekeshiX - Datensätze. Und andere Unterstützer. Ich liebe euch sehr ❤️.

Und natürlich allen, die Feedback und Anfragen geben, sehr wertvoll.

Falls ich jemanden vergessen habe zu erwähnen, bitte melden.

Spenden

Wenn Sie unterstützen wollen - teilen Sie meine Modelle, geben Feedback, machen ein süßes Bild mit Kemonomimi-Mädchen. Und natürlich unterstützen Sie die Originalkünstler.

AI ist mein Hobby, ich investiere eigenes Geld und bitte nicht um Spenden. Dennoch wurde es zu einem großangelegten und kostenintensiven Projekt. Bitte unterstützen Sie die Beschleunigung von neuem Training und Forschung.

(Nur bedenken Sie, dass ich es auch für Alkohol oder Cosplay-Mädchen ausgeben könnte)

BTC: bc1qwv83ggq8rvv07uk6dv4njs0j3yygj3aax4wg6c

ETH/USDT(e): 0x04C8a749F49aE8a56CB84cF0C99CD9E92eDB17db

XMR: 47F7JAyKP8tMBtzwxpoZsUVB8wzg2VrbtDKBice9FAS1FikbHEXXPof4PAb42CQ5ch8p8Hs4RvJuzPHDtaVSdQzD6ZbA5TZ

Wenn Sie GPU-Zeit (A100+) anbieten können - PN.

Zurück
Colorful Chaos Cracks and Drops XL - v1.0
Weiter
Psychedelic Vibes Artstyle - (Dreambooth Trained - SDXL LoRA) - v1.0

Modell-Details

Modelltyp

Checkpoint

Basismodell

Illustrious

Modellversion

v0.8.0 vpred

Modell-Hash

1a40b1babc

Ersteller

Diskussion

Bitte log in um einen Kommentar zu hinterlassen.

Bilder von RouWei - v0.8.0 vpred

Bilder mit Anime

Bilder mit Basismodell

Bilder mit illustrious