The Araminta Experiment (SDXL+Flux) - Fv5
Empfohlene Negative Prompts
big boobs, ((watermark)), censored, low-res, low quality, dull, overcooked, artefacts, JPEG artefacts, poor quality, deformed, missing limb, extra limb
Empfohlene Parameter
samplers
steps
cfg
Tipps
Verwende DPM++ 2/3M SDE mit Karras- oder Exponential-Samplern und über 25 Schritten mit CFG um 5-7 für beste SDXL-Ergebnisse.
Probier DPM++ SDE Karras mit weniger Schritten (z.B. 12) und höherem CFG (8-11) für alternative Stilrichtungen aus.
Euler Ancestral / Normal-Sampler erzeugen weniger detailreiche Ergebnisse, was mit Modell Fv6 zur Rauschreduktion wünschenswert sein kann.
Standardmäßiger CLIP Skip ist 2, aber die Wahl von 1 kann die Prompttreue erhöhen, und 3-4 kann den Fokus auf Konzepte verbessern.
Für Flux-Modelle werden Sampler wie DPM++ 2M beta oder sgm_uniform bevorzugt.
CFG-Einstellungen beeinflussen stark die Bildqualität; niedrige CFG-Werte (1,5-2,5) vermeiden bei Fotos den Plastikhaut-Effekt, während Illustrationsstile oft höhere CFG-Werte (3-6+) erfordern.
Ungeeignete CFG- oder Schritt-Einstellungen führen oft zu unscharfen oder fehlerhaften Bildern, Anpassungen sind je nach Stil notwendig.
Versions-Highlights
Basiert auf Fv4 mit einer Verschmelzung einiger früherer Versionen meiner Modelle sowie BigLove_XL2, um den Realismus weiter zu steigern.
Das Ergebnis ist, dass Fv5 meine bisher fotorealistischste Version ist, mit präziseren und subtileren Bildern im Vergleich zu F4, aber da der Realismus weiter vorangetrieben wird, ist das Modell immer weniger in der Lage, stilisierte Bilder, insbesondere Illustrationen, zu erzeugen: Eine neue G-Serien-Version für diese Anwendungsfälle kommt bald :)
Für die Einstellungen sind DPM++ 2/3M SDE / Karras oder Exponential immer eine gute Wahl mit über 25 Schritten und CFG um 5-7. Aber DPM++ SDE / Karras mit weniger Schritten (z.B. 12) und höherem CFG (8-11) ist auch einen Versuch wert. Der Standard-CLIP SKIP von 2 ist ebenfalls empfehlenswert, aber 1 oder 3-4 auszuprobieren, lohnt sich ebenfalls.
Ersteller-Sponsoren
Wenn euch mein Beitrag für diese Community gefällt, könnt ihr mir gerne einen Kaffee ausgeben: Je mehr Koffein ich trinke, desto mehr Modelle kann ich erstellen 😅
Wenn euch mein Beitrag für diese Community gefällt, könnt ihr mir gerne einen Kaffee ausgeben: Je mehr Koffein ich trinke, desto mehr Modelle kann ich erstellen 😅
Vergleichsgalerie hier: Fv6-Fv5 und NSFW Illustrationsvergleich zwischen Gv1-Cv6-Fv2.

Aktuelles SOTA-Modell in meinem Experiment:
SDXL Basismodell: Gv4 ist das ausgewogenste Modell, das sowohl realistische als auch stilisierte NSFW- und SFW-Bilder ermöglicht. Bessere Ästhetik als Fv6, aber weniger fotorealistisch.
SDXL Fotorealistisches (SFW und NSFW) Modell: Fv6 ist die Wahl für Hyperrealismus, einschließlich realistischer NSFW-Bilder, hat jedoch größtenteils nicht die Stilfähigkeiten von Gv4.
SDXL Illustration : Gv4 (SFW und NSFW). Cv6 ist jedoch weiterhin einen Versuch wert, wenn man keine NSFW-Bilder möchte.
Flux Modell: Flux1-A1
Bildeinstellungen für SDXL Modelle
DPM++ 2/3M SDE / Karras oder Exponential sind immer gute Optionen mit über 25 Schritten und CFG um 5-7. Aber DPM++ SDE / Karras mit weniger Schritten (z.B. 12) und höherem CFG (8-11) ist ebenfalls einen Versuch wert, ebenso wie Euler Ancestral / Normal für ein weniger detailliertes Ergebnis, was mit einem Modell wie Fv6 interessant sein kann, um etwas weniger "rauschiges" zu erhalten.
Der Standard-CLIP Skip von 2 ist ebenfalls eine gute Wahl, aber auch 1 oder 3-4 sind einen Versuch wert: 1 fördert stärker die Prompttreue, und 3-4 liefern manchmal bessere Ergebnisse als der Standard, indem sie sich mehr auf die "Konzepte" konzentrieren.
Bildeinstellungen für Flux Modelle
Meine bevorzugten Einstellungen sind DPM++ 2M / beta oder sgm_uniform oder DDEIS / normal für Sampler/Scheduler, beta erzeugt ein kräftigeres Bild. Für subtilere Bilder scheinen Euler / simple oder beta eine gute Wahl zu sein.
CFG hat großen Einfluss auf das Endergebnis und reagiert sehr empfindlich selbst auf kleine Veränderungen.
Für Fotos sollte CFG niedrig bleiben (1,5-2,5), um einen Plastik-Haut-Effekt zu vermeiden.
Für Fine Art und Illustration ist es komplexer, da es vom Medium abhängt. Bei "raueren" Stilen (Malerei, Aquarelle etc.) sollte CFG im Bereich 1,5-2,5 bleiben, während für Anime- oder Comic-Stil oft ein höherer CFG-Wert (3-6 oder mehr) nötig ist, um den gewünschten Stil zu erreichen.
Wenn das Bild chaotisch/verformt oder unscharf ist, liegt das oft an ungeeigneten CFG-/Schritt-Einstellungen, wobei es nicht immer leicht ist, zu wissen, ob die Werte erhöht oder gesenkt werden sollten (zumindest für mich 😊).
Es gibt sicherlich viel zu lernen bezüglich des Verhaltens von Flux, das sich ziemlich von SDXL unterscheidet, und wir müssen uns anpassen.
Arbeitsablauf
Alle meine Bilder werden mit eingebettetem ComfyUI Workflow hochgeladen, der leider mit der CivitAI-Verarbeitung inkompatibel ist, weshalb der Prompt meist nicht zurückgewonnen werden kann. Ihr könnt jedoch das originale PNG-Bild mit eingebettetem Workflow herunterladen, indem ihr im Bildbetrachter auf das "DOWNLOAD"-Symbol klickt.
Warum ich meist Bilder direkt aus meinem Modell veröffentliche, eventuell ergänzt durch ein wenig Lora (meins oder Detailverbesserer), benutze ich manchmal jetzt auch Controlnet, um leichter bessere, detailliertere Kompositionen zu erhalten: In diesem Fall ist das Ausgangsbild natürlich nicht im Workflow enthalten, aber ich denke, ihr könnt das von mir veröffentlichte Bild trotzdem als Ausgangsquelle für Variationen verwenden :)
Vergangenheit
Ab der E-Serie entwickeln sich die Modelle teils durch Verschmelzung mit anderen Modellen (dank anderer Beitragender!), doch hauptsächlich durch Training mit meinem eigenen Datensatz: ein bescheidener Datensatz (~2000 Bilder aktuell), jedoch versuche ich, das mit Qualität und Originalität zu kompensieren.
Seit Fv1 habe ich viele synthetische Bilder eingefügt, die ich mit früheren Versionen erstellt habe: Ich experimentiere viel mit Prompts und retuschiere bei Bedarf in Photoshop, um einen Datensatz mit vielen Originalbildern zu erhalten.
Die Kernidee hinter diesem Modell war, ein vielseitiges Werkzeug zu schaffen, indem einige der besten vorhandenen Modelle vereint werden, die meinem persönlichen Geschmack entsprechen (Fotografie und Fantasy-Kunst, um es einfach zu sagen). Meine Hauptziele waren:
Fotorealismus: Die Fähigkeit, beeindruckend realistische Bilder von sowohl Menschen als auch Objekten/Natur zu erzeugen.
Flexibilität: Die Fähigkeit, stark stilisierte Bilder zu schaffen, die künstlerischen Ausdruck durch verschiedene Stilrichtungen und Kombinationen von Künstlern ermöglichen. Ich komme aus einer älteren Generation und aus Europa, daher bedeutet "Stil" für mich nicht "japanischer kawaii Anime mit Brüsten" oder "DC Comics Cartoon mit vielen Superhelden und üppigen blonden Damen", sondern eher ein Universum von Frank Frazetta, Milo Manara, Boris Vallejo, H.R. Giger, Wojtek Siudmak und solchen Fantasy-Kunst-Meistern: Natürlich sind Brüste dabei, aber der Stil ist etwas anders :P
Da ich es nicht mag, in meiner Erforschung des menschlichen Körpers eingeschränkt zu sein, ist die Idee auch, ein ziemlich fähiges NSFW-Modell zu haben. Allerdings bringt die Natur der verfügbaren Trainingsbilder in den Datensätzen oft eine starke Verzerrung mit sich, entweder in Richtung Pornofotos oder pornografischer japanischer Anime, was die Flexibilität beeinträchtigt (typischerweise muss man, sobald man das Wort "sexy" im Prompt verwendet, den Stil mit berücksichtigen). Dieser Punkt ist somit NICHT die Priorität für das Basismodell, wird aber im NSFW-Modell vorangetrieben.
Modell-Details
Diskussion
Bitte log in um einen Kommentar zu hinterlassen.
