modelos/El Experimento Araminta (SDXL+Flux) - Fv5

El Experimento Araminta (SDXL+Flux) - Fv5

12/4/2025

1:07:06 PM

Palabras Clave y Etiquetas Relacionadas

todo propósito,aramintastudio,modelo base,punto de control,flexibilidad,flux1-a1,fv5,fv6,contenido para adultos,generación de imágenes NSFW,fotorrealismo,fotorrealista,realista,sdxl 1.0,modelo base sdxl gv4,modelo stable diffusion,el experimento araminta (sdxl+flux),mujer

Jirafa en blanco y negro está contemplando un diente de león gigante en una ladera nevada bajo un cielo ventoso dispersando semillas de diente de león en tonos monocromáticos.

Prompts Negativos Recomendados

big boobs, ((watermark)), censored, low-res, low quality, dull, overcooked, artefacts, JPEG artefacts, poor quality, deformed, missing limb, extra limb

Parámetros Recomendados

samplers

DPM++ 2M SDE Karras, DPM++ 3M SDE Karras, DPM++ 2M SDE Exponential, DPM++ SDE Karras, Euler Ancestral, Euler, DPM++ 2M beta, sgm_uniform, DDEIS, normal, simple, beta, dpmpp_3m_sde, dpmpp_3m_sde_gpu

steps

12 - 25

cfg

1.5 - 11

Consejos

Usa DPM++ 2/3M SDE con los samplers Karras o Exponencial y más de 25 pasos con CFG alrededor de 5-7 para mejores resultados con SDXL.

Prueba DPM++ SDE Karras con menos pasos (p. ej. 12) y CFG más alto (8-11) para estilos alternativos.

Los samplers Euler Ancestral / Normal producen resultados menos detallados que pueden ser deseables con el modelo Fv6 para reducir el ruido.

El CLIP Skip por defecto es 2, pero probar 1 puede mejorar la adherencia al prompt y 3-4 puede mejorar el enfoque en conceptos.

Para modelos Flux, los samplers preferidos son DPM++ 2M beta o sgm_uniform.

Los ajustes de CFG influyen mucho en la calidad de la imagen; un CFG bajo (1.5-2.5) evita el efecto de piel plástica en fotos, mientras que estilos de ilustración pueden requerir CFG más alto (3-6+).

Un CFG o pasos inapropiados a menudo causa imágenes borrosas o mal formadas, y pueden requerir ajustes según el estilo.

Aspectos Destacados de la Versión

Basado en Fv4 con una fusión con algunas versiones previas de mis modelos así como BigLove_XL2 para impulsar aún más el realismo.

El resultado es que Fv5 es mi versión más fotorrealista hasta ahora con imágenes más precisas y sutiles comparado con F4 pero al empujar más el realismo el modelo es cada vez menos capaz de producir imágenes estilizadas, especialmente ilustraciones: una nueva versión de la serie G llegará pronto para estos casos :)

Para la configuración, DPM++ 2/3M SDE / Karras o Exponencial siempre son una buena opción con más de 25 pasos y CFG alrededor de 5-7. Pero DPM++ SDE / Karras con menos pasos (p. ej. 12) y CFG más alto (8-11) vale la pena probarlo. El juego por defecto CLIP SKIP de 2 también es una buena opción, pero usar 1 o 3-4 también vale la pena.

Patrocinadores del Creador

Si disfrutas mi contribución a esta comunidad, siéntete libre de invitarme a un café: cuanta más cafeína tomo, más modelos puedo crear 😅

Galería de comparación aquí: Fv6-Fv5 y comparación de ilustraciones NSFW entre Gv1-Cv6-Fv2.

Modelo SOTA actual en mi experimento:

Modelo base SDXL: Gv4 es el modelo más equilibrado que permite tanto imágenes realistas como estilizadas NSFW y SFW. Mejor estética que Fv6 pero menos fotorrealista.
Modelo fotorealista SDXL (SFW y NSFW): Fv6 es la opción para hiperrealismo incluyendo imágenes NSFW realistas aunque principalmente carece de las capacidades de estilo de Gv4.
Ilustración SDXL : Gv4 (SFW y NSFW). Cv6 todavía vale la pena probarlo si no te interesan las imágenes NSFW.

Modelo Flux: Flux1-A1

Configuración de generación de imágenes para modelos SDXL

DPM++ 2/3M SDE / Karras o Exponencial siempre son una buena opción con más de 25 pasos y CFG alrededor de 5-7. Pero DPM++ SDE / Karras con menos pasos (p. ej. 12) y CFG más alto (8-11) vale la pena probarlo, al igual que Euler Ancestral / Normal para un resultado menos detallado que también puede ser interesante con un modelo como Fv6 para obtener algo menos "ruidoso".

El juego por defecto de CLIP Skip en 2 también es una buena opción, pero usar 1 o 3-4 también vale la pena probarlo: 1 empuja más hacia la adherencia al prompt y 3-4 a veces dan un mejor resultado que el predeterminado enfocándose más en los "conceptos".

Configuración de generación de imágenes para modelos Flux

Mis configuraciones preferidas son DPM++ 2M / beta o sgm_uniform o DDEIS / normal para el sampler / scheduler, beta da una imagen más audaz y fuerte. Para una imagen más sutil, Euler / simple o beta parece una buena opción.

El CFG parece tener un gran impacto en la imagen final y ser muy sensible incluso a pequeñas variaciones.

Para fotos, el CFG debe mantenerse bajo (1.5-2.5) para evitar el efecto de piel plástica.
Para arte fino e ilustración es más complicado porque depende del medio. Para estilos "toscos" (pintura, acuarelas, etc.), el CFG debe mantenerse bastante bajo en el rango de 1.5-2.5, pero para estilo anime o cómic, el CFG suele necesitar ser más alto para lograr el estilo deseado (3-6 o más).

Si la imagen está desordenada/mal formada o borrosa, a menudo es porque el CFG/pasos son inapropiados para esa imagen, pero no siempre es fácil saber si el CFG/pasos deben incrementarse o reducirse (al menos para mí 😊).

Seguramente hay mucho por aprender sobre el comportamiento de Flux que es bastante diferente al de SDXL y necesitaremos adaptarnos.

Flujo de trabajo

Todas mis imágenes se suben con el flujo de trabajo ComfyUI incrustado que por desgracia es incompatible con el procesamiento de CivitAI y la mayoría de veces no se puede recuperar el prompt. Sin embargo, puedes descargar la imagen PNG original con el flujo de trabajo incluido haciendo clic en el icono "DOWNLOAD" en el visor de imágenes.

Por qué intento publicar principalmente imágenes directamente desde mi modelo con quizá un poco de Lora (mía o algún mejorador de detalles), también a veces uso Controlnet para obtener composiciones mejores y más detalladas más fácilmente: en este caso la imagen fuente obviamente no está en el flujo de trabajo, pero supongo que aún puedes usar la imagen que publico como fuente si deseas hacer una variación :)

Pasado

A partir de la serie E, los modelos evolucionan a veces fusionándose con otros modelos (¡gracias a otros colaboradores!), pero principalmente mediante entrenamiento con mi propio conjunto de datos: un conjunto modesto (~2000 imágenes actualmente), pero intento compensar de alguna manera con calidad y originalidad.

Desde Fv1, he incluido muchas imágenes sintéticas que creé usando versiones anteriores: jugando duro con el prompt y retocando cuando fue necesario el resultado en Photoshop para tener un conjunto de datos que contenga muchas imágenes originales.

La idea central detrás de este modelo fue crear una herramienta versátil fusionando algunos de los mejores modelos existentes que se ajustan a mi gusto personal (fotografía y arte fantástico para simplificar). Mis objetivos principales fueron:

Fotorrealismo: La capacidad de producir imágenes sorprendentemente realistas tanto de personas como de objetos/naturaleza.
Flexibilidad: La capacidad de crear imágenes altamente estilizadas, permitiendo la expresión artística a través de varios estilos y combinaciones de artistas. Soy de una generación más antigua y vengo de Europa, así que "estilo" no significa para mí "kawaii japonés con pechos" o "cómic de DC Comics con muchos superhéroes y voluptuosas rubias", sino más de un universo de Frank Frazetta, Milo Manara, Boris Vallejo, H.R.Giger, Wojtek Siudmak y tales maestros del arte fantástico: seguro que hay pechos involucrados, pero el estilo es algo diferente :P
No me gusta sentirme limitado en mi exploración del cuerpo humano, por eso la idea también es tener un modelo NSFW bastante capaz. Sin embargo, debido a la naturaleza de las imágenes de entrenamiento disponibles en los conjuntos de datos, NSFW a menudo viene con un fuerte sesgo hacia fotos pornográficas o anime pornográfico japonés y afecta la flexibilidad (típicamente tan pronto usas la palabra "sexy" en tu prompt necesitas ponderar el estilo). Este punto NO es prioridad para el modelo base pero se impulsa en el modelo NSFW.