modelos/RouWei - v0.8.0 epsilon

RouWei - v0.8.0 epsilon

12/11/2025

12:46:01 PM

Palabras Clave y Etiquetas Relacionadas

anime,modelo base,punto de control,ilustre,illustrious v0.8,ajuste fino a gran escala,minthybasis,adhesión al prompt,rouwei,rouwei-0.8,modelo anime sdxl,stable diffusion,v0.8.0 epsilon

Ilustración detallada en estilo de tinta de un búho con ojos blancos, enfocándose en plumas intrincadas y arte lineal.

Prompts Recomendados

masterpiece

Prompts Negativos Recomendados

worst quality,low quality,watermark

worst quality, low quality, watermark

Parámetros Recomendados

samplers

Euler_a, Euler a

steps

20 - 28

cfg

4 - 9

resolution

1024x1024, 1216x832, 800x1280, 1216x832, 832x1216, 1024x1024

vae

sdxl_vae.safetensors

Parámetros Recomendados de Alta Resolución

upscaler

Latent

upscale

1.5

steps

15 - 22

denoising strength

0.55 - 0.7

Consejos

Al crear prompts con estilos de artistas, sus etiquetas deben estar en un fragmento CLIP separado—añade BREAK para A1111 y derivados, usa el nodo de concatenación de condicionamiento para Comfy, o colócalas al final para evitar degradación de calidad.

Crea prompts con lo que quieres ver y evita incluir elementos no deseados; el modelo respeta prompts contradictorios y complejos sin protecciones ni guías.

Usa solo cuatro etiquetas de calidad: positivas "masterpiece, best quality" y negativas "low quality, worst quality"; meta etiquetas como "lowres" fueron eliminadas y no funcionan.

Para un mejor control de brillo y color, usa etiquetas meta como bajo/alto brillo, saturación, gamma, colores intensos/suaves, hdr y sdr.

Para la versión vpred, reduce CFG a 3-5 y usa los mismos parámetros de muestreo; produce degradados suaves y puede lograr rangos completos de color.

Usa etiquetas booru con nombre completo para personajes con formato adecuado para mejorar la precisión.

Evita prompts en texto natural largos y verbosos; descripciones cortas y limpias funcionan mejor para entrada de texto natural.

Aspectos Destacados de la Versión

Actualización mayor

Patrocinadores del Creador

Visita el modelo Illustrious v0.8 en Huggingface

Únete al servidor de Discord para actualizaciones y soporte

Reentrenamiento profundo de Illustrious para lograr la mejor adherencia al prompt, conocimiento y desempeño de vanguardia.

Grandes sueños se hacen realidad

El número de versión es solo un índice de la versión final actual, no una fracción del entrenamiento planificado.

Repositorio HF

Ajuste a gran escala usando clúster GPU con un conjunto de datos de ~13M imágenes (~4M con descripciones en texto natural)

Conocimiento fresco y amplio sobre personajes, conceptos, estilos, cultura y temas relacionados
La mejor adherencia al prompt entre los modelos de anime SDXL al momento de su lanzamiento
Problemas principales de mezcla de etiquetas y sesgos comunes en Illustrious, NoobAi y otros checkpoints resueltos
Excelencia estética y conocimiento en una amplia variedad de estilos (más de 50,000 artistas (ejemplos), incluyendo cientos de datasets únicos seleccionados de galerías privadas, también recibidos directamente de los artistas)
Alta flexibilidad y variedad sin sacrificar estabilidad
Sin marcas de agua molestas para estilos populares gracias a un conjunto de datos limpio
Colores vibrantes y degradados suaves sin rastros de quemado, rango completo incluso con epsilon
Entrenamiento puro desde Illustrious v0.1 sin uso de checkpoints externos, Loras, tweakers, etc.

También hay algunos problemas y cambios comparados con la versión anterior, por favor lea el manual.

Corte del conjunto de datos - fin de abril 2025.

Características y creación de prompts:

Cambio importante:

Cuando uses estilos de artistas, especialmente al mezclar varios, sus etiquetas DEBEN estar en un fragmento CLIP separado. Basta con añadir BREAK después (para A1111 y derivados), usar el nodo de concatenación de condicionamiento (para Comfy) o al menos colocarlos al final. De lo contrario, es probable que la calidad de los resultados se degrade significativamente.

Básico:

El checkpoint funciona tanto con prompts cortos y simples como largos y complejos. Sin embargo, si hay cosas contradictorias o extrañas, a diferencia de otros, no las ignorará afectando el resultado. No cuenta con guías, protecciones ni recortes.

Solo escribe lo que quieres ver y no incluyas lo que no debe aparecer en la imagen. Si quieres una vista desde arriba, no pongas techo en positivo; si quieres una vista recortada con la cabeza fuera de cuadro, no describas detalladamente rasgos faciales, etc. Es sencillo, pero a veces se olvida.

La versión 0.8 tiene un entendimiento avanzado de prompts en texto natural. No significa que estés obligado a usarlo, solo etiquetas también funciona perfectamente, especialmente porque la comprensión de combinaciones de etiquetas también ha mejorado.

No esperes que funcione como Flux u otros modelos basados en T5 o codificadores LLM. El tamaño completo del checkpoint SDXL es menor que solo ese codificador de texto; además, illustrious-v0.1 que es la base ha olvidado muchas cosas generales del sdxl-base vanilla.

Sin embargo, incluso en el estado actual funciona mucho mejor, permite hacer cosas nuevas que generalmente son imposibles sin guía externa, y también facilita edición manual, repintado, etc.

Para obtener el mejor desempeño debes controlar los fragmentos CLIP. En SDXL el prompt se separa en fragmentos de 75 tokens (77 incluyendo BOS y EOS), que procesa CLIP por separado y luego se concatenan como condiciones para unet.

Si quieres especificar características para un personaje/objeto y separarlas de otras partes del prompt, asegúrate de que estén en el mismo fragmento y opcionalmente sepáralas con BREAK. No resolverá completamente el problema de mezcla de rasgos, pero puede reducirlo y mejorar la comprensión general, ya que los codificadores de texto en RouWei pueden procesar secuencias completas mejor que conceptos individuales.

El conjunto de datos contiene solo etiquetas estilo booru y expresiones en texto natural. A pesar de contener furries, fotos reales, medios occidentales, etc., todas las descripciones se convirtieron a estilo booru clásico para evitar problemas de mezclar diferentes sistemas. Por lo tanto, las etiquetas e621 no serán entendidas correctamente.

Parámetros de muestreo:

~1 megapíxel para txt2img, cualquier AR con resolución múltiplo de 32 (1024x1024, 1056x, 1152x, 1216x832,...). Euler_a, 20..28 pasos.
CFG: para versión epsilon 4..9 (7 es mejor), para versión vpred, 3..5
Multiplicar sigmas puede mejorar un poco los resultados, samplers CFG++ funcionan bien. LCM/PCM/DMD/... y samplers exóticos no probados.
Algunos schedulers no funcionan bien.
Highresfix - latent x1.5 + denoise 0.6 o cualquier gan + denoise 0.3..0.55.
Para versión vpred es necesario un CFG más bajo, 3..5.

Para versión vpred se necesita CFG bajo 3..5.

Clasificación de calidad:

Solo 4 etiquetas de calidad:

masterpiece, best quality

para positivo y

low quality, worst quality

para negativo.

Nada más. De hecho, puedes incluso omitir positivo y reducir negativo a low quality solamente, ya que pueden afectar estilo y composición básica.

Las meta etiquetas como lowres fueron eliminadas y no funcionan, es mejor no usarlas. Imágenes de baja resolución fueron eliminadas o escaladas y limpiadas con DAT según su importancia.

Prompt negativo:

worst quality, low quality, watermark

Eso es todo, no hay necesidad de "rusty trombone", "farting on prey" y otros. No pongas etiquetas como greyscale, monochrome en negativo a menos que sepas lo que haces. Se pueden usar etiquetas extra para brillo/colores/contraste abajo.

Estilos de artistas:

Grillas con ejemplos, lista/comodín (también en "datos de entrenamiento").

Se usa con "by " es obligatorio. No funcionará correctamente sin ello.

"by " es un meta-token para estilos que evita mezcla o interpretación errónea con etiquetas/personajes de nombre similar o cercano. Esto permite mejores resultados y evita fluctuaciones aleatorias en estilos que se pueden ver en otros checkpoints.

Múltiples dan resultados muy interesantes, se pueden controlar con pesos de prompt y hechizos.

DEBES AÑADIR `BREAK` después de las etiquetas de artistas/estilos (para A1111) o concatenar condicionamiento (para Comfy) o colocarlos al final del prompt.

Por ejemplo:

by kantoku, by wlop, best quality, masterpiece BREAK 1girl, ...

Estilos generales:

2.5d, anime screencap, bold line, sketch, cgi, digital painting, flat colors, smooth shading, minimalistic, ink style, oil style, pastel style

Estilos de etiquetas booru:

1950s (style), 1960s (style), 1970s (style), 1980s (style), 1990s (style), 2000s (style), animification, art nouveau, pinup (style), toon (style), western comics (style), nihonga, shikishi, minimalism, fine art parody

y todo lo del grupo.

Pueden usarse en combinaciones (con artistas también), con pesos, en prompts positivos y negativos.

Personajes:

Usa etiqueta booru con nombre completo y formato adecuado, como karin_(blue_archive) -> karin \(blue archive\), usa etiquetas de piel para mejor reproducción, como karin \(bunny\) \(blue archive\). La extensión de autocompletar puede ser muy útil.

La mayoría de personajes son reconocidos solo por su etiqueta booru, pero será más preciso si describes sus rasgos básicos. Aquí puedes disfrazar fácilmente a tu waifu/husbendo solo con el prompt sin sufrir las fugas típicas de rasgos básicos.

Texto natural:

Úsalo en combinación con etiquetas booru, funciona muy bien. Usa solo texto natural después de colocar estilos y etiquetas de calidad. Usa solo etiquetas booru y olvídalo, depende de ti. Para mejor rendimiento controla los fragmentos CLIP de 75 tokens.

Unas 4M de imágenes en dataset tienen descripciones híbridas en texto natural, hechas por Claude, GPT, Gemini, ToriiGate, luego refactorizadas, limpiadas y combinadas con etiquetas en diferentes variaciones para aumentación.

A diferencia de descripciones típicas, estas contienen nombres de personajes, muy útil. Es mejor mantenerlo limpio, corto y con descripciones convenientes. Mejor no uses textos largos y confusos como

Una entidad femenina misteriosamente encantadora de esencia indeterminada pero juvenil, cuyo rostro celestial irradia con la luminiscencia etérea de mil estrellas moribundas, bendecida con cabellos que caen como ríos dorados de mitología antigua, quizás peinada al estilo de modas contemporáneas aunque no necesariamente adherida a algún paradigma estético específico. Sus ojos, pozos de profundidad y color insondables, brillan con la sabiduría de milenios pero mantienen una cualidad inocente que desafía limitaciones temporales...

Para generar descripciones puedes usar ToriiGate en modo corto.

No esperes que sea tan bueno como flux u otros, intenta mucho y después de varios intentos generalmente obtienes lo que quieres, pero no es tan estable ni detallado.

Oh sí

censura de cola, sosteniendo su propia cola, abrazando su propia cola, sosteniendo la cola de otro, agarre de cola, cola levantada, cola abajo, orejas bajas, mano en su propia oreja, cola alrededor de su pierna, cola alrededor del pene, tailjob, cola a través de la ropa, cola debajo de la ropa, levantado por la cola, mordiendo la cola, penetración de cola (incluyendo indicación específica vaginal/anal), masturbación con cola, sosteniendo con cola, panties en cola, brasier en cola, foco en cola, presentando su propia cola...

(significado booru, no e621) y muchos otros con texto natural. La mayoría funcionan perfectamente, algunos requieren varios intentos.

Brillo/colores/contraste:

Puedes usar etiquetas meta adicionales para controlarlos:

bajo brillo, alto brillo, baja saturación, alta saturación, bajo gamma, alto gamma, colores intensos, colores suaves, hdr, sdr

Ejemplo

Funcionan tanto en versión epsilon como vpred y funcionan realmente bien.

La versión epsilon depende demasiado de ellas. Sin bajo brillo o bajo gamma o rango limitado (en negativo) puede ser difícil lograr un negro verdadero 0,0,0, lo mismo suele pasar con el blanco.

Ambas versiones tienen como un verdadero zsnr, rango completo de colores y brillo sin defectos comunes observados. Pero se comportan diferente, solo pruébalo.

Versión Vpred

Lo principal que debes saber: reduce tu CFG de 7 a 5 (o menos). Por lo demás, el uso es similar con ventajas.

Parece que desde v0.7 vpred funciona perfectamente. No debería ignorar etiquetas cerca de los bordes de fragmentos de 75 tokens como nai. Es más difícil obtener imágenes quemadas; incluso con cfg7 usualmente solo sobresatura pero con degradados suaves, útil para algunos estilos. Sí, puede producir colores de (0,0,0) a (255,255,255). Encontrarás las etiquetas de brillo antes mencionadas muy útiles para facilitar el prompt; las expresiones en texto natural también funcionan. Para obtener la imagen más oscura, pon high brightness en negativo y/o usa etiquetas low brightness, low gamma. Si no te gusta la piel muy brillante sobre fondo oscuro y quieres reducir contraste (o al contrario, potenciarlo), usa hdr/sdr en negativo/positivo.

Se reportó que en casos raros con algunos prompts hay una reducción de contraste. Parece que otros modelos vpred se comportan igual con esos prompts; añadir un "separador" cerca del borde del fragmento de 75 tokens lo arregla. Sin embargo, con 0.7 no lo he experimentado.

Para ejecutar la versión vpred necesitarás la versión dev de A1111, Comfy (con nodo especial de cargado), Forge o Reforge. Usa los mismos parámetros (Euler a, cfg 3..5, 20..28 pasos) que en epsilon. No es necesario usar reescalado de CFG, pero puedes probar, cfg++ funciona genial.

Modelo base:

Este modelo tiene un pequeño pulido unet tras el entrenamiento principal para mejorar detalles pequeños, aumentar resolución y otros. Sin embargo, quizás te interese también RouWei-Base, que a veces rinde mejor en prompts complejos a pesar de algunos pequeños errores de detalles. También está en FP32, por ejemplo para usar nodos de codificador de texto fp32 en Comfy, fusionar o afinar.

Se puede encontrar en repositorio Huggingface

Problemas conocidos:

Por supuesto que hay:

Las etiquetas de artistas y estilos deben estar separadas en un fragmento diferente del prompt principal o ir muy al final
Pueden existir sesgos posicionales o combinacionales raros, pero no está claro aún.
Hay quejas sobre algunos estilos generales.
La versión epsilon depende mucho de etiquetas de brillo, a veces necesitas usarlas para lograr el cambio deseado de brillo
Algunos estilos/personajes añadidos recientemente pueden no ser tan buenos o distintos como deberían
Por descubrir

Solicitudes para artistas/personajes en futuros modelos están abiertas. Si encuentras artista/personaje/concepto con bajo rendimiento, inexacto o con marca de agua fuerte, por favor reporta; los añadiremos explícitamente. Sigue para nuevas versiones.

ÚNETE AL SERVIDOR DE DISCORD

Licencia:

Igual que illustrious. Siéntete libre de usar en fusiones, ajustes, etc., pero por favor deja un enlace o mención, es obligatorio.

Cómo se hizo

Consideraré hacer un informe o algo parecido más adelante. Seguro.

En resumen, el 98% del trabajo está relacionado con preparación del conjunto de datos. En lugar de confiar ciegamente en ponderación de pérdida basada en frecuencia de etiquetas del paper de nai, se usó una implementación personalizada de ponderación guiada junto con un collator asíncrono para balancear. Se logró Ztsnr (o cercano) con predicción Epsilon usando aumento con programador de ruido.

Computación gastada - más de 8k horas de H100 (además de investigación y intentos fallidos)

Gracias:

Primero que nada quiero agradecer a todos los que apoyan el código abierto, desarrollan y mejoran el código. Gracias a los autores de illustrious por publicar el modelo, gracias al equipo NoobAI por ser pioneros en el ajuste abierto a esta escala, compartir experiencia, levantar y resolver problemas que antes pasaban desapercibidos.

Personal:

Artistas que desean permanecer anónimos por compartir obras privadas; Varias personas anónimas - donaciones, código, descripciones, etc., Soviet Cat - patrocinio de GPU; Sv1. - acceso llm, subtitulado, código; K. - código de entrenamiento; Bakariso - datasets, pruebas, consejos, impresiones; NeuroSenko - donaciones, pruebas, código; LOL2024 - muchos datasets únicos; T.,[] - datasets, pruebas, consejos; rred, dga, Fi., ello - donaciones; TekeshiX - datasets. Y otros hermanos que ayudaron. Los quiero mucho ❤️.

Y por supuesto todos los que dieron retroalimentación y solicitudes, es muy valioso.

Si olvidé mencionar a alguien, por favor notifíquenme.

Donaciones

Si quieres apoyar - comparte mis modelos, deja retroalimentación, haz una imagen linda con chica kemonomimi. Y por supuesto, apoya a los artistas originales.

La IA es mi hobby, gasto dinero en ello y no pido donaciones. Sin embargo, se ha convertido en un emprendimiento grande y costoso. Considera apoyar para acelerar nuevos entrenamientos e investigaciones.

(Solo ten en cuenta que puedo gastarlo en alcohol o chicas cosplay)

BTC: bc1qwv83ggq8rvv07uk6dv4njs0j3yygj3aax4wg6c

ETH/USDT(e): 0x04C8a749F49aE8a56CB84cF0C99CD9E92eDB17db

XMR: 47F7JAyKP8tMBtzwxpoZsUVB8wzg2VrbtDKBice9FAS1FikbHEXXPof4PAb42CQ5ch8p8Hs4RvJuzPHDtaVSdQzD6ZbA5TZ

si puedes ofrecer tiempo GPU (a100+) - envía un mensaje privado.