modelos/RouWei - v0.7 vpred

RouWei - v0.7 vpred

9/24/2025

1:33:29 PM

Palabras Clave y Etiquetas Relacionadas

anime,modelo base,control de brillo,punto de control,ilustre,minthybasis,indicaciones de texto natural,adhesión al prompt,rouwei,parámetros de muestreo,modelo anime de stable diffusion,v0.7 vpred,versión vpred

Retrato detallado de un gato peludo blanco con ojos rojos adornado con joyas intrincadas con gemas azules y rojas, sobre un fondo negro.

Retrato de una chica de cabello rojo con orejas de animal y ojos verdes que lleva pendientes y un collar, con un tema oscuro y estilo pictórico

Prompts Recomendados

masterpiece, best quality, 1girl

Prompts Negativos Recomendados

worst quality,low quality,watermark

worst quality, low quality

Parámetros Recomendados

samplers

Euler_a, CFG++, Euler Ancestral CFG++, Euler CFG++, Euler a

steps

20 - 28

cfg

1.4 - 9

resolution

1024x1024, 1216x832, 832x1216, 1344x800, 1216x832, 896x1152, 800x1280

vae

sdxl_vae.safetensors

Parámetros Recomendados de Alta Resolución

upscaler

Latent

upscale

1.5

steps

15 - 22

denoising strength

0.6 - 0.7

Consejos

Las etiquetas de artista/estilo DEBEN estar en un bloque CLIP separado o al final del prompt, separadas por BREAK (para A1111) o concat conditioning (para Comfy) para evitar degradación significativa.

Usa solo cuatro etiquetas de calidad: masterpiece, best quality (positivo) y low quality, worst quality (negativo). Evita otras meta-etiquetas como lowres.

Para la versión vpred, reduce CFG a 3..5 para mejores resultados.

Usa etiquetas de brillo/meta para controlar brillo, saturación, gamma y contraste para mejor fidelidad de color.

Cuando mezcles estilos de artistas, usa el prefijo "by " para prevenir problemas de mezcla de estilos.

Mantén las indicaciones limpias y concisas; evita descripciones naturales demasiado largas o descuidadas.

Aspectos Destacados de la Versión

Versión Vpred

Patrocinadores del Creador

Descarga Illustrious v0.8 en Huggingface

Únete al servidor de Discord para soporte y actualizaciones

Reentrenamiento en profundidad de Illustrious para lograr la mejor adherencia a indicaciones, conocimiento y rendimiento de última generación.

Los grandes sueños se hacen realidad

El número de versión es solo un índice de la publicación final actual, no una fracción del entrenamiento planeado.

Repositorio HF

Afinado a gran escala usando un clúster GPU con un conjunto de datos de ~13M imágenes (~4M con leyendas de texto natural)

Conocimiento fresco y amplio sobre personajes, conceptos, estilos, cultura y temas relacionados
La mejor adherencia a la indicación entre los modelos de anime SDXL en el momento del lanzamiento
Resueltos los problemas principales con sangrado de etiquetas y sesgos, comunes en Illustrious, NoobAi y otros checkpoints
Excelente estética y conocimiento en una amplia gama de estilos (más de 50,000 artistas (ejemplos), incluidos cientos de conjuntos de datos únicos seleccionados de galerías privadas, incluidos los proporcionados por los propios artistas)
Alta flexibilidad y variedad sin comprometer la estabilidad
Sin marcas de agua molestas para estilos populares gracias a un conjunto limpio de datos
Colores vibrantes y gradientes suaves sin rastros de quemaduras, rango completo incluso con epsilon
Entrenamiento puro desde Illustrious v0.1 sin involucrar checkpoints de terceros, Loras, tweaks, etc.

También hay algunos problemas y cambios comparado con la versión previa, por favor RTFM.

Corte del conjunto de datos - fin de abril de 2025.

Características y uso de indicaciones:

Cambio importante:

Cuando indicas estilos de artistas, especialmente mezclando varios, sus etiquetas DEBEN estar en un bloque CLIP separado. Solo añade BREAK después (para A1111 y derivados), usa el nodo de concat conditioning (para Comfy) o al menos colócalas al final. De lo contrario, es probable una degradación significativa de resultados.

Básico:

El checkpoint funciona tanto con indicaciones cortas y simples como con largas y complejas. Sin embargo, si hay contradicciones o elementos extraños, a diferencia de otros, no se ignorarán y afectarán la salida. Sin guías, sin protecciones, sin lobotomía.

Solo indica lo que quieres ver y no incluyas lo que no debería estar en la imagen. Si quieres vista desde arriba, no incluyas techo en positivo; si quieres recorte con cabeza fuera de cuadro, no detalles las facciones; y así sucesivamente. Sencillo, pero a veces se olvida.

La versión 0.8 incluye comprensión avanzada de indicaciones de texto natural. No significa que debas usarlo necesariamente, solo etiquetas funcionan bien, especialmente porque la comprensión de combinaciones de etiquetas también mejoró.

No esperes que funcione como Flux u otros modelos basados en codificadores de texto T5 o LLM. Todo el tamaño del checkpoint SDXL es menor que ese codificador de texto únicamente, además Illustrious-v0.1 base olvidó muchas cosas generales del sdxl-base vanilla.

Aun así, en su estado actual funciona mucho mejor, permite realizar cosas nuevas que suelen ser imposibles sin guía externa, y hace que la edición manual, pintura sobre imagen, etc. sean más convenientes.

Para un mejor rendimiento deberías controlar los bloques CLIP. En SDXL la indicación se separa en bloques de 75 (77 con BOS y EOS) tokens, procesados por CLIP por separado, y luego concatenados para condicionamiento en el unet.

Si quieres especificar características para personaje/objeto y separarlas de otras partes, asegúrate que estén en el mismo bloque y opcionalmente sepáralas con BREAK. No resuelve completamente mezclas de rasgos, pero puede reducirlas mejorando la comprensión general, ya que los codificadores de texto de RouWei procesan mejor la secuencia completa, no solo conceptos individuales.

El conjunto de datos contiene solo etiquetas estilo booru y expresiones de texto natural. Aunque incluye furries, fotos reales, medios occidentales, etc., todas las leyendas fueron convertidas a estilo booru clásico para evitar problemas por mezclar sistemas. Por esto las etiquetas de e621 no se entenderán bien.

Parámetros de muestreo:

~1 megapíxel para txt2img, cualquier relación de aspecto con resolución múltiplo de 32 (1024x1024, 1056x, 1152x, 1216x832,...). Euler_a, 20..28 pasos.
CFG: para versión epsilon 4..9 (7 es lo mejor), para versión vpred 3..5
Multiplicar sigmas puede mejorar resultados, los muestreadores CFG++ funcionan bien. LCM/PCM/DMD/... y otros exóticos no testeados.
Algunos schedulers no funcionan bien.
Highresfix - latente x1.5 + denoise 0.6 o cualquier gan + denoise 0.3..0.55.
Para versión vpred se necesita CFG menor 3..5!

Para versión vpred se necesita CFG menor 3..5!

Clasificación de calidad:

Sólo 4 etiquetas de calidad:

masterpiece, best quality

para positivo y

low quality, worst quality

para negativo.

No hay más. Realmente puedes omitir positivo y reducir negativo a low quality solamente, ya que afectan estilo y composición básica.

Las meta-etiquetas como lowres han sido eliminadas y no funcionan, mejor no usarlas. Imágenes de baja resolución fueron eliminadas o escaladas y limpiadas con DAT según su importancia.

Prompts negativos:

worst quality, low quality, watermark

Eso es todo, no hace falta "rusty trombone", "farting on prey" u otros. No pongas etiquetas como greyscale, monochrome en negativo a menos que entiendas lo que haces. Se pueden usar etiquetas extra para brillo/colores/contraste abajo.

Estilos de artistas:

Cuadrículas con ejemplos, lista/wildcard (también en "training data").

Se debe usar con "by " es obligatorio. No funcionará bien sin ello.

"by " es un meta-token para estilos para evitar mezclar/confundir con etiquetas/personajes con nombres similares. Esto permite mejores resultados en estilos y evita fluctuaciones aleatorias que se ven en otros checkpoints.

Usar múltiples da resultados muy interesantes, se puede controlar con pesos y spells en indicaciones.

DEBES AÑADIR `BREAK` después de etiquetas de artistas/estilos (para A1111) o concat conditioning (para Comfy) o ponerlas al final de tu indicación.

Por ejemplo:

by kantoku, by wlop, best quality, masterpiece BREAK 1girl, ...

Estilos generales:

2.5d, anime screencap, bold line, sketch, cgi, digital painting, flat colors, smooth shading, minimalistic, ink style, oil style, pastel style

Estilos de etiquetas booru:

1950s (style), 1960s (style), 1970s (style), 1980s (style), 1990s (style), 2000s (style), animification, art nouveau, pinup (style), toon (style), western comics (style), nihonga, shikishi, minimalism, fine art parody

y todo de este grupo.

Pueden usarse en combinaciones (también con artistas), con pesos, tanto en indicaciones positivas como negativas.

Personajes:

Usa etiqueta booru con nombre completo y formato correcto, como karin_(blue_archive) -> karin \(blue archive\), usa etiquetas de piel para mejor reproducción, como karin \(bunny\) \(blue archive\). La extensión de autocompletado puede ser muy útil.

La mayoría de personajes se reconocen sólo por la etiqueta booru, pero será más exacto describiendo rasgos básicos. Aquí puedes cambiar tu waifu/husbendo fácilmente solo con la indicación sin sufrir fugas típicas de características básicas.

Texto natural:

Úsalo combinado con etiquetas booru, funciona genial. Usa solo texto natural después de estilos y etiquetas de calidad. Usa solo etiquetas booru y listo, depende de ti. Para mejor rendimiento controla bloques CLIP de 75 tokens.

Unos 4M de imágenes del dataset tienen leyendas híbridas de texto natural, creadas por Claude, GPT, Gemini, ToriiGate, luego refactorizadas, limpiadas y combinadas con etiquetas en distintas variaciones para aumento.

A diferencia de leyendas típicas, incluyen nombres de personajes, lo cual es muy útil. Mejor mantener descripciones limpias, cortas y convenientes. Es mejor no usar textos largos o confusos como

Una entidad femenina misteriosamente encantadora de esencia indeterminada pero juvenil, cuyo rostro celestial irradia con la luminiscencia etérea de mil estrellas moribundas, bendecida con cabellos cayendo como ríos dorados de mitología antigua, posiblemente estilizada como moda contemporánea, aunque no necesariamente atada a un paradigma estético específico. Sus ojos, pozos de profundidad y matiz insondables, brillan con la sabiduría de milenios pero mantienen una inocencia que desafía el tiempo...

Para crear leyendas puedes usar ToriiGate en modo corto.

No esperes que sea tan bueno como flux u otros, se esfuerza mucho y usualmente con varios intentos conseguirás lo que quieres, pero no es tan estable ni detallado.

Sí

censura de cola, sosteniendo su propia cola, abrazando su cola, sosteniendo cola ajena, agarre de cola, cola levantada, cola baja, orejas bajas, mano en propia oreja, cola alrededor de la pierna, cola alrededor del pene, tailjob, cola a través de ropa, cola bajo ropa, levantado por cola, mordiendo cola, penetración de cola (incluye vaginal/anal), masturbación con cola, sosteniendo con cola, panties en cola, brasier en cola, foco en cola, presentando la propia cola...

(significado booru, no e621) y muchos otros con texto natural. La mayoría funciona perfectamente, algunos requieren muchos intentos.

Brillo/colores/contraste:

Puedes usar meta-etiquetas extra para controlar:

bajo brillo, alto brillo, baja saturación, alta saturación, baja gamma, alta gamma, colores vivos, colores suaves, hdr, sdr

Ejemplo

Funcionan en versiones epsilon y vpred y realmente bien.

La versión epsilon depende mucho de ellas. Sin bajo brillo o baja gamma o rango limitado (en negativo) puede ser difícil lograr negro 0,0,0 real, lo mismo para blanco.

Ambas versiones tienen zsnr real, rango completo de colores y brillo sin fallos comunes observados. Pero se comportan diferente, solo pruébalo.

Versión Vpred

Lo principal que debes saber es bajar tu CFG de 7 a 5 (o menos). Por lo demás, su uso es similar con ventajas.

Parece que desde v0.7 vpred funciona perfectamente. No debería ignorar etiquetas cercanas a los bordes de bloques de 75 tokens como nai. Es más difícil obtener imágenes quemadas, incluso en cfg7 usualmente es solo sobresaturación con gradientes suaves, útil para algunos estilos. Sí puede generar desde (0,0,0) hasta (255,255,255). Las meta etiquetas de brillo arriba descritas serán muy útiles para indicaciones fáciles/rápidas, las expresiones de texto natural también funcionan. Para la imagen más oscura pon high brightness en negativo y/o usa etiquetas low brightness, low gamma. Si no te gusta piel muy brillante sobre fondo oscuro y quieres reducir contraste (o aumentarlo), usa hdr/sdr en negativo/positivo respectivamente.

Se reportó que en casos raros con algunas indicaciones hay caída de contraste. Parece que otros modelos vpred tienen ese comportamiento con ciertas indicaciones, añadir un "separador" cerca del borde del bloque de 75 tokens lo soluciona. Sin embargo, con 0.7 no lo he encontrado yo mismo.

Para ejecutar la versión vpred necesitarás build dev de A1111, Comfy (con loader especial), Forge o Reforge. Usa los mismos parámetros (Euler a, cfg 3..5, 20..28 pasos) que epsilon. No es necesario usar Cfg rescale, pero puedes probarlo, cfg++ funciona muy bien.

Modelo base:

Este modelo tiene un pequeño pulido del unet tras el entrenamiento principal para mejorar detalles pequeños, aumentar resolución y otros. Sin embargo, también podría interesarte RouWei-Base, que a veces funciona mejor en indicaciones complejas a pesar de tener errores menores en detalles pequeños. También viene en FP32, por ejemplo para usar nodos de codificador de texto fp32 en Comfy, fusionarlo o afinarlo.

Se puede encontrar en repositorio Huggingface

Problemas conocidos:

Por supuesto hay:

Etiquetas de artistas y estilos deben estar en un bloque diferente al prompt principal o ir al final
Puede haber sesgos posicionales o combinacionales en casos raros, aún no claros.
Hay quejas sobre algunos estilos generales.
La versión epsilon depende demasiado de meta etiquetas de brillo, a veces debes usarlas para obtener el cambio deseado.
Algunos estilos/personajes nuevos podrían no ser tan buenos ni distintivos como merecen.
Por descubrir

Solicitudes para artistas/personajes en futuros modelos están abiertas. Si encuentras artista/personaje/concepto que funciona débil, inexacto o tiene marca de agua fuerte, por favor reporta, los añadiremos explícitamente. Sigue para nuevas versiones.

ÚNETE AL SERVIDOR DE DISCORD

Licencia:

Igual que illustrious. Siéntete libre de usar en tus fusiones, afinados, etc. pero por favor deja un enlace o mención, es obligatorio.

Cómo se hizo

Consideraré hacer un informe o algo así más adelante. Seguro.

En resumen, el 98% del trabajo fue preparar el conjunto de datos. En lugar de confiar ciegamente en ponderación de pérdida basada en frecuencia de etiquetas del paper nai, se usó una implementación personalizada de ponderación guiada junto con un collator asíncrono para balancear. Se consiguió Ztsnr (o similar) con predicción Epsilon usando aumento de programador de ruido.

Tiempo de cómputo: más de 8k horas de H100 (aparte de investigación e intentos fallidos)

Agradecimientos:

Primero quiero agradecer a todos los que apoyan open source, desarrollan y mejoran código. Gracias a los autores de illustrious por liberar el modelo, gracias al equipo NoobAI por ser pioneros en afinado abierto a esta escala, compartir experiencia, identificar y resolver problemas antes inadvertidos.

Personal:

Artistas que prefieren anonimato para compartir obras privadas; Algunas personas anónimas - donaciones, código, leyendas, etc.; Soviet Cat - patrocinio GPU; Sv1. - acceso llm, leyendas, código; K. - código de entrenamiento; Bakariso - datasets, tests, consejos, ideas; NeuroSenko - donaciones, tests, código; LOL2024 - muchos datasets únicos; T.,[] - datasets, tests, consejos; rred, dga, Fi., ello - donaciones; TekeshiX - datasets. Y otros compañeros que ayudaron. Los quiero mucho ❤️.

Y por supuesto a todos los que dieron feedback y peticiones, es muy valioso.

Si olvidé mencionar alguien, por favor avísame.

Donaciones

Si quieres apoyar - comparte mis modelos, deja feedback, haz una imagen linda con chica kemonomimi. Y por supuesto, apoya a los artistas originales.

La IA es mi hobby, gasto dinero en ella y no pido donaciones. Sin embargo, se ha vuelto un proyecto grande y costoso. Considera ayudar para acelerar nuevos entrenamientos e investigaciones.

(Ten en cuenta que puedo malgastarlo en alcohol o chicas cosplay)

BTC: bc1qwv83ggq8rvv07uk6dv4njs0j3yygj3aax4wg6c

ETH/USDT(e): 0x04C8a749F49aE8a56CB84cF0C99CD9E92eDB17db

XMR: 47F7JAyKP8tMBtzwxpoZsUVB8wzg2VrbtDKBice9FAS1FikbHEXXPof4PAb42CQ5ch8p8Hs4RvJuzPHDtaVSdQzD6ZbA5TZ

si puedes ofrecer tiempo GPU (a100+) - PM.