modelos/RouWei - v0.8.0 vpred

RouWei - v0.8.0 vpred

Marta García

10/16/2025

1:09:25 AM

| Discussion

Palabras Clave y Etiquetas Relacionadas

anime,estilos de artistas,modelo base,punto de control,ilustre,adhesión al prompt

Una chica sin rostro con cabello largo negro y una túnica negra con patrones ajedrezados está sobre un piano gigante, sonriendo malvadamente, mientras un lobo negro camina sobre un paisaje de arena ajedrezada abajo.

Prompts Recomendados

masterpiece

Prompts Negativos Recomendados

worst quality,low quality,watermark

worst quality, low quality, watermark

Parámetros Recomendados

samplers

Euler_a, Euler a

steps

20 - 28

cfg

4 - 9

resolution

1024x1024, 1216x832, 1376x832, 1280x800, 1200x1920, 832x1216, 1216x832

vae

sdxl_vae.safetensors

Parámetros Recomendados de Alta Resolución

upscaler

Latent

upscale

1.5

steps

15 - 22

denoising strength

0.5 - 0.65

Consejos

Las etiquetas de artista/estilo deben estar en un fragmento CLIP separado o colocadas al final del prompt con un token BREAK para mejor cumplimiento de indicaciones.

Usa solo 4 etiquetas de calidad: 'masterpiece' y 'best quality' para positivo, 'low quality' y 'worst quality' para negativos.

Evita etiquetas meta como 'lowres'; han sido eliminadas y no afectan resultados.

Para la versión vpred, usa valores CFG más bajos (3 a 5).

Las etiquetas meta relacionadas con brillo, contraste y color (ej. 'low brightness', 'high saturation') mejoran la calidad y funcionan en versiones epsilon y vpred.

Usa texto natural combinado con etiquetas booru y mantén los prompts cortos y claros para mejores resultados.

Se pueden combinar múltiples estilos de artista con pesos y hechizos en el prompt.

Aspectos Destacados de la Versión

Vpred para v0.8

Patrocinadores del Creador

Apoya el modelo y autores a través del Repositorio Huggingface y únete al Servidor Discord. Donaciones aceptadas vía BTC, ETH/USDT, XMR o tiempo GPU (A100+). Consulta detalles en la página.

Retraining en profundidad de Illustrious para alcanzar el mejor cumplimiento de indicaciones, conocimiento y rendimiento de última generación.

Grandes sueños se hacen realidad

El número de versión es solo un índice de la versión final actual, no una fracción del entrenamiento planificado.

Repositorio HF

Ajuste fino a gran escala usando clúster de GPU con un conjunto de datos de ~13M imágenes (~4M con descripciones en texto natural)

Conocimiento actualizado y extenso sobre personajes, conceptos, estilos, cultura y temas relacionados
El mejor cumplimiento de indicaciones entre los modelos anime SDXL al momento del lanzamiento
Solucionados problemas principales de sangrado y sesgos en etiquetas, comunes en Illustrious, NoobAi y otros checkpoints
Excelentes estética y conocimiento en una amplia gama de estilos (más de 50,000 artistas (ejemplos), incluyendo cientos de conjuntos de datos únicos seleccionados de galerías privadas, incluidos los proporcionados por los propios artistas)
Alta flexibilidad y variedad sin comprometer la estabilidad
Sin marcas de agua molestas para estilos populares gracias al conjunto de datos limpio
Colores vibrantes y degradados suaves sin rastros de quemado, rango completo incluso con epsilon
Entrenamiento puro desde Illustrious v0.1 sin involucrar checkpoints de terceros, Loras, tweakers, etc.

También existen algunos problemas y cambios en comparación con la versión anterior, por favor lea el manual.

Corte del conjunto de datos - finales de abril de 2025.

Características e indicaciones:

Cambio importante:

Cuando uses estilos de artistas, especialmente al mezclar varios, sus etiquetas DEBEN estar en un fragmento CLIP separado. Simplemente añade BREAK después (para A1111 y derivados), usa el nodo de concatenación de acondicionamiento (para Comfy) o al menos colócalas al final del prompt. De lo contrario, es probable una degradación significativa del resultado.

Básico:

El checkpoint funciona tanto con prompts cortos y simples como largos y complejos. Sin embargo, si hay cosas contradictorias o raras, a diferencia de otros, no serán ignoradas afectando la salida. Sin guías, sin salvaguardas, sin lobotomía.

Simplemente describe lo que quieres ver y no indiques lo que no debe aparecer en la imagen. Si quieres una vista desde arriba, no incluyas techo en positivo; si quieres un encuadre recortado con la cabeza fuera de cuadro, no describas detalladamente las facciones del personaje, etc. Bastante simple pero a veces la gente lo olvida.

La versión 0.8 viene con comprensión avanzada de prompts en texto natural. No significa que estés obligado a usarlo, solo etiquetas - está bien, especialmente porque la comprensión de combinaciones de etiquetas también está mejorada.

No esperes que funcione como Flux u otros modelos basados en codificadores de texto T5 o LLM. El tamaño total del checkpoint SDXL es menor que solo ese codificador de texto, además Illustrious-v0.1, que se usa como base, olvidó mucho de las funciones generales del sdxl-base original.

Sin embargo, incluso en el estado actual funciona mucho mejor, permite hacer cosas nuevas normalmente imposibles sin guía externa, además facilita edición manual, repintado, etc.

Para lograr el mejor rendimiento debes tener en cuenta los fragmentos CLIP. En SDXL el prompt se divide en fragmentos de 75 (77 incluyendo BOS y EOS) tokens, que son procesados por CLIP por separado y luego concatenados y enviados como condiciones al unet.

Si deseas especificar características para un personaje/objeto y separarlas del resto del prompt, asegúrate que estén en el mismo fragmento y opcionalmente sepáralas con BREAK. No resolverá totalmente el problema de mezcla de rasgos, pero puede reducirlo mejorando la comprensión general, ya que los codificadores de texto en RouWei procesan toda la secuencia, no conceptos individuales mejor que otros.

El conjunto de datos contiene solo etiquetas estilo booru y expresiones en texto natural. A pesar de incluir algunas imágenes de furries, fotos reales, medios occidentales, etc., todas las descripciones se convirtieron al estilo clásico booru para evitar problemas de mezclar diferentes sistemas. Por lo tanto, las etiquetas e621 no se entenderán correctamente.

Parámetros de muestreo:

~1 megapíxel para txt2img, cualquier AR con resolución múltiplo de 32 (1024x1024, 1056x, 1152x, 1216x832,...). Euler_a, 20..28 pasos.
CFG: para la versión epsilon 4..9 (7 es mejor), para la versión vpred, 3..5
Multiplicar sigmas puede mejorar resultados, muestreadores CFG++ funcionan bien. LCM/PCM/DMD/... y muestreadores exóticos sin probar.
Algunos agendadores no funcionan bien.
Highresfix - x1.5 latente + denoise 0.6 o cualquier gan + denoise 0.3..0.55.
Para la versión vpred ¡se requiere CFG más bajo 3..5!

Para la versión vpred ¡se requiere CFG más bajo 3..5!

Clasificación de calidad:

Sólo 4 etiquetas de calidad:

masterpiece, best quality

para positivo y

low quality, worst quality

para negativo.

Nada más. En realidad puedes omitir positivo y reducir negativo a low quality solo, ya que pueden afectar el estilo básico y composición.

Las meta etiquetas como lowres fueron eliminadas y no funcionan, mejor no usarlas. Imágenes de baja resolución fueron eliminadas o mejoradas y limpiadas con DAT según su importancia.

Prompt negativo:

worst quality, low quality, watermark

Eso es todo, no hace falta "rusty trombone", "farting on prey" y otros. No pongas etiquetas como escala de grises, monocromo en negativo a menos que sepas lo que haces. Las etiquetas extra para brillo/colores/contraste mencionadas abajo pueden usarse.

Estilos de artistas:

Cuadrículas con ejemplos, lista/wildcard (también se puede encontrar en "datos de entrenamiento").

Usar con "by " es obligatorio. No funcionará correctamente sin ello.

"by " es un meta-token para estilos para evitar mezcla/mala interpretación con etiquetas/personajes de nombre similar o cercano. Esto permite obtener mejores resultados para estilos y al mismo tiempo evitar fluctuaciones aleatorias de estilo que se pueden observar en otros checkpoints.

Múltiples generan resultados muy interesantes, pueden controlarse con pesos de prompt y hechizos.

DEBES AÑADIR `BREAK` después de las etiquetas de artistas/estilos (para A1111) o concatenación de acondicionamiento (para Comfy) o colocarlas al final del prompt.

Por ejemplo:

by kantoku, by wlop, best quality, masterpiece BREAK 1girl, ...

Estilos generales:

2.5d, captura de anime, línea audaz, boceto, cgi, pintura digital, colores planos, sombreado suave, minimalista, estilo tinta, estilo óleo, estilo pastel

Estilos de etiquetas booru:

años 1950 (estilo), años 1960 (estilo), años 1970 (estilo), años 1980 (estilo), años 1990 (estilo), años 2000 (estilo), animificación, art nouveau, pinup (estilo), dibujo animado (estilo), cómics occidentales (estilo), nihonga, shikishi, minimalismo, parodia de bellas artes

y todo de este grupo.

Puede usarse en combinaciones (también con artistas), con pesos, tanto en prompts positivos como negativos.

Personajes:

Usa el nombre completo en etiqueta booru y formato adecuado, como karin_(blue_archive) -> karin \(blue archive\), usa etiquetas de piel para mejor reproducción, como karin \(bunny\) \(blue archive\). La extensión de autocompletado puede ser muy útil.

La mayoría de personajes se reconocen solo por su etiqueta booru, pero será más preciso si describes sus rasgos básicos. Aquí puedes fácilmente volver a vestir a tu waifu/husbando solo con el prompt sin sufrir las típicas fugas de características básicas.

Texto natural:

Úsalo combinado con etiquetas booru, funciona muy bien. Usa solo texto natural después de los estilos y etiquetas de calidad. Usa solo etiquetas booru y olvídalo, depende de ti. Para mejor rendimiento presta atención a los fragmentos CLIP de 75 tokens.

Aproximadamente 4M de imágenes en el conjunto de datos tenían leyendas en texto natural híbridas, hechas por Claude, GPT, Gemini, ToriiGate, luego revisadas, limpiadas y combinadas con etiquetas en diversas variantes para aumentar datos.

A diferencia de las leyendas típicas, estas incluyen nombres de personajes, lo cual es muy útil. Mejor que sea limpia, corta y con descripciones convenientes funciona mejor. Mejor no usar largas y complicadas como

Una entidad femenina misteriosamente encantadora de esencia indefinida pero juvenil, cuyo rostro celestial irradia con la luminiscencia etérea de mil estrellas moribundas, bendecida con cabellos que caen como ríos dorados de la mitología antigua, quizás peinada al estilo contemporáneo aunque no necesariamente siguiendo un paradigma estético específico. Sus ojos, pozos de profundidad e intensidad inabarcables, brillan con la sabiduría de milenios y mantienen una inocencia que desafía las restricciones temporales...

Para hacer leyendas puedes usar ToriiGate en modo corto.

No esperes que sea tan bueno como flux y otros, hace un gran esfuerzo y tras varios intentos usualmente puedes obtener lo que quieres, pero no es tan estable ni detallado.

Sí

censura de cola, sosteniendo su propia cola, abrazando su cola, sosteniendo la cola de otro, agarrón de cola, cola levantada, cola abajo, orejas abajo, mano en su oreja, cola alrededor de su pierna, cola alrededor del pene, tailjob, cola a través de la ropa, cola bajo la ropa, levantado por la cola, mordiendo cola, penetración de cola (incluyendo indicación específica vaginal/anal), masturbación con cola, sosteniendo con cola, bragas en la cola, sostén en la cola, foco en cola, presentando su cola...

(significado booru, no e621) y muchos otros con texto natural. La mayoría funciona perfectamente, algunos requieren muchos intentos.

Brillo/colores/contraste:

Puedes usar meta etiquetas extra para controlarlo:

bajo brillo, alto brillo, baja saturación, alta saturación, baja gamma, alta gamma, colores nítidos, colores suaves, hdr, sdr

Ejemplo

Funcionan tanto en las versiones epsilon como vpred y funcionan muy bien.

La versión epsilon depende demasiado de estas. Sin bajo brillo o baja gamma o rango limitado (en negativo) podría ser difícil lograr un negro verdadero (0,0,0), lo mismo generalmente para blanco.

Tanto epsilon como vpred tienen algo así como verdadero zsnr, rango completo de colores y brillo sin defectos comunes observados. Pero se comportan diferente, solo pruébalo.

Versión Vpred

Lo principal que debes saber - reduce tu CFG de 7 a 5 (o menos). Por lo demás, el uso es similar con ventajas.

Parece que a partir de v0.7 vpred funciona sin fallas. No debería sufrir ignorancia de etiquetas cerca de los bordes de fragmentos de 75 tokens como nai. Es más difícil obtener imágenes quemadas - incluso con cfg7 suele estar sobresaturado pero con degradados suaves, lo que puede ser útil para algunos estilos. Sí, puede generar desde (0,0,0) hasta (255,255,255). Encontrarás útiles las meta etiquetas de brillo descritas arriba para indicación más fácil/perezosa, también funciona texto natural. Para obtener la imagen más oscura - pon high brightness en negativo y/o usa etiquetas low brightness, low gamma. Si no te gusta piel muy brillante en fondo oscuro y quieres reducir contraste (o al contrario, aumentarlo) - usa hdr/sdr en negativo/positivo.

Se informó que en casos raros con algunos prompts hay caída de contraste. Parece que otros modelos vpred tienen el mismo comportamiento con esos prompts, añadir un "separador" más cercano al borde del fragmento de 75 tokens lo arregla. Sin embargo, con 0.7 no me ha ocurrido personalmente.

Para lanzar la versión vpred necesitarás build dev de A1111, Comfy (con nodo cargador especial), Forge o Reforge. Usa los mismos parámetros (Euler a, cfg 3..5, 20..28 pasos) como epsilon. No es necesario usar rescalado Cfg, pero puedes probarlo, cfg++ funciona bien.

Modelo base:

El modelo tiene una pequeña mejora de unet después del entrenamiento principal para mejorar detalles pequeños, aumentar resolución y otros. Sin embargo, puede que te interese RouWei-Base, que a veces funciona mejor en prompts complejos a pesar de tener pequeños errores en detalles. También está en FP32, por ejemplo si quieres usar nodos codificadores fp32 en Comfy, combinarlo o afinarlo.

Está disponible en el repositorio Huggingface

Problemas conocidos:

Por supuesto que hay:

Las etiquetas de artistas y estilos deben separarse en un fragmento diferente del prompt principal o ir al final
Puede haber algún sesgo posicional o combinacional en casos raros, pero aún no está claro.
Hay quejas sobre algunos estilos generales.
La versión epsilon depende demasiado de etiquetas de meta brillo, a veces necesitarás usarlas para lograr el cambio de brillo deseado
Algunos estilos/personajes añadidos recientemente pueden no ser tan buenos o distintivos como deberían
Por descubrir

Las solicitudes para artistas/personajes en futuros modelos están abiertas. Si encuentras artista/personaje/concepto que rinda débil, inexacto o tenga marca de agua fuerte - por favor reporta, los añadiremos explícitamente. Sigue para nuevas versiones.

ÚNETE AL SERVIDOR DISCORD

Licencia:

Igual que illustrious. Siéntete libre de usarlo en tus merges, finetunes, etc. pero por favor deja un enlace o mención, es obligatorio

Cómo se hizo

Consideraré hacer un informe o algo parecido más adelante. Seguro.

En resumen, el 98% del trabajo está relacionado con la preparación del conjunto de datos. En lugar de depender ciegamente del ponderado por pérdida basado en la frecuencia de etiquetas del artículo de nai, se utilizó una implementación personalizada de ponderado por pérdida guiada junto con un collator asíncrono para balancear. Se logró Ztsnr (o cercano) con predicción Epsilon usando aumento en el planificador de ruido.

Horas de cómputo: más de 8k horas en H100 (además de investigación y intentos fallidos)

Agradecimientos:

Ante todo me gustaría agradecer a todos los que apoyan el código abierto, desarrollan y mejoran código. Gracias a los autores de illustrious por lanzar el modelo, al equipo NoobAI por ser pioneros en finetuning abierto a gran escala, compartir experiencia, detectar y solucionar problemas antes inadvertidos.

Personal:

Artistas que prefieren anonimato por compartir obras privadas; algunas personas anónimas - donaciones, código, descripciones, etc., Soviet Cat - patrocinio GPU; Sv1. - acceso llm, descripciones, código; K. - código de entrenamiento; Bakariso - datasets, pruebas, consejos, análisis; NeuroSenko - donaciones, pruebas, código; LOL2024 - muchos datasets únicos; T.,[] - datasets, pruebas, consejos; rred, dga, Fi., ello - donaciones; TekeshiX - datasets. Y otros colegas que ayudaron. Los quiero mucho ❤️.

Y por supuesto todos los que dieron feedback y solicitudes, es muy valioso.

Si olvidé mencionar a alguien, por favor notifíquenme.

Donaciones

Si quieres apoyar - comparte mis modelos, deja comentarios, crea una imagen linda con chica kemonomimi. Y por supuesto, apoya a los artistas originales.

La IA es mi hobby, gasto dinero en ello y no pido donaciones. Sin embargo, se ha convertido en un proyecto grande y costoso. Considera apoyar para acelerar nuevos entrenamientos e investigaciones.

(Solo ten en cuenta que puedo gastarlo en alcohol o chicas cosplay)

BTC: bc1qwv83ggq8rvv07uk6dv4njs0j3yygj3aax4wg6c

ETH/USDT(e): 0x04C8a749F49aE8a56CB84cF0C99CD9E92eDB17db

XMR: 47F7JAyKP8tMBtzwxpoZsUVB8wzg2VrbtDKBice9FAS1FikbHEXXPof4PAb42CQ5ch8p8Hs4RvJuzPHDtaVSdQzD6ZbA5TZ

si puedes ofrecer tiempo GPU (a100+) - PM.