modelos/Anime Illust Diffusion XL - v0.5-alpha

Anime Illust Diffusion XL - v0.5-alpha

Marta García

5/24/2025

1:13:03 AM

| Discussion|

Palabras Clave y Etiquetas Relacionadas

anime,modelo base,cel shading,punto de control,euge_,color plano,ilustración,impasto,pseudo-impasto,sdxl 1.0

Una chica anime con un vestido rojo y cabello largo y fluido, de pie en un foco de luz. Imagen generada por IA usando Stable Diffusion.

Un personaje estilo anime con cabello largo, oscuro y ligeramente despeinado, una cicatriz en la frente y un pendiente. El personaje lleva una chaqueta moderna con una expresión relajada y gotas sutiles de sudor en el rostro. El fondo presenta un paisaje nocturno urbano bullicioso con letreros de neón y reflejos en superficies húmedas, dando un ambiente cyberpunk.

Imagen estilo anime de un hombre con cabello negro largo, cicatrices faciales y un atuendo tradicional japonés. Imagen generada por IA usando Stable Diffusion.

Una chica anime gótica con largo cabello negro en coletas, vestida con un disfraz oscuro de inspiración victoriana en rojo y negro, creada usando Stable Diffusion.

Retrato digital elegante de una mujer asiática con cabello oscuro adornado con un adorno floral rojo. La mujer viste ropa tradicional con patrones intrincados. El fondo está desenfocado con luces bokeh.

Prompts Recomendados

frieren from sousou no frieren,impasto style,beautiful color, detailed, aesthetic

best quality,masterpiece,vivid color,1girl,solo,bangs

Prompts Negativos Recomendados

worst quality:1.3,low quality,lowres,messy,abstract,ugly,disfigured,bad anatomy,draft,deformed hands,fused fingers,signature,text,multi views

aidxl_neg

Parámetros Recomendados

samplers

DPM++ 2M Karras

steps

30 - 35

cfg

resolution

1664x2496, 1760x2352, 2496x1664

vae

sdxl_vae.safetensors (235745af8d)

other models

0013.fp16 (c57cecf7c7), 0017.fp16 (910c87ca13)

Parámetros Recomendados de Alta Resolución

denoising strength

0.37

Consejos

Reduce el peso en palabras clave de estilo de artista, por ejemplo (by xxx:0.6).

Ordena tus etiquetas del prompt para mejores resultados.

Usa el VAE del modelo o sdxl-vae.

Aspectos Destacados de la Versión

Se añadieron 143 palabras clave nuevas. Esta versión es beta de AIDXLv0.5. Los nuevos estilos no son estables. Recomendaría AIDXLv0.41 para mejor experiencia.

Add 143 new trigger words. This version is a beta version of AIDXLv0.5. The new styles are not stable. I would recommend AIDXLv0.41 for better experience.

Patrocinadores del Creador

Patrocinio de potencia computacional: Gracias a la comunidad @NieTa (捏Ta (nieta.art )) por proveer soporte computacional;

Soporte de datos: Gracias a @KirinTea_Aki (Perfil KirinTea_Aki | Civitai) y a @Chenkin (Civitai | Comparte tus modelos) por proveer gran cantidad de datos;

No existiría la versión 0.7 sin ellos.

Introducción al Modelo (parte en inglés)

I Contenidos

En esta introducción, aprenderás sobre:

Información del modelo (ver Sección II);
Instrucciones de uso (ver Sección III);
Parámetros de entrenamiento (ver Sección IV);
Lista de Palabras Clave (ver Apéndice Parte A)

II AIDXL

Anime Illustration Diffusion XL, o AIDXL, es un modelo dedicado a generar ilustraciones de anime estilizadas. Cuenta con más de 800 (con más actualizaciones constantes) estilos incorporados, que se activan mediante palabras clave específicas (ver Apéndice A).

Ventajas:

Composición flexible en lugar de poses tradicionales de IA.
Detalles hábiles en lugar de caos desordenado.
Reconocimiento mejor de personajes de anime.

III Guía del Usuario

1 Uso básico

1.1 Prompt

Palabras clave: Añade las palabras clave proporcionadas en Apéndice A para estilizar la imagen. Las palabras clave adecuadas mejorarán enormemente la calidad;
Se recomienda reducir el peso de las palabras clave del estilo del artista, por ejemplo, (by xxx:0.6).
Orden semántico: Ordenar tus etiquetas o frases en el prompt ayudará al modelo a entender tu intención.
Orden recomendado: Palabra clave (by xxx) -> personaje (una chica llamada frieren de la serie sousou no frieren) -> raza (elfo) -> composición (plano vaquero) -> estilo (estilo impasto ) -> tema (fantasía) -> ambiente principal (en el bosque, de día) -> fondo (fondo degradado) -> acción (sentada en el suelo) -> expresión (sin expresión) -> características principales (cabello blanco) -> características del cuerpo (coletas, ojos verdes, labios separados) -> ropa (vestido blanco) -> accesorios de ropa (volantes) -> otros objetos (un gato) -> ambiente secundario (césped, sol) -> estética (color hermoso, detallado, estético) -> calidad ((mejor calidad:1.3))
Prompts negativos: (peor calidad:1.3), baja calidad, baja resolución, desordenado, abstracto, feo, deforme, mala anatomía, borrador, manos deformes, dedos fusionados, firma, texto, vistas múltiples

1.2 Parámetros de Generación

Resolución: Asegura que el número total de píxeles (=ancho * alto) esté alrededor de 1024*1024 y que ancho y alto sean divisibles entre 32, así AIDXL producirá el mejor resultado. Por ejemplo, 832x1216 (2:3), 1216x832 (3:2), y 1024x1024 (1:1), etc.
Sampler y pasos: Usa el sampler "Euler Ancester", llamado Euler A en webui. Realiza aproximadamente ~28 pasos con una escala CFG de 7 a 9.
'Refinar': La imagen generada desde text2image a veces está borrosa, en ese caso necesitas 'refinarla' usando image2image o inpainting, etc.
Para un escalado simple, puedes referirte a: Escalar a tamaños enormes y añadir detalle con SD Upscale, ¡es fácil! : r/StableDiffusion (reddit.com )
Otros componentes: No es necesario usar ningún modelo refinador. Usa el VAE del modelo mismo o el sdxl-vae.

Q: ¿Cómo reproducir la portada del modelo? ¿Por qué no puedo generar la misma imagen que la portada con los mismos parámetros?

A: Porque los parámetros de generación mostrados en la portada no son los parámetros de text2image, sino los parámetros de image2image (para escalar). La imagen base es generada mayoritariamente con el sampler Euler Ancester y no con el sampler DPM.

2 Uso especial

2.1 Estilos Generalizados

Desde la versión 0.7, AIDXL resume varios estilos similares e introduce palabras clave de estilo generalizado. Estas representan una categoría común de estilo de ilustración de animación. Ten en cuenta que estas palabras clave no necesariamente siguen el significado artístico literal, sino que son palabras clave especiales redefinidas.

2.2 Personajes

Desde la versión 0.7, AIDXL ha mejorado el entrenamiento para personajes. Algunos disparadores de personajes ya pueden lograr efectos similares a Lora y separan bien el concepto del personaje de su vestimenta.

El método para activar personajes es: {character} \({copyright}\). Por ejemplo, para activar a la heroína Lucy en la animación "Cyberpunk: Edgerunners", usa lucy \(cyberpunk\); para activar al personaje Gan Yu en el juego "Genshin Impact", usa ganyu \(genshin impact\). Aquí, "lucy" y "ganyu" son nombres de personajes, "\(cyberpunk\)" y "\(genshin impact\)" son los orígenes de dichos personajes, y los paréntesis se escapan con barras "\" para evitar que se interpreten como etiquetas ponderadas. Para algunos personajes, la parte de copyright no es necesaria.

Desde la versión v0.8, hay un método más fácil para activar personajes: a {girl/boy} named {character} from {copyright} series.

Para la lista de palabras clave de personajes, consulta: selected_tags.csv · SmilingWolf/wd-v1-4-convnext-tagger-v2 at main (huggingface.co ). También pueden incluirse palabras clave adicionales no mencionadas en este documento.

Algunos personajes requieren pasos adicionales para activarse. Si no se puede restaurar completamente un personaje con una sola palabra clave, se deben añadir sus características principales al prompt.

AIDXL soporta cambio de ropa para personajes. Las palabras clave de personajes usualmente no incluyen la vestimenta del personaje. Para añadir ropa, debes incluir etiquetas de ropa en el prompt. Por ejemplo, silver evening gown, plunging neckline da el vestido del personaje St. Louis (Luxurious Wheels) del juego Azur Lane. De modo similar, puedes añadir etiquetas de ropa de cualquier personaje a otros.

2.3 Etiquetas de Calidad

Calidad y estética son etiquetas formalmente entrenadas. Incluirlas en los prompts influirá en la calidad de la imagen generada.

Desde la versión 0.7, AIDXL entrena e introduce oficialmente etiquetas de calidad. Estas se dividen en seis niveles, de mejor a peor: amazing quality, best quality, high quality, normal quality, low quality y worst quality.

Se recomienda añadir más peso a las etiquetas de calidad, por ejemplo (amazing quality:1.5).

2.4 Etiquetas Estéticas

Desde la versión 0.7 se introdujeron etiquetas estéticas para describir características visuales especiales de las imágenes.

2.5 Fusión de Estilos

Puedes fusionar algunos estilos en tu estilo personalizado. "Fusionar" significa usar varias palabras clave de estilo a la vez. Por ejemplo, chun-li, amazing quality, (by yoneyama mai:0.9), (by chi4:0.8), by ask, by modare, (by ikky:0.9).

Algunos consejos:

Controla el peso y orden de los estilos para ajustar el estilo final.
Añade las etiquetas al final y no al principio del prompt.

IV Estrategia y Parámetros de Entrenamiento

AIDXLv0.1

Utilizando SDXL1.0 como modelo base, con aproximadamente 22k imágenes etiquetadas, se entrenó durante unas 100 épocas con un programador coseno y una tasa de aprendizaje de 5e-6, con número de ciclos = 1, obteniendo el modelo A. Luego, usando una tasa de aprendizaje de 2e-7 bajo los mismos parámetros, se obtuvo el modelo B. El modelo AIDXLv0.1 se obtiene fusionando los modelos A y B.

AIDXLv0.51

Estrategia de Entrenamiento

Se reanuda el entrenamiento desde AIDXLv0.5, con tres fases de entrenamiento en secuencia:

Entrenamiento con captions largas: Utiliza todo el conjunto de datos, con algunas imágenes etiquetadas manualmente. Comienza entrenando el U-Net y el codificador de texto con el optimizador AdamW8bit, una tasa de aprendizaje alta (alrededor de 1.5e-6) y programador coseno. Detén el entrenamiento cuando la tasa de aprendizaje baje de cierto umbral (aprox. 5e-7).
Entrenamiento con captions cortas: Reinicia el entrenamiento desde el resultado del paso 1 con los mismos parámetros pero con un conjunto de datos con captions más cortas.
Paso de refinamiento: Prepara un subconjunto de alta calidad del dataset del paso 1. Reinicia desde el resultado del paso 2 con una tasa de aprendizaje baja (alrededor de 7.5e-7), usando el programador coseno con reinicios de 5 a 10 ciclos. Entrena hasta lograr un resultado estéticamente bueno.

Parámetros de Entrenamiento Fijos

Sin ruido extra como offset de ruido.
Min snr gamma = 5: acelera el entrenamiento.
Precisión completa bf16.
Optimizador AdamW8bit: equilibrio entre eficiencia y rendimiento.

Conjunto de Datos

Resolución: 1024x1024 con estrategia modificada de bucketing oficial de SDXL.
Captioning: Etiquetado por modelo WD14-Swinv2 con umbral 0.35.
Recorte de primeros planos: Corta imágenes en varios primeros planos, útil para imágenes grandes o escasas.
Palabras clave: Mantén la primera etiqueta de las imágenes como sus palabras clave.

AIDXLv0.6

Estrategia de Entrenamiento

Se reanuda desde AIDXLv0.52 con una estrategia adaptativa de repeticiones: para cada imagen etiquetada, incrementa el número de repeticiones en el entrenamiento sujeto a las siguientes reglas:

Regla 1: Mientras mayor calidad tenga la imagen, más repeticiones tendrá;
Regla 2: Si la imagen pertenece a una clase de estilo:
- Si la clase está sin ajustar o poco ajustada, incrementar manualmente las repeticiones de la clase, o aumentar automáticamente hasta que las repeticiones totales para esa clase alcancen alrededor de 100.
- Si la clase ya está ajustada o sobreajustada, reducir manualmente las repeticiones a 1 y eliminar si la calidad es baja.
Regla 3: Limitar el número final de repeticiones para que no supere un umbral, alrededor de 10.

Esta estrategia ofrece ventajas:

Protege la información original del modelo de nuevo entrenamiento, similar a una imagen regularizada;
Hace el impacto del conjunto de entrenamiento más controlable;
Equilibra el entrenamiento entre clases motivando las no ajustadas y previniendo sobreajuste en las ya ajustadas;
Reduce significativamente el uso de recursos computacionales y facilita añadir nuevos estilos al modelo.

Parámetros Fijos de Entrenamiento

Iguales a AIDXLv0.51.

Conjunto de Datos

Basado en AIDXLv0.51, se aplican optimizaciones:

Orden semántico en captions: Ordena las etiquetas de captions por orden semántico, por ejemplo "gun, 1boy, holding, short hair" -> "1boy, short hair, holding, gun".
Eliminación de duplicados en captions: Elimina etiquetas duplicadas, conserva la que retenga más información. Duplicados incluyen etiquetas similares como "long hair" y "very long hair".
Etiquetas adicionales: Añade manualmente etiquetas adicionales a todas las imágenes, por ejemplo "alta calidad", "impasto", etc. Esto puede hacerse rápidamente con herramientas.

V Agradecimientos especiales

Patrocinio de potencia computacional: Gracias a la comunidad @NieTa (捏Ta (nieta.art )) por proveer soporte de potencia computacional;

Soporte de datos: Gracias a @KirinTea_Aki (Perfil de Creadores KirinTea_Aki | Civitai) y a @Chenkin (Civitai | Comparte tus modelos) por proveer gran cantidad de datos;

No habría versión 0.7 sin ellos.

VI AIDXL vs AID

08/08/2023. AIDXL se entrena con el mismo conjunto que AIDv2.10, pero supera a AIDv2.10. AIDXL es más inteligente y puede hacer muchas cosas que los modelos basados en SD1.5 no pueden. También distingue muy bien conceptos, aprende detalles de imágenes, maneja composiciones difíciles o imposibles para SD1.5 y AID. En general, tiene potencial absoluto. Continuaré actualizando AIDXL.

VII Patrocinio

Si te gusta nuestro trabajo, puedes patrocinarnos vía Ko-fi(https://ko-fi.com/eugeai) para apoyar nuestra investigación y desarrollo. ¡Gracias por tu apoyo~

Introducción al Modelo (parte en chino)

I Índice

En esta introducción, aprenderás:

Introducción al modelo (ver Sección II);
Guía de uso (ver Sección III);
Parámetros de entrenamiento (ver Sección IV);
Lista de palabras clave (ver Apéndice A)

II Introducción al modelo

Anime Illust Diffusion XL, o AIDXL, es un modelo dedicado a generar ilustraciones de estilo anime. Cuenta con más de 800 estilos incorporados (en continuo aumento) activados por palabras clave específicas (ver Apéndice A).

Ventajas: composición audaz, sin sensación de pose rígida, sujeto destacado, sin detalles desordenados, reconoce muchos personajes de anime (activado por nombres en romanización japonesa, como "ayanami rei" para "绫波丽" o "kamado nezuko" para "祢豆子").

III Guía de uso (actualizable)

1 Uso básico

1.1 Escritura de prompts

Usa palabras clave: Utiliza las palabras clave del Apéndice A para estilizar las imágenes. Las adecuadas mejorarán en gran medida la calidad;
Etiqueta el prompt: Usa etiquetas para describir el objeto generado;
Ordena el prompt: ordenar tus prompts ayudará al modelo a entender mejor. Orden recomendado:
palabra clave (by xxx)->sujeto principal (1girl)->personaje (frieren)->raza (elf)->composición (cowboy shot)->estilo (impasto)->tema (fantasía)->ambiente principal (bosque, día)->fondo (fondo degradado)->acción (sentada)->expresión (sin expresión)->características principales (cabello blanco)->características corporales (coletas, ojos verdes, labios separados)->vestimenta (vestido blanco)->accesorios (volantes)->otros objetos (varita mágica)->ambiente secundario (césped, sol)->estética (color hermoso, detallado, estético)->calidad (best quality)
Prompts negativos: peor calidad, baja calidad, baja resolución, desordenado, abstracto, feo, deformado, mala anatomía, manos deformes, dedos fusionados, firma, texto, vistas múltiples

1.2 Parámetros de generación

Resolución: Asegúrate de que la resolución total (alto x ancho) esté cerca de 1024*1024 y que ancho y alto sean múltiplos de 32. Ejemplos: 832x1216 (3:2), 1216x832 (3:2), y 1024x1024 (1:1).
No usar Clip Skip, es decir, Clip Skip = 1.
Sampler y pasos: usar el sampler “euler_ancester”, llamado Euler A en webui, con 28 pasos en CFG Scale 7.
No utilizar refiner.
Usar VAE base o sdxl-vae.

2 Uso especial

2.1 Estilización generalizada

Versión 0.7 agrupa estilos similares e introduce palabras clave de estilo generalizado que representan categorías comunes de estilo de ilustración.

Estas palabras clave no necesariamente se corresponden con su significado artístico literal, sino que han sido redefinidas.

2.2 Personajes

Versión 0.7 mejora el entrenamiento para personajes. Algunas palabras clave logran efectos tipo lora y separan bien concepto y ropa.

Activación de personajes con nombre_personaje \(obra\). Ejemplo, para "Cyberpunk: Edgerunners" y heroína Lucy: lucy \(cyberpunk\); para "Genshin Impact" y Gan Yu: ganyu \(genshin impact\). Los nombres y obras se escapan con \ para evitar confusión con pesos.

Lista de palabras clave de personajes en selected_tags.csv · SmilingWolf/wd-v1-4-convnext-tagger-v2 at main (huggingface.co ).

Si un personaje no se puede reproducir completamente con una palabra, añade características principales en el prompt.

Las palabras de personajes no suelen incluir ropa. Para ropa, añade etiquetas específicas, como silver evening gown, plunging neckline para el vestido de St. Louis (Luxurious Wheels) en Azur Lane.

2.3 Etiquetas de calidad

En la versión 0.7, las etiquetas de calidad y estética son entrenadas formalmente y afectan la calidad al usarlas.

Seis niveles: amazing quality, best quality, high quality, normal quality, low quality y worst quality.

2.4 Etiquetas estéticas

Desde 0.7 se incluyen etiquetas para describir características estéticas especiales.

2.5 Fusión de estilos

Puedes mezclar varios estilos en uno personalizado usando múltiples palabras clave a la vez, como chun-li, amazing quality, (by yoneyama mai:0.9), (by chi4:0.8), by ask, by modare, (by ikky:0.9).

Consejos:

Controla pesos y orden para ajustar el estilo.
Añade al final del prompt, no al principio.

3 Precauciones

Usa modelos VAE, embeddings y Lora compatibles con SDXL. Nota: sd-vae-ft-mse-original no soporta SDXL; EasyNegative, badhandv4 y otros embeddings negativos tampoco.
Para versiones ≤ 0.61: al generar imágenes, se recomienda usar embeddings negativos dedicados al modelo (disponibles en recursos sugeridos), ya que benefician casi exclusivamente al modelo.
Las palabras clave nuevas en cada versión pueden tener efectos más débiles o inestables en dicha versión.

IV Parámetros de entrenamiento

Basado en SDXL1.0, con unas 20k imágenes etiquetadas propias, tasa de aprendizaje 5e-6 y un programador coseno con 1 ciclo, entrenado durante ~100 épocas para obtener modelo A. Luego, con tasa de aprendizaje 2e-7 y mismos parámetros, se obtuvo modelo B. Se fusionaron los modelos A y B para formar AIDXLv0.1.

Más parámetros en la versión en inglés.

V Agradecimientos especiales

Patrocinio computacional: gracias a la comunidad @捏Ta ( 捏Ta (nieta.art )) por su soporte;

Soporte de datos: gracias a @秋麒麟热茶 (Perfil KirinTea_Aki | Civitai) y @风吟 (Perfil Chenkin | Civitai) por proveer muchos datos;

Sin ellos no existiría la versión 0.7.

VI Registro de cambios

08/08/2023: AIDXL fue entrenado con el mismo set que AIDv2.10 pero lo supera. AIDXL es más inteligente y puede lograr cosas que SD1.5 no puede. Discierne conceptos, aprende detalles, maneja construcciones difíciles, y perfecciona estilos que AID viejo no podía. En resumen, tiene más potencial que SD1.5 y seguiré actualizándolo.

27/01/2024: La versión 0.7 añade mucho contenido, con un dataset más del doble que la anterior.

Para lograr anotaciones adecuadas, probé muchos algoritmos nuevos como ordenación de etiquetas, estratificación aleatoria de etiquetas y separación de características de personajes. Proyecto en: Eugeoter/sd-dataset-manager (github.com );
Para control y obediencia al entrenamiento, hice un script especial basado en Kohya-ss;
Para controlar la fusión de generaciones en diferentes modelos, desarrollé algoritmos heurísticos para fusionar modelos; para estilización suficiente descarté fusionar capas OUT de texto y UNET para mantener estabilidad y estética porque afecta estilo.
Para filtrar datos entrené modelos de detección de marcas de agua, clasificación de imágenes y puntuación estética que ayudan a limpiar el dataset.

VII Patrocínanos

Si te gusta nuestro trabajo, apóyanos con Ko-fi(https://ko-fi.com/eugeai) para apoyar nuestra investigación y desarrollo. ¡Gracias!

Apéndice / 附录

A. Lista de Palabras Clave Especiales / 特殊触发词列表

Palabras clave de estilo artístico: Haz clic aquí

Palabras clave de estilo de pintura: flat color, clean color, celluloid, flat-pasto, thin-pasto, pseudo-impasto, impasto, realistic, photorealistic, cel shading, 3d
- flat color: Colores planos, usando líneas para describir luces y sombras
  平涂：色 plano, usa líneas y bloques de color para describir luces y sombras
- clean color: Estilo entre flat color y flat-pasto. Colores simples y ordenados.
  色彩 limpia: Entre flat color y flat-pasto, coloreado simple y ordenado.
- celluloid: Coloreado de anime
  赛璐璐: coloreado en anime
- flat-pasto: Color casi plano, usando gradientes para luces y sombras
  Plano-pasto: color casi plano, usa gradientes para luces y sombras
- thin-pasto: Contorno fino, usando gradientes y grosor de pintura para luces, sombras y capas
  Pastel fino: contorno fino usando gradientes y grosor de pintura para luces, sombras y capas
- pseudo-impasto: Usa gradientes y grosor de pintura para luces, sombras y capas
  Pseu-impasto / semi-impasto: Usa gradientes y grosor de pintura para luces, sombras y capas
- impasto: Usa grosor de pintura para luces, sombras y gradaciones
  Impasto: Usa grosor de pintura para luces, sombras y gradaciones
- realistic
  Realista
- photorealistic: Redefinido como estilo más cercano al real
  Foto-realista: redefinido a estilo cercano al mundo real
- cel shading: Estilo de modelado 3D de anime
  Cel shading: estilo 3D de anime
- 3d
Palabras clave estéticas:
- beautiful
  Hermoso
- aesthetic: sentido artístico ligeramente abstracto
  Estético: sentido artístico ligeramente abstracto
- detailed
  Detalle
- beautiful color: uso sutil del color
  Color armonioso: uso sutil del color
- lowres
- messy: composición o detalles desordenados
  Desordenado: composición o detalles desordenados
Palabras clave de calidad: amazing quality, best quality, high quality, low quality, worst quality