modelos/Colossus Project Flux - v12_int4_SVDQ_nunchaku

Colossus Project Flux - v12_int4_SVDQ_nunchaku

Marta García

7/29/2025

1:38:42 PM

| Discussion|

Palabras Clave y Etiquetas Relacionadas

Camino empedrado flanqueado por edificios con techos tradicionales de tejas conduce a una puerta arqueada rocosa con niebla envolviendo una ladera boscosa más allá.

Una mujer con un vestido fluido está en un campo de flores al atardecer, rodeada de estelas de luz dorada giratorias y mariposas brillantes contra nubes dramáticas.

Una erupción volcánica crea una columna imponente bajo un vórtice verde giratorio brillante sobre un horizonte de ciudad iluminada con neón al atardecer, con enormes arcos de roca enmarcando el primer plano acuático.

Prompts Negativos Recomendados

blurry

Parámetros Recomendados

samplers

Euler, Heun, DPM++ 2M, DDIM, deis, simple

steps

16 - 30

cfg

1.5 - 3

resolution

1216x1632, 2000x2000, 2500x2500

Consejos

Usa la palabra de prompt negativo 'blurry' para mejorar la claridad de la imagen.

Para las versiones FP4/int4: FP4 es sólo para GPUs Nvidia 50xx, int4 funciona con 40xx y más abajo (mínimo GPU serie 20xx).

Usa el sampler Euler con scheduler Simple para V2.0 para mejores resultados.

Prueba 20-30 pasos con alrededor de 2.2 cfg para resultados estables de calidad.

Las versiones 'todo en uno' contienen Clip_L cocido, T5xxl fp8 y VAE para uso más sencillo.

La cuantificación SVDQ reduce el tamaño del modelo y acelera la generación con mínima pérdida de calidad.

Aspectos Destacados de la Versión

¡ATENCIÓN! Hay dos versiones FP4 e int4. Esta versión int4 funciona con 40xx y más abajo. ¡NO con tarjetas 50xx!

Gracias a Muyang Li de Nunchakutech quien hizo la cuantificación de V12. https://huggingface.co/nunchaku-tech y su increíble nunchaku!

Esta versión es realmente impresionante. Combina calidad con una velocidad nunca vista antes.

También puedes descargar ambas versiones directamente aquí: https://huggingface.co/nunchaku-tech/nunchaku-flux.1-dev-colossus

GUÍA DE INSTALACIÓN y FLUJO DE TRABAJO

Aquí hay una guía rápida de instalación y un flujo de trabajo en progreso.

https://civitai.com/articles/17313

Sigo trabajando en mis nuevos flujos de trabajo para Nunchaku.. así que el siguiente flujo aún está muy en progreso. Añadiré un artículo detallado el fin de semana.

Patrocinadores del Creador

Si quieres apoyar al creador de los modelos FLUX, puedes donar aquí: https://ko-fi.com/afroman4peace

Revisa las versiones FP4/int4 convertidas por Muyang Li de Nunchakutech: https://huggingface.co/nunchaku-tech

Visita las guías detalladas de flujo de trabajo y ayuda de instalación en CivitAI: https://civitai.com/articles/17313, https://civitai.com/articles/17358

Profundamente bajo una montaña vive un gigante dormido, capaz de ayudar a la humanidad o crear destrucción...

Un Coloso se levanta...

Después de mi serie SDXL es tiempo para la serie FLUX de este Proyecto... Esta vez entrené esto desde cero. Para el entrenamiento usé mis propias imágenes. Las creé con mi modelo schnell Flux DemonFlux/Colossus Project schnell + mi SDXL Colossus Project 12 como refinador.

Este flux-punto de control SD es capaz de producir casi todo... Colossus es muy bueno creando imágenes extremadamente realistas, anime y arte.

Si te gusta, no dudes en darme tu opinión. También si quieres apoyarme puedes hacerlo aquí. He gastado una buena cantidad de dinero para construir una computadora capaz de entrenar modelos Flux.. Además, entrenar y probar consume mucho tiempo y electricidad..

https://ko-fi.com/afroman4peace

Versión V12 "Hephaistos"

Publicar este punto de control me hace feliz y triste a la vez.. V12 será el último checkpoint de esta serie.. La razón principal son las próximas leyes de IA de la UE... Otra razón es la licencia de Flux .1 DEV en sí misma. ¡Gracias a todos por el apoyo! He dedicado mucho tiempo a este proyecto durante el último año. Ahora es tiempo de avanzar a otro proyecto.

De todas formas.. terminaré esta serie con un gran punto...

V12 está construido sobre V10B "BOB" pero básicamente tiene las mejores partes de esta serie fusionadas en un solo checkpoint. (Fue el resultado de un nuevo método de fusión que tomó alrededor de 1:30 h y agotó toda mi RAM de 128GB). También mejoré las texturas de rostro y piel en comparación con V10. Los ojos son mucho más realistas y "vivos" que antes.

Pruébalo tú mismo y dame tu opinión sobre V12. "Gracias" a mi lenta conexión a internet primero subiré el FP8_UNET. Luego la versión FP8 "todo en uno" y después el FP16_unet y FP16_BEHEMOTH. También intentaré convertirlo a int4 y fp4 (deseadme suerte con eso)

Como siempre, déjame tu feedback sobre V12..

Versión V12 "Behemoth" (AIO)

Este modelo "todo en uno" es lo mejor de mi serie V12.. bueno y el más grande en tamaño por supuesto :-)

El Behemoth tiene un T5xxl personalizado y clip_l integrados dentro del modelo. Si prefieres calidad sobre cantidad este es tu checkpoint!

Versión V12 FP4/int4

Gracias a Muyang Li de Nunchakutech quien hizo la cuantificación de V12. https://huggingface.co/nunchaku-tech y su increíble nunchaku!

Esta versión es realmente impresionante. Combina calidad con una velocidad nunca vista antes.

¡ATENCIÓN!

Hay dos versiones FP4 e int4. FP4 es sólo para tarjetas gráficas Nvidia 50xx. Mientras que int4 funciona con 40xx y más abajo. (necesitas al menos una tarjeta gráfica serie 20xx)

También puedes descargar ambas versiones directamente aquí: https://huggingface.co/nunchaku-tech/nunchaku-flux.1-dev-colossus

GUÍA DE INSTALACIÓN y FLUJO DE TRABAJO

Aquí hay una guía rápida de instalación y un flujo de trabajo en progreso.

https://civitai.com/articles/17313

Sigo trabajando en mis nuevos flujos de trabajo para Nunchaku.. así que el siguiente flujo aún está muy en progreso. Añadiré un artículo detallado el fin de semana.

Versión V12 FP16_B_variant

Gracias a un pequeño error que cometí tarde en la noche (2AM) renombré y subí el checkpoint "equivocado". Es un checkpoint muy experimental nunca pensado para ser publicado. No está muy probado pero tuvo muy buen desempeño cuando creé el showcase. Puede ser mejor que la versión estándar.

Tiende a inclinarse más hacia rostros asiáticos.. Eso es porque quería probar algo para mezclar en un proyecto secundario en el que aún trabajo. Cuéntame tu experiencia con este checkpoint :-)

Versión V12 AIO FP8

Esta versión es una versión todo en uno de V12. Esto significa que todos los clips están integrados dentro. Dará la misma salida que el FP8_unet con mi clip_l personalizado

Versión V12 GGUF Q5_1

Esta versión fue una petición. No es mala en calidad..

Versión V10B "BOB"

Esta es una versión alternativa de V10. La creé para mejorar la versión FP8 de V10. En general la versión FP8 es más precisa y los colores son mejores. Lamentablemente no he tenido mucho tiempo últimamente.. (la vida real es prioridad). Por eso tomó tanto tiempo.. Avísame si prefieres esta versión. También tengo una versión FP16 de "BOB". Según el feedback consideraré publicar una versión int4.

FLUJO DE TRABAJO:

Aquí está el flujo de trabajo para V12 y V10: https://civitai.com/articles/17163

Versión V10_int4_SVDQ "Nunchaku"

Primero quiero agradecer a theunlikely https://huggingface.co/theunlikely quien convirtió el FP16_Unet a int4_SVDQ. Visita su página y déjale un like.

Esta versión es más o menos igual que la versión FP8. Incluso en modo normal dentro de mi flujo de trabajo, esta cosa es 2X-3X más rápida que el modelo regular.. Con el "modo rápido" del flujo puedo renderizar una imagen de 2MP en alrededor de 19 segundos con mi 3090ti.

¿Qué es SVDQ "Nunchaku"?

Este nuevo método de cuantificación permite reducir los modelos Flux (en este caso un modelo nativo FP16) de 24GB a unos 6.7GB. Pero no es todo: puedes generar imágenes más rápido que nunca sin perder mucha calidad. Claro que verás una pequeña diferencia con mi Behemoth 32GB, pero para ese necesitarás mucho más VRAM/RAM para siquiera ejecutarlo.

Para más información visita: https://github.com/mit-han-lab/ComfyUI-nunchaku?tab=readme-ov-file

Instalación: Por favor visita mi guía de instalación/flujo de trabajo: https://civitai.com/articles/15610

Versión V10 "Behemoth" (FP16_AIO)

Esta versión aún es experimental. El enfoque principal fue obtener resultados más realistas. También logré reducir algunas "Líneas Flux". Esto está basado en Colossus Project V5.0_Behemoth, V9.0 y otro proyecto que llamo "Ouroborus Project"

La versión FP16 es muy estable. También pronto publicaré la versión FP8. Ésta también es muy buena pero no tan estable..

Te dejo experimentar con ella.. Cuéntame qué piensas de esta versión.

Diviértete creando :-)

Versión V9.0:

Bueno, tengo que explicar mucho.. Primero, ¿por qué es incluso V9.0?

Me mudé recientemente a un nuevo departamento y por errores del proveedor de internet no tuve una conexión real.. Así que mientras hacía la mudanza dejé mi computadora encendida. Como resultado creé muchos checkpoints (la mayoría dañados). Aún tengo buenas versiones V8 que podría publicar también..

¿Qué cambió?

Entrené nuevos rostros y texturas de piel en el modelo tomando básicamente los mejores resultados de V5.0. También el modelo recibió entrenamiento de pies/piernas para mejor anatomía. Las versiones V5.0 a veces recortaban cabeza y pies.. Creo que logré arreglar algunos de esos problemas..

Además entrené con más de mis propias imágenes de paisaje.. Y sí, hice todo eso mientras me mudaba... Creo que el tiempo total de entrenamiento fue cerca de 2 semanas de computación, lo cual no es barato.. (cada hora me cuesta alrededor de 25 centavos en electricidad)

De todas formas espero que te guste esta versión.. Si quieres apoyarme: Publica algunas imágenes bonitas o incluso una propina en buzz o en Ko-fi..

Dime qué piensas :-)

Versión 5.0:

V5.0 está basado en V4.2 y V4.4 (que también será publicada pronto). Tiene entrenamiento adicional en detalles de piel y anatomía general que mayormente corrigió cosas como manos y pezones. Los detalles faciales son mejores. También intenté arreglar algunas líneas flux menores..

En general esta versión es más realista que V4.2 y mejor en detalles pequeños.. Como la versión 4.2 este modelo también es un modelo híbrido de de-destilado. Puedes usarlo básicamente con las mismas configuraciones que V4.2.

Aquí también hay un nuevo flujo de trabajo para probar: https://civitai.com/articles/11950/workflow-for-colossus-project-flux-50

Dime qué piensas de esta versión comparada con la 4.2 o V2.1..

Versión 4.4 "Research":

He añadido esta versión sólo para completitud.. Es un poco más realista que V4.2 y la base de la versión 5.0. Puedes probarla si quieres. También puedes usar el flujo de trabajo para V5.0 y V4.2..

Versión 4.2:

Esta versión es básicamente un desarrollo adicional de Demoncore Flux y Colossus Project Flux. El objetivo era obtener un resultado más estable con mejores texturas de piel, mejores manos y más variedad de rostros. Entonces entrené un modelo híbrido que es parcialmente Demoncore Flux. También mejoré un poco los pezones y NSFW. Dime si prefieres V4.2 sobre la versión 2.1 :-)

Para las imágenes de la muestra: usé sólo imágenes nativas con resolución SDXL o 2MP (por ejemplo 1216x1632). Este modelo puede manejar resoluciones incluso mayores.. He probado este checkpoint hasta 2500x2500 pero sólo recomiendo ir alrededor de 2000x2000.

Para la configuración recomiendo usar unos 30 pasos y 2-2.5 cfg. Mayormente uso 2.2 o 2.3 en mi flujo de trabajo. Para la muestra usé DPM++ 2M con Simple scheduler.

Agregaré más versiones pronto pero antes de Navidad no tendré mucho tiempo..

Configuraciones

Pronto añadiré un flujo de trabajo dedicado nuevo para Comfy. Por ahora puedes descargar y abrir las imágenes de muestra..

La versión "todo en uno" también funciona bien con Forge..

Básicamente funciona con la misma configuración que la Versión 2.1 (ver abajo)

Usa 20-30 pasos con alrededor de 2.2 cfg..

Versión 2.1_de-distilled_experimental (MERGE)

Esta versión es completamente diferente y funciona de manera distinta a un modelo Flux normal!

Es una fusión experimental entre mi versión 2.0 y una versión de de-destilado https://huggingface.co/nyanko7/flux-dev-de-distill. Esto ocurrió un poco por accidente pero los resultados son impresionantes. Obtendrás detalles impresionantes. También sigue los prompts extremandamente bien... Así que lo próximo será entrenar directamente en el modelo de de-destilado. Ya hice algunos tests de Loras con él. Esto es altamente experimental así que por favor déjame saber si encuentras errores no listados abajo. Si tienes buenas imágenes publícalas.. publica también las malas, esto puede ayudar a mejorar :-). Podría probar también la versión 2.0 y dime qué tipo de checkpoint te conviene más.

¡Atención!

El flujo Flux normal no funciona con esta versión. ¡NECESITAS descargar mi flujo de trabajo para ella!

También puedes intentar algo por tu cuenta pero por favor no me culpes por imágenes malas. Este modelo es muy experimental... revisa los inconvenientes abajo..

Ventajas y desventajas de este checkpoint:

Este checkpoint puede crear detalles extremos.. Esto tendrá un costo.. Es lento comparado con los checkpoints Flux normales. La ventaja es que a menudo no necesitarás una ampliación adicional. En vez de usar Flux Guidance, este modelo usa la escala cfg. Lo que también significa que no funcionará con flujos de trabajo estándar.
¡Puedes usar prompts negativos! Esto ayuda a eliminar elementos no deseados de la imagen.
Ocasionalmente pueden aparecer artefactos.. Puedes solucionarlo con una pequeña ampliación sencilla (estoy trabajando en esto). Aquí un ejemplo.. esto pasa raramente con algunas semillas.. ACTUALIZACIÓN: Esto no es un problema del modelo.. es más bien del flujo de trabajo.. Estoy trabajando en una solución. Si pasa puedes probar poner la primera ampliación en 1.14 en vez de 1.2.

Configuraciones y flujo de trabajo V2.1:

Aquí está el flujo de trabajo: https://civitai.com/articles/8419

Configuraciones: a diferencia del Flux normal no necesita Flux Guidance scale. Usa la cfg en su lugar. Mayormente uso 3 cfg para el flujo. Algunas imágenes pueden requerir escalas cfg más bajas.

Lo más importante puede ser apagar flux guidance scale..

Sin el flujo de trabajo he probado con 30 pasos y 2-3 cfg. Estas pueden ser también las configuraciones para Forge. Prueba y experimente aquí.

Recomiendo usar la palabra "blurry" en los negativos

Sampler y scheduler:

Puedes elegir entre varios samplers que funcionan:

Euler, Heun, DPM++2m, deis, DDIM funcionan muy bien.

Mayormente usé "simple" como scheduler

Si encuentras mejores configuraciones, dime.. :-)

Para Forge recomiendo usar el modelo AIO.. aquí un ejemplo de configuración para Forge

Versión 2.0_dev_experimental

Bueno.. esta es una versión experimental.. El objetivo era crear un modelo más coherente y rápido. Entrené algunos loras propios adicionales y luego fusioné los modelos resultantes de una forma especial (fusión tensorial). Tiene un T5xxl personalizado que modifiqué con "Attention Seeker". Para ganar velocidad y calidad adicional fusioné el lora Hyper Flux de ByteDance. Esto significa que cambió el área de trabajo.. Te muestro lo que significa.. Aquí la imagen principal..

16 pasos V 2.0

30 pasos V 1.0

Desventajas:

Primero.. esta versión es un poco más grande que la anterior.. segundo, aún tengo que crear la versión sólo Unet. La actualizaré cuando esté lista..

Configuraciones y flujo de trabajo V2.0:

Ahora puedes ejecutar el modelo con menos pasos.. 16 pasos equivalen a 30 pasos del modelo anterior.

Aún recomiendo usar entre 20-30 pasos porque te dará más calidad en la mayoría de casos.

Sampler: prefiero Euler con Simple como scheduler. La guía puede configurarse de 1.5 a 3 (por supuesto prueba fuera de este rango si quieres). La guía de 1.8 funciona bien para imágenes realistas. También puedes probar otros samplers. DPM++2M y Heun funcionan muy bien.

Flujo de trabajo 2.0:

Creé un nuevo flujo para V2.0 y V1.0. Tiene el nuevo Generador de Prompts Flux. Además tengo funcionando la segunda etapa de ampliación. https://civitai.com/articles/7946

Forge:

También he probado este modelo con Forge y funcionó muy bien.. Aunque la imagen puede variar entre Comfy UI y Forge..

Versión 1.0_dev_beta:

Este modelo es mi primera entrega de la serie. Por favor déjame feedback y publica imágenes. Esto ayuda a mejorar el proyecto. Hay varias versiones para elegir. El mejor modelo en calidad es la versión FP16 Aunque la versión FP16 es grande y necesita una tarjeta gráfica potente y mucha RAM. La versión FP8 la considero buena solución para equilibrar calidad y rendimiento. Si quieres obtener una versión GGUF descarga la Q8_0. La versión GGUF Q4_0/4.1 fue pedida. Son pequeñas pero pierdes un poco de calidad.

Básicamente hay dos tipos de mis modelos: los "todo en uno" que sólo requieren descargar un archivo. Incluyen Clip_l, T5xxl fp8 y el VAE integrados. (ver abajo). Coloca esto en tu carpeta checkpoints.

Las otras versiones son sólo UNET. Aquí tienes que cargar todos los archivos por separado.

De todas formas necesitas descargar mi Clip_L para que funcionen bien..

También es importante elegir el T5xxl clip correcto. Para la versión FP8 es el fp8_e4m3fn t5xxl clip. Para FP16 es el FP16 clip. Asegúrate de seleccionar el tipo de peso por defecto. (abajo hay una imagen de ejemplo para la versión fp8)

Para la versión GGUF necesitas el cargador GGUF!

Algunas cosas conocidas por ahora respecto a V1.0:

Es sólo el primer modelo de la serie, así que por el momento puede tener problemas con algunos prompts o estilos como el arte. La próxima versión recibirá más entrenamiento. Dime qué cosas no puede hacer el modelo..

Configuraciones y flujo de trabajo:

Lo probé con unos 30 pasos, Euler con Simple scheduler. La guía puede configurarse entre 1.5-3 (pruébalo fuera de este rango si quieres)

La guía de 1.8 funciona bien para imágenes realistas.

Siéntete libre de experimentar con esas configuraciones.. Si obtienes buenos resultados por favor publícalos.

He añadido imágenes de muestra como datos de entrenamiento.. Dentro está el flujo para Comfy. Aquí el flujo para descargar: https://civitai.com/articles/7946