modelos/Colossus Project Flux - V12 "Hephaistos" FP8_UNET

Colossus Project Flux - V12 "Hephaistos" FP8_UNET

Marta García

8/7/2025

1:16:46 AM

| Discussion|

Palabras Clave y Etiquetas Relacionadas

Un pino fotorrealista cubierto de musgo con ojos azules vibrantes y brillantes, rodeado de niebla y bosque denso bajo un cielo nublado.

Una mujer vestida con una túnica blanca sostiene una espada de metal negro con marcas rojas hacia la cámara sobre un fondo pálido, bajo una iluminación cinematográfica dramática.

Dos manos ilustradas con patrones geométricos intrincados en tonos dorados sobre un fondo floral rojo con flores estilizadas.

Racimo de flores blancas y amarillas con centros dorados rodeadas de hojas verdes exuberantes y capullos rojos vibrantes en un bosque verde iluminado por el sol.

Paredes blancas minimalistas formando un pasillo estrecho que se abre a un cielo estrellado vívido con un horizonte de atardecer en degradado, capturado en un estilo fotorrealista cinematográfico de gran angular.

Un paraguas blanco alto con una cascada de flores rosas y crema debajo, iluminado por una cálida iluminación cinematográfica en medio de la lluvia y un fondo oscuro.

Flor brillante y colorida con pétalos y hojas compuestos por patrones de mosaico geométrico sobre un fondo negro estrellado.

Prompts Negativos Recomendados

blurry

Parámetros Recomendados

samplers

Euler, Heun, DPM++ 2M, DEIS, DDIM, Simple scheduler

steps

20 - 30

cfg

1.5 - 3

resolution

1216x1632, 2000x2000, 2500x2500

vae

Custom VAE baked in 'All in one' versions - not specified

Consejos

Usa entre 20-30 pasos con CFG 2.2 para resultados de calidad.

Los samplers preferidos incluyen Euler con scheduler Simple; también funcionan bien DPM++ 2M y Heun.

Agrega prompt negativo 'blurry' para reducir artefactos no deseados.

Para el modelo experimental v2.1, apaga Flux guidance scale y usa CFG scale.

La versión FP4 es solo para Nvidia serie 50xx; la int4 funciona con GPUs 40xx y anteriores.

Descarga los clips Clip_L necesarios para que funcionen las versiones solo UNET.

Prueba diferentes samplers y configuraciones CFG dentro de los rangos recomendados para resultados variados.

Aspectos Destacados de la Versión

FLUJO DE TRABAJO: https://civitai.com/articles/17163

Versión FP8_unet de V12: usa este clip_l:

https://civitai.com/models/833086?modelVersionId=1985466

También usa t5xxl_fp8_e4m3fn con este unet.

Versión V12 "Hephaistos"

Publicar este checkpoint me hace feliz y triste al mismo tiempo... V12 será el último checkpoint de esta serie... La razón principal son las próximas leyes de IA de la UE... Otra razón es la licencia que tiene Flux .1 DEV. ¡Gracias a todos por el apoyo!

De todas formas... terminaré esta serie en lo más alto...

V12 está basado en V10B "BOB" pero básicamente tiene las mejores partes de esta serie fusionadas en este checkpoint. (Fue resultado de un nuevo método de fusión que tomó aprox. 1:30h y usó toda mi RAM de 128GB). También mejoré texturas de rostro y piel en comparación con V10. Los ojos son mucho más realistas y "vivos" que antes.

Pruébalo tú mismo y dame feedback sobre V12. "Gracias" a mi conexión lenta subiré primero FP8_UNET. Luego la versión FP8 "todo en uno" y después FP16_unet y FP16_BEHEMOTH. También intentaré convertirlo a int4 y fp4 (deseadme suerte con eso)

Como siempre, déjame tu opinión sobre V12..

Patrocinadores del Creador

Si te gusta este modelo, apoya al creador en Ko-fi.

Consulta las guías de instalación y flujos de trabajo para una configuración más sencilla:

Flujos de trabajo adicionales e imágenes de muestra disponibles aquí.

Muy profundo bajo una montaña vive un gigante dormido, capaz de ayudar a la humanidad o crear destrucción...

Un Coloso surge...

Después de mi serie SDXL es tiempo para la serie FLUX de este Proyecto... Esta vez entrené esto desde cero. Para el entrenamiento usé mis propias imágenes. Las he creado con mi rápido modelo Flux DemonFlux/Colossus Project schnell + mi SDXL Colossus Project 12 como refinador.

Este SD Flux-Checkpoint es capaz de producir casi todo... Colossus es muy bueno creando imágenes extremadamente realistas, de anime y artísticas.

Si te gusta, siéntete libre de darme tu opinión. También si quieres apoyarme puedes hacerlo aquí. He gastado algo de dinero para montar un computador capaz de entrenar modelos Flux.. Además el entrenamiento y pruebas consumen mucho tiempo y electricidad..

https://ko-fi.com/afroman4peace

Versión V12 "Hephaistos"

Publicar este punto de control me hace sentir feliz y triste al mismo tiempo... V12 será el último checkpoint de esta serie... La razón principal son las próximas leyes de IA de la UE... Otra razón es la licencia del propio Flux .1 DEV. ¡Gracias a todos por el apoyo! He dedicado mucho tiempo a este proyecto durante el último año. Ahora es momento de avanzar a otro proyecto.

De todas formas... terminaré esta serie en lo más alto...

Pruébalo tú mismo y dame feedback sobre V12. "Gracias" a mi internet lento primero subiré el FP8_UNET. Luego la versión FP8 "todo en uno" y después FP16_unet y FP16_BEHEMOTH. También intentaré convertirlo a int4 y fp4 (deseadme suerte con eso)

Como siempre, déjame tu opinión sobre V12..

Versión V12 "Behemoth" (AIO)

Este modelo "todo en uno" es lo mejor de mi serie V12... bueno y el más grande en tamaño por supuesto :-)

El Behemoth tiene un T5xxl personalizado y Clip_l incorporados en el modelo. Si prefieres calidad sobre cantidad este es tu checkpoint!

Versión V12 FP4/int4

Gracias a Muyang Li de Nunchakutech por la cuantificación de V12. https://huggingface.co/nunchaku-tech y sus increíbles nunchaku!

Esta versión es realmente impresionante. Combina calidad con una rapidez nunca vista.

¡ATENCIÓN!

Hay dos versiones: FP4 e int4. FP4 es solo para gráficas Nvidia serie 50xx. Mientras que int4 funciona con 40xx y anteriores. (necesitas al menos una tarjeta gráfica serie 20xx)

También puedes descargar ambas versiones directamente aquí: https://huggingface.co/nunchaku-tech/nunchaku-flux.1-dev-colossus

GUÍA DE INSTALACIÓN y FLUJO DE TRABAJO

Aquí tienes una guía rápida de instalación y un flujo de trabajo en desarrollo.

https://civitai.com/articles/17313

GUÍA DETALLADA para el flujo de trabajo

https://civitai.com/articles/17358

Sigo trabajando en mis nuevos flujos de trabajo para Nunchaku... así que el siguiente flujo aún está en desarrollo (WIP). Agregaré un artículo detallado el fin de semana.

Versión V12 FP16_B_variant

Gracias a un pequeño error que cometí tarde en la noche (2AM) renombré y subí el checkpoint "equivocado". Es un checkpoint muy experimental, nunca pensado para publicación. No está muy testeado pero funcionó muy bien para la demostración. Podría ser mejor que la versión estándar.

Tiende a enfocarse más en rostros asiáticos... Esto es porque quería probar algo para mezclar en un proyecto paralelo en el que sigo trabajando. Cuéntame tu experiencia con este checkpoint :-)

Versión V12 AIO FP8

Esta versión es una versión todo en uno de V12. Esto significa que todos los clips están incorporados. Generará la misma salida que FP8_unet con mi clip_l personalizado.

Versión V12 GGUF Q5_1

Esta versión fue por petición. No es mala en calidad..

Versión V10B "BOB"

Esta es una versión alternativa de V10. La creé para mejorar la versión FP8 de V10. En general la FP8 es más precisa y los colores son mejores. Lamentablemente no he tenido mucho tiempo últimamente... (RL es prioridad). Por eso tardó tanto... Dime si prefieres esta versión. También tengo una versión FP16 de "BOB". Según feedback consideraré publicar una versión int4.

FLUJO DE TRABAJO:

Aquí está el flujo para V12 y V10: https://civitai.com/articles/17163

Versión V10_int4_SVDQ "Nunchaku"

Primero quiero dar las gracias a theunlikely https://huggingface.co/theunlikely quien convirtió el FP16_Unet a int4_SVDQ. Visita su página y deja un like.

Esta versión es más o menos igual a la FP8. Incluso en modo normal dentro de mi flujo es aproximadamente 2X-3X más rápida que el modelo regular.. Con el "modo rápido" del flujo puedo renderizar una imagen de 2MP en unos 19 segundos con mi 3090ti.

¿Qué es SVDQ "Nunchaku"?

Este nuevo método de cuantificación permite reducir modelos Flux (en este caso un modelo nativo FP16) de 24GB a unos 6.7GB. Pero eso no es todo: puedes generar imágenes más rápido que nunca sin perder mucha calidad. Claro que verás una pequeña diferencia con mi 32GB_Behemoth pero para ese necesitarás mucho más VRAM/RAM para siquiera ejecutarlo.

Para más información visita: https://github.com/mit-han-lab/ComfyUI-nunchaku?tab=readme-ov-file

Instalación: Por favor visita mi guía de flujo de trabajo/instalación: https://civitai.com/articles/15610

Versión V10 "Behemoth" (FP16_AIO)

Esta versión aún es experimental. El enfoque principal fue obtener resultados más realistas. También logré reducir algunas "líneas Flux". Esto está basado en Colossus Project V5.0_Behemoth, V9.0 y otro proyecto llamado "Ouroborus Project"

La versión FP16 es muy estable. También estoy por lanzar una versión FP8 pronto. Esta también es buena pero no tan estable..

Te dejo experimentarla... Cuéntame qué opinas de esta versión.

Disfruta creando :-)

Versión V9.0:

Bueno, tengo mucho que explicar... Primero, ¿por qué es V9.0?

Recientemente me mudé a un departamento nuevo y debido a errores del proveedor de internet no tuve conexión real... Así que mientras hacía la mudanza, dejé mi computadora encendida. El resultado fue que creé muchos puntos de control (la mayoría rotos). Tengo buenas versiones V8 que quizás publique...

¿Qué cambió?

Entrené nuevas texturas de rostros y piel tomando básicamente los mejores resultados de V5.0. También entrené para pies/piernas con mejor anatomía. Las versiones V5.0 a veces cortaban cabeza y pies... Creo que solucioné algunos problemas.

Además entrené con más imágenes propias de paisajes... Y sí, hicé todo esto mientras me mudaba... El tiempo total de entrenamiento fue unas 2 semanas de cómputo, que no es barato (cada hora cuesta unos 25 céntimos en electricidad).

Espero que te guste esta versión. Si quieres apoyarme: publica buenas imágenes o dona mediante buzz o Ko-fi.

Dime qué te parece :-)

Versión 5.0:

V5.0 está basada en V4.2 y V4.4 (pronto disponibles). Tiene entrenamiento adicional en detalles de piel y anatomía en general, arreglando detalles como manos y pezones. Los detalles del rostro mejoran notablemente. También intenté corregir algunas líneas flux menores.

En general esta versión es más realista que V4.2 y mejora detalles pequeños... Como la versión 4.2, esta también es un modelo híbrido de de-distilled. Puedes usarlo con las mismas configuraciones que V4.2.

También hay un nuevo flujo de trabajo para probar: https://civitai.com/articles/11950/workflow-for-colossus-project-flux-50

Dime qué piensas de esta versión comparada con 4.2 o V2.1..

Versión 4.4 "Research":

Agregué esta versión solo por completitud... Es ligeramente más realista que V4.2 y base para 5.0. Puedes probarla si quieres. También puedes usar el flujo de trabajo de V5.0 y V4.2..

Versión 4.2:

Esta versión es básicamente una evolución de Demoncore Flux y Colossus Project Flux. El objetivo fue lograr un resultado más estable con mejores texturas de piel, manos y mayor variedad de rostros. Fue entrenada sobre un modelo híbrido en parte Demoncore Flux. Mejoré pezones y contenido NSFW un poco. Dime si prefieres V4.2 sobre la 2.1 :-)

Para las imágenes de muestra: solo usé imágenes nativas con resolución SDXL o 2MP (ej. 1216x1632). Este modelo puede manejar resoluciones aún mayores... Probé hasta 2500x2500 pero recomiendo unos 2000x2000.

Para configuraciones recomiendo alrededor de 30 pasos y 2-2.5 cfg. Uso 2.2 o 2.3 en mi flujo de trabajo. Para la demostración usé DPM++ 2M con Simple scheduler.

Pronto agregaré más versiones, pero no tengo mucho tiempo antes de Navidad...

Configuraciones

Pronto añadiré un workflow dedicado Comfy más nuevo. Por ahora puedes descargar y abrir las imágenes de muestra..

La versión "All in One" también funciona bien con Forge...

Básicamente funciona con las mismas configuraciones que la Versión 2.1 (ver abajo)

Úsalo con 20-30 pasos y alrededor de 2.2 cfg..

Versión 2.1_de-distilled_experimental (MERGE)

Esta versión es completamente diferente y funciona distinto a un modelo Flux normal!

Es una fusión experimental entre mi versión 2.0 y una versión de-distilled https://huggingface.co/nyanko7/flux-dev-de-distill. Fue un accidente pero los resultados son impresionantes. Obtendrás detalles asombrosos y sigue los prompts extremadamente bien... Lo que haré después es entrenar directamente con el modelo de-distilled. Ya hice algunos test Loras con él. Esto es muy experimental, así que infórmame si encuentras errores no listados abajo. Si tienes buenas imágenes, publícalas... también las malas, esto ayuda a mejorar :-) También probaré la versión 2.0 y dime qué tipo de checkpoint prefieres.

¡Atención!

El flujo Flux normal no funciona con esta versión. ¡NECESITAS descargar mi flujo para usarla!

También puedes encontrar tu propia forma pero no me culpes por imágenes malas. Además es un modelo muy experimental... lee las desventajas abajo.

Ventajas y desventajas de este checkpoint:

Este checkpoint puede crear detalles extremos... tiene un costo: es lento comparado con Flux normal. La ventaja es que a menudo ya no necesitas hacer upscaling adicional. En lugar de usar Flux Guidance, este modelo usa escala cfg. Por eso no funciona con workflows estándar.
¡Puedes usar prompts negativos! Esto ayuda a eliminar cosas no deseadas de la imagen.
A veces aparecen artefactos... Puedes resolverlo con un pequeño y simple upscaling (estoy trabajando en esto). Aquí hay un ejemplo... esto raramente sucede con cada seed... ACTUALIZACIÓN: No es un problema del modelo, sino del flujo. Estoy trabajando en la solución. Si pasa, prueba poner el primer upscaling en 1.14 en vez de 1.2.

Configuraciones y flujo V2.1:

Aquí está el flujo para ello: https://civitai.com/articles/8419

Configuraciones: a diferencia del flujo Flux normal, no necesita Flux Guidance scale. Usa la escala cfg en su lugar. Uso 3 cfg en el flujo... Algunas imágenes podrían necesitar cfg más bajo.

Lo más importante es apagar Flux Guidance scale...

Sin el flujo lo probé con 30 pasos y 2-3cfg. Esto podría ser lo que funciona para Forge. Prueba experimentando.

Recomiendo usar la palabra "blurry" en negativos

Sampler y scheduler:

Puedes elegir entre varios samplers que funcionan:

Euler, Heun, DPM++2m, DEIS, DDIM funcionan muy bien.

Principalmente usé "simple" como scheduler

Si encuentras mejores configuraciones dímelo.. :-)

Para Forge recomiendo usar el modelo AIO.. aquí un ejemplo:

Versión 2.0_dev_experimental

Bueno... esta es una versión experimental... El objetivo era crear un modelo más coherente y rápido. Entrené algunos loras propios adicionales y luego fusioné los modelos resultantes de forma especial (Tensor merge). Tiene un T5xxl personalizado modificado con "Attention Seeker". Para ganar velocidad y calidad añadí Hyper Flux lora de ByteDance. Esto desplazó el área de trabajo... Aquí la imagen principal de título...

16 pasos V 2.0

30 pasos V 1.0

Desventajas:

Primero... esta versión es un poco más grande que la anterior.. segundo debo crear la versión solo Unet. Actualizaré cuando esté lista..

Configuraciones y flujo V2.0:

Puedes usar el modelo ahora con menos pasos... 16 pasos equivalen a 30 del modelo viejo.

Sigo recomendando unos 20-30 pasos para mejor calidad.

Sampler: prefiero Euler con Simple como scheduler. El guidance se puede poner de 1.5 a 3 (prueba fuera de ese rango si quieres). Un guidance de 1.8 va bien para imágenes realistas. También prueba otros samplers. DPM++2M y Heun funcionan bien.

Flujo 2.0:

Creé un nuevo flujo para V2.0 y V1.0. Tiene nuevo Flux Prompt Generator. También tengo funcionando segunda etapa de upscaler. https://civitai.com/articles/7946

Forge:

Probé este modelo con Forge y funcionó muy bien... Las imágenes pueden diferir entre Comfy UI y Forge...

Versión 1.0_dev_beta:

Este modelo es la primera entrada de la serie. Por favor déjame feedback y publica imágenes. Esto ayuda a mejorar el proyecto. Hay varias versiones para elegir. El mejor modelo en calidad es la versión FP16 que es grande y requiere una gráfica potente y mucha RAM. La versión FP8 es un buen balance entre calidad y rendimiento. Para una versión GGUF descarga la Q8_0. La versión GGUF Q4_0/4.1 fue una petición. Son pequeñas pero pierdes algo de calidad.

Básicamente hay dos tipos de modelos míos: "todo en uno" que solo necesitas un archivo y contienen Clip_l, T5xxl fp8 y VAE incrustados. Pon esto dentro de tu carpeta checkpoints.

Las otras versiones son solo UNET. Aquí debes cargar todos los archivos por separado.

En cualquier caso necesitas descargar mi Clip_L para que funcionen correctamente..

También es importante elegir el clip T5xxl correcto. Para la versión FP8 es fp8_e4m3fn t5xxl clip. Para FP16 el clip es FP16. Asegúrate de seleccionar el tipo de peso predeterminado. (Abajo hay una imagen de ejemplo para la versión fp8)

Para la versión GGUF necesitas el cargador GGUF!

Cosas conocidas de momento sobre V1.0:

Es solo el primer modelo de la serie, así que puede tener dificultades con algunos prompts o estilos como el arte. La siguiente versión tendrá más entrenamiento. Dime qué cosas el modelo no puede hacer..

Configuraciones y flujo:

Lo probé con unos 30 pasos, Euler y Simple como scheduler. El guidance puede ir de 1.5 a 3 (prueba fuera de ese rango si quieres)

Un guidance de 1.8 funciona bien para imágenes realistas.

Siéntete libre de probar estas configuraciones... Si obtienes buenos resultados publícalos.

Agregué las imágenes de muestra como datos de entrenamiento.. Incluye el flujo para Comfy. Aquí el flujo para descargar: https://civitai.com/articles/7946