FLUX.1 [dev] versiones fp8 - fp8 escalado/fp8_e4m3fn/fp8_e5m2 - fp8_e4m3fn
Palabras Clave y Etiquetas Relacionadas
Parámetros Recomendados
samplers
steps
vae
Consejos
E4M3 ofrece más precisión cerca de valores cero mientras que E5M2 cubre un rango más amplio de números con menos precisión; la elección depende de la distribución de pesos del modelo.
El fp8 escalado FLUX.1 es más rápido que los modelos cuantificados Q pero puede tener calidad ligeramente inferior.
Usa este modelo con la versión más reciente de ComfyUI y el nodo TorchCompileModel; configura weight_dtype en valor por defecto.
El modelo no funciona con Redux ni con algunos modelos ControlNet.
Aspectos Destacados de la Versión
Versión fp8_e4m3fn de FLUX.1 [dev]. Este archivo fue subido originalmente por Kijai aquí en Hugging Face.
Patrocinadores del Creador
Actualización:
He añadido algunas otras versiones fp8 de FLUX.1 [dev] que ya no están alojadas en Civitai, específicamente fp8_e4m3fn y fp8_e5m2, además de la versión fp8 escalada FLUX.1 [dev] que publiqué originalmente.
Los modelos fp8_e4m3fn y fp8_e5m2 fueron subidos originalmente por Kijai aquí en Hugging Face, donde indican que E5M2 y E4M3 dan resultados ligeramente diferentes, pero es difícil/imposible decir cuál es mejor. E4M3 es a lo que generalmente la gente se refiere cuando habla de FP8.
Aquí hay información de esta publicación de Reddit sobre fp8_e4m3fn y fp8_e5m2:
FP significa Punto Flotante (Floating Point). Cualquier número con signo en punto flotante se almacena como 3 partes:
Bit de signo
Mantisa
Exponente
Entonces número = signo * mantisa * 2^exponente
E5M2 significa que 2 bits representan la mantisa y 5 bits representan el exponente. E4M3 significa que 3 bits representan la mantisa y 4 bits representan el exponente.
E5M2 puede representar un rango más amplio de números que E4M3 a costa de menor precisión en los números. Pero la cantidad de números diferentes que se pueden representar es la misma: 256 valores distintos. Por lo tanto, si necesitamos más precisión cerca de 0 usamos E4M3 y si necesitamos más precisión cerca de los valores mínimos/máximos usamos E5M2.
La mejor manera de elegir qué formato usar es analizar la distribución de los valores de peso en el modelo. Si tienden a estar más cerca de cero usamos E4M3 o E5M2 en caso contrario.
Original:
No he visto esto subido aquí.
Este es el modelo fp8 escalado FLUX.1 [dev] subido a HuggingFace por comfyanonymous. Debería dar mejores resultados que el modelo fp8 normal, mucho más cercano a fp16, pero corre mucho más rápido que las cuantizaciones Q. Funciona con el nodo TorchCompileModel . Nota: por alguna razón, este modelo no funciona con Redux ni con algunos modelos ControlNet.
El checkpoint fp8 escalado es uno ligeramente experimental que se ajusta específicamente para intentar obtener la más alta calidad usando la multiplicación de matrices fp8 en la serie 40/ada/h100/etc... por lo que muy probablemente tendrá menor calidad que el Q8_0 pero realizará la inferencia más rápido si tu hardware soporta operaciones fp8.
Desde HuggingFace :
Modelo de desarrollo flux fp8 escalado para prueba, usar con la versión más reciente de ComfyUI con weight_dtype configurado por defecto. Ponlo en la carpeta ComfyUI/models/diffusion_models/ y cárgalo con el nodo "Load Diffusion Model".
Detalles del Modelo
Tipo de modelo
Modelo base
Versión del modelo
Hash del modelo
Creador
Discusión
Por favor log in para dejar un comentario.

