FLUX.1 [dev] versions fp8 - fp8 mise à l'échelle/fp8_e4m3fn/fp8_e5m2 - fp8_e4m3fn
Paramètres recommandés
samplers
steps
vae
Conseils
E4M3 offre plus de précision près des valeurs proches de zéro tandis que E5M2 couvre une plage de nombres plus large avec moins de précision ; le choix dépend de la distribution des poids dans le modèle.
FLUX.1 fp8 mis à l'échelle est plus rapide que les modèles quantifiés Q mais peut avoir une qualité légèrement inférieure.
Utilisez ce modèle avec la dernière version de ComfyUI et le nœud TorchCompileModel ; réglez weight_dtype sur défaut.
Le modèle ne fonctionne pas avec Redux ni avec certains modèles ControlNet.
Points forts de la version
Version fp8_e4m3fn de FLUX.1 [dev]. Ce fichier a été initialement téléchargé par Kijai ici sur Hugging Face.
Sponsors du créateur
Mise à jour :
J'ai ajouté d'autres versions fp8 de FLUX.1 [dev] qui ne sont plus hébergées sur Civitai, spécifiquement fp8_e4m3fn et fp8_e5m2, en plus de la version fp8 FLUX.1 [dev] mise à l'échelle que j'avais initialement publiée.
Les modèles fp8_e4m3fn et fp8_e5m2 ont été initialement téléchargés par Kijai ici sur Hugging Face, où il est indiqué que E5M2 et E4M3 donnent des résultats légèrement différents, mais il est difficile/impossible de dire lequel est meilleur. E4M3 est ce à quoi les gens font généralement référence quand ils parlent de FP8.
Voici quelques informations de ce post Reddit concernant fp8_e4m3fn et fp8_e5m2 :
FP signifie Floating Point (nombre à virgule flottante). Tout nombre signé à virgule flottante est stocké en 3 parties :
Bit de signe
Mantisse
Exposant
Donc nombre = signe * mantisse * 2^exposant
E5M2 signifie que 2 bits représentent la mantisse et 5 bits représentent l'exposant. E4M3 signifie que 3 bits représentent la mantisse et 4 bits représentent l'exposant.
E5M2 peut représenter une gamme plus large de nombres que E4M3 au prix d'une précision plus faible. Mais le nombre de valeurs distinctes représentables est le même : 256 valeurs distinctes. Donc si l'on a besoin de plus de précision près de zéro, on utilise E4M3, et si on a besoin de plus de précision près des valeurs min/max, on utilise E5M2.
La meilleure façon de choisir le format à utiliser est d'analyser la distribution des valeurs des poids dans le modèle. S'ils ont tendance à être proches de zéro, on utilise E4M3, sinon E5M2.
Original :
Je n'ai pas vu cela téléchargé ici.
Voici le modèle fp8 FLUX.1 [dev] mis à l'échelle téléchargé sur HuggingFace par comfyanonymous. Il devrait offrir de meilleurs résultats que le modèle fp8 classique, beaucoup plus proche du fp16, mais s'exécute beaucoup plus rapidement que les quantifications Q. Fonctionne avec le nœud TorchCompileModel. Note : pour une raison quelconque, ce modèle ne fonctionne pas avec Redux ni avec certains modèles ControlNet.
Le checkpoint fp8 mis à l'échelle est légèrement expérimental et spécifiquement ajusté pour essayer d'obtenir la meilleure qualité tout en utilisant la multiplication de matrices fp8 sur les séries 40/ada/h100/etc... donc il sera très probablement de qualité inférieure au Q8_0 mais fera une inférence plus rapide si votre matériel supporte les opérations fp8.
De HuggingFace :
Test du modèle flux dev fp8 mis à l'échelle, à utiliser avec la dernière version de ComfyUI avec weight_dtype réglé par défaut. Placez-le dans votre dossier ComfyUI/models/diffusion_models/ et chargez-le avec le nœud "Load Diffusion Model".
Détails du modèle
Type de modèle
Modèle de base
Version du modèle
Hash du modèle
Créateur
Discussion
Veuillez vous log in pour laisser un commentaire.

