FLUX.1 [dev] versioni fp8 - fp8 scalato/fp8_e4m3fn/fp8_e5m2 - fp8_e4m3fn
Parametri Consigliati
samplers
steps
vae
Suggerimenti
E4M3 offre maggiore precisione vicino a zero mentre E5M2 copre una gamma più ampia di numeri con meno precisione; la scelta dipende dalla distribuzione dei pesi del modello.
FP8 scalato FLUX.1 è più veloce dei modelli quantizzati Q ma può avere qualità leggermente inferiore.
Usa questo modello con l'ultima versione di ComfyUI e il nodo TorchCompileModel; imposta weight_dtype su default.
Il modello non funziona con Redux o con alcuni modelli ControlNet.
Punti Salienti della Versione
Versione fp8_e4m3fn di FLUX.1 [dev]. Questo file è stato originariamente caricato da Kijai qui su Hugging Face.
Sponsor del Creatore
Aggiornamento:
Ho aggiunto altre versioni fp8 di FLUX.1 [dev] che non sono più ospitate su Civitai, specificamente fp8_e4m3fn e fp8_e5m2, oltre alla versione fp8 scalata FLUX.1 [dev] che avevo pubblicato inizialmente.
I modelli fp8_e4m3fn e fp8_e5m2 sono stati originariamente caricati da Kijai qui su Hugging Face, dove notano che E5M2 e E4M3 danno risultati leggermente diversi, ma è difficile/impossibile stabilire quale sia migliore. E4M3 è solitamente il riferimento quando si parla di FP8.
Ecco alcune informazioni da questo post su Reddit riguardo fp8_e4m3fn e fp8_e5m2:
FP sta per Floating Point. Ogni numero floating point con segno è memorizzato in 3 parti:
Bit di segno
Mantissa
Esponente
Quindi numero = segno * mantissa * 2^esponente
E5M2 significa che 2 bit rappresentano la mantissa e 5 bit rappresentano l'esponente. E4M3 significa che 3 bit rappresentano la mantissa e 4 bit l'esponente.
E5M2 può rappresentare una gamma più ampia di numeri rispetto a E4M3 a costo di una precisione inferiore. Ma il numero di valori differenti rappresentabili è lo stesso: 256 valori distinti. Quindi se serve più precisione vicino a zero usiamo E4M3, se serve più precisione vicino ai valori min/max usiamo E5M2.
Il modo migliore per scegliere il formato è analizzare la distribuzione dei pesi nel modello. Se tendono ad essere più vicini a zero usiamo E4M3, altrimenti E5M2.
Originale:
Non l'avevo visto caricato qui.
Questo è il modello fp8 scalato FLUX.1 [dev] caricato su HuggingFace da comfyanonymous. Dovrebbe dare risultati migliori rispetto al modello fp8 regolare, molto più vicino a fp16, ma gira molto più velocemente dei quantizzati Q. Funziona con il nodo TorchCompileModel . Nota: per qualche motivo questo modello non funziona con Redux né con alcuni modelli ControlNet.
Il checkpoint fp8 scalato è leggermente sperimentale ed è specificamente ottimizzato per massimizzare la qualità usando la moltiplicazione di matrici fp8 su serie 40/ada/h100/... quindi probabilmente avrà qualità inferiore rispetto a Q8_0 ma inferirà più velocemente se l'hardware supporta le operazioni fp8.
Da HuggingFace :
Test modello dev flux scalato fp8, usare con l'ultima versione di ComfyUI con weight_dtype impostato di default. Metti la cartella in ComfyUI/models/diffusion_models/ e caricalo con il nodo "Load Diffusion Model".
Dettagli del Modello
Tipo di modello
Modello base
Versione del modello
Hash del modello
Creatore
Discussione
Per favore log in per lasciare un commento.

