FLUX.1 [dev] fp8-Versionen - Skaliertes fp8/fp8_e4m3fn/fp8_e5m2 - fp8_e4m3fn
Empfohlene Parameter
samplers
steps
vae
Tipps
E4M3 bietet mehr Präzision bei Werten nahe Null, während E5M2 einen größeren Zahlenbereich mit geringerer Präzision abdeckt; die Wahl hängt von der Gewichtsverteilung im Modell ab.
Skaliertes fp8 FLUX.1 ist schneller als Q-quantisierte Modelle, kann aber leicht geringere Qualität haben.
Verwende dieses Modell mit der neuesten ComfyUI-Version und dem TorchCompileModel-Knoten; setze weight_dtype auf Standard.
Modell funktioniert nicht mit Redux oder einigen ControlNet-Modellen.
Versions-Highlights
fp8_e4m3fn-Version von FLUX.1 [dev]. Diese Datei wurde ursprünglich von Kijai hier auf Hugging Face hochgeladen.
Ersteller-Sponsoren
Aktualisierung:
Ich habe einige andere fp8-Versionen von FLUX.1 [dev] hinzugefügt, die nicht mehr auf Civitai gehostet werden, speziell fp8_e4m3fn und fp8_e5m2, zusätzlich zu der skalierten fp8 FLUX.1 [dev] Version, die ich ursprünglich gepostet hatte.
Die fp8_e4m3fn und fp8_e5m2 Modelle wurden ursprünglich von Kijai hier auf Hugging Face hochgeladen, wo angemerkt wird, dass E5M2 und E4M3 etwas unterschiedliche Ergebnisse liefern, aber es ist schwer/unmöglich zu sagen, welches besser ist. E4M3 ist das, was üblicherweise als FP8 bezeichnet wird.
Hier einige Infos aus diesem Reddit-Post bezüglich fp8_e4m3fn und fp8_e5m2:
FP steht für Floating Point. Jede vorzeichenbehaftete Gleitkommazahl wird als 3 Teile gespeichert:
Vorzeichenbit
Mantisse
Exponent
Die Zahl = Vorzeichen * Mantisse * 2^Exponent
E5M2 bedeutet, dass 2 Bits die Mantisse und 5 Bits den Exponenten darstellen. E4M3 bedeutet, dass 3 Bits die Mantisse und 4 Bits den Exponenten darstellen.
E5M2 kann einen größeren Zahlenbereich darstellen als E4M3 auf Kosten geringerer Genauigkeit der Zahlen. Aber die Anzahl unterschiedlicher darstellbarer Zahlen ist dieselbe: 256 verschiedene Werte. Wenn wir also mehr Genauigkeit um 0 benötigen, verwenden wir E4M3, und falls wir mehr Genauigkeit näher an Minimal-/Maximalwerten benötigen, verwenden wir E5M2.
Die beste Wahl des Formats hängt von der Analyse der Gewichtsverteilung im Modell ab. Liegen diese näher bei Null, verwenden wir E4M3 oder E5M2 sonst.
Original:
Ich habe diese Version hier nicht gesehen.
Dies ist das skalierte fp8 FLUX.1 [dev] Modell, hochgeladen auf HuggingFace von comfyanonymous. Es sollte bessere Ergebnisse als das reguläre fp8-Modell liefern, viel näher an fp16, läuft aber viel schneller als Q-Quantisierungen. Funktioniert mit dem TorchCompileModel Knoten. Hinweis: Aus unbekannten Gründen funktioniert dieses Modell nicht mit Redux und auch nicht mit einigen ControlNet-Modellen.
Der fp8 skalierte Checkpoint ist etwas experimentell und speziell darauf abgestimmt, die höchstmögliche Qualität bei Verwendung der fp8-Matrixmultiplikation auf der 40er Serie/ada/h100/etc. zu erreichen... Daher ist die Qualität vermutlich etwas niedriger als bei Q8_0, aber die Inferenz läuft schneller, sofern Ihre Hardware fp8-Operationen unterstützt.
Von HuggingFace :
Test des skalierten fp8 flux dev Modells, nutze die neueste Version von ComfyUI mit weight_dtype auf Standard gesetzt. Lege es in deinen ComfyUI/models/diffusion_models/ Ordner und lade es mit dem "Load Diffusion Model" Knoten.
Modell-Details
Diskussion
Bitte log in um einen Kommentar zu hinterlassen.

