FLUX.1 [dev] fp8 版本 - 可擴展 fp8/fp8_e4m3fn/fp8_e5m2 - fp8_e4m3fn
推薦參數
samplers
steps
vae
提示
E4M3 在零附近提供較高精度,E5M2 涵蓋更廣數值範圍但精度較低;選擇依模型權重分布而定。
可擴展 fp8 FLUX.1 較 Q 量化模型快,但品質可能稍低。
請配合最新 ComfyUI 版本及 TorchCompileModel 節點使用;weight_dtype 設為預設值。
模型不兼容 Redux 及部分 ControlNet 模型。
版本亮點
FLUX.1 [dev] 的 fp8_e4m3fn 版本。這檔案最初由 Kijai 上傳至 Hugging Face。
創作者贊助
更新:
我加入了一些不再托管於 Civitai 的 FLUX.1 [dev] 其他 fp8 版本,特別是 fp8_e4m3fn 和 fp8_e5m2,除了我最初發布的可擴展 fp8 FLUX.1 [dev] 版本。
fp8_e4m3fn 和 fp8_e5m2 模型最初由 Kijai 上傳至 Hugging Face,他們指出 E5M2 與 E4M3 會產生略有不同的結果,但難以/不可能判定哪個更好。 E4M3 是人們通常所稱的 FP8。
以下是來自 此 Reddit 貼文關於 fp8_e4m3fn 與 fp8_e5m2 的說明:
FP 代表浮點數。任何帶符號的浮點數存為三部分:
符號位元
尾數
指數
數值 = 符號 * 尾數 * 2^指數
E5M2 表示尾數為 2 位元,指數為 5 位元。E4M3 表示尾數為 3 位元,指數為 4 位元。
E5M2 可表示的數值範圍比 E4M3 更廣,但精度較低。然而可表示的不同數值數量相同:256 個。若需零附近高精度則用 E4M3,若需靠近最小/最大值的高精度則用 E5M2。
最佳選擇格式方法是分析模型權重分布。若權重趨近零,選 E4M3,否則選 E5M2。
原文:
我沒見過這版本上傳到這裡。
這是 由 comfyanonymous 上傳到 HuggingFace 的可擴展 fp8 FLUX.1 [dev] 模型。它的結果應該比普通 fp8 更好,接近 fp16,但推理速度比 Q 量化快很多。支援 TorchCompileModel 節點。注意:此模型不兼容 Redux 及部分 ControlNet 模型。
fp8 可擴展檢查點是一個略為實驗性的版本,特別調校以利用 40 系列/ada/h100 等 GPU 上的 fp8 矩陣乘法,目標是達到最高品質與更快速度,品質可能略遜於 Q8_0,但若硬件支持 fp8 運算,推理會更快。
來自 HuggingFace:
測試用可擴展 fp8 flux dev 模型,使用最新版本 ComfyUI 並將 weight_dtype 設為預設。將檔案放入 ComfyUI/models/diffusion_models/ 資料夾,並用“Load Diffusion Model”節點載入。

