FLUX.1 [dev] wersje fp8 - Scaled fp8/fp8_e4m3fn/fp8_e5m2 - fp8_e4m3fn
Zalecane parametry
samplers
steps
vae
Wskazówki
E4M3 oferuje większą precyzję dla wartości bliskich zero, podczas gdy E5M2 obejmuje szerszy zakres liczb przy mniejszej precyzji; wybór zależy od rozkładu wag modelu.
Skalowany fp8 FLUX.1 jest szybszy niż modele kwantyzowane Q, ale może mieć nieco niższą jakość.
Używaj tego modelu z najnowszą wersją ComfyUI i węzłem TorchCompileModel; ustaw weight_dtype na domyślny.
Model nie działa z Redux ani z niektórymi modelami ControlNet.
Najważniejsze informacje o wersji
Wersja fp8_e4m3fn FLUX.1 [dev]. Ten plik został pierwotnie przesłany przez Kijai tutaj na Hugging Face.
Sponsorzy twórcy
Aktualizacja:
Dodałem inne wersje fp8 FLUX.1 [dev], które nie są już hostowane na Civitai, konkretnie fp8_e4m3fn i fp8_e5m2, oprócz skalowanej wersji fp8 FLUX.1 [dev], którą pierwotnie udostępniłem.
Modele fp8_e4m3fn i fp8_e5m2 zostały pierwotnie przesłane przez Kijai tutaj na Hugging Face, gdzie zauważono, że E5M2 i E4M3 dają nieco inne wyniki, ale trudno/niemożliwe jest powiedzieć, który jest lepszy. E4M3 to to, co ludzie zwykle mają na myśli mówiąc o FP8.
Oto trochę informacji z tego wpisu na Reddicie dotyczącego fp8_e4m3fn i fp8_e5m2:
FP oznacza Floating Point (liczba zmiennoprzecinkowa). Każda sygnowana liczba zmiennoprzecinkowa jest przechowywana jako 3 części:
Bit znaku
Mantysa
Wykładnik
Więc liczba = znak * mantysa * 2^wykładnik
E5M2 oznacza, że 2 bity reprezentują mantysę, a 5 bitów reprezentuje wykładnik. E4M3 oznacza, że 3 bity reprezentują mantysę, a 4 bity wykładnik.
E5M2 może reprezentować szerszy zakres liczb niż E4M3 kosztem mniejszej precyzji liczb. Jednak liczba różnych liczb, które można reprezentować, jest taka sama: 256 wartości. Więc jeśli potrzebujemy większej precyzji wokół zera, używamy E4M3, a jeśli precyzji bliżej wartości minimalnych/maksymalnych, to wybieramy E5M2.
Najlepszym sposobem wyboru formatu jest analiza rozkładu wartości wag w modelu. Jeśli wartości są bliżej zera, używamy E4M3, w przeciwnym razie E5M2.
Oryginał:
Nie widziałem tego tutaj przesłanego.
To jest skalowany model fp8 FLUX.1 [dev] przesłany na HuggingFace przez comfyanonymous. Powinien dawać lepsze wyniki niż zwykły model fp8, dużo bliższe fp16, ale działa dużo szybciej niż kwantyzacje Q. Działa z węzłem TorchCompileModel . Uwaga: z jakiegoś powodu model ten nie działa z Redux ani z niektórymi modelami ControlNet.
Checkpoint skalowanego fp8 to lekko eksperymentalna wersja, specjalnie dostrojona, by uzyskać najwyższą jakość przy wykorzystaniu mnożenia macierzy fp8 na kartach 40 series/ada/h100 itd., więc prawdopodobnie będzie miała niższą jakość niż Q8_0, ale będzie działać szybciej, jeśli Twój sprzęt obsługuje operacje fp8.
Z HuggingFace :
Testowy skalowany model fp8 flux dev, używaj z najnowszą wersją ComfyUI z weight_dtype ustawionym na domyślny. Umieść go w folderze ComfyUI/models/diffusion_models/ i załaduj za pomocą węzła "Load Diffusion Model".
Szczegóły modelu
Dyskusja
Proszę się log in, aby dodać komentarz.

