FLUX.1 [dev] versões fp8 - fp8 escalado/fp8_e4m3fn/fp8_e5m2 - fp8_e4m3fn
Palavras-chave e Tags Relacionadas
Parâmetros Recomendados
samplers
steps
vae
Dicas
E4M3 oferece mais precisão perto dos valores zero enquanto E5M2 cobre uma faixa mais ampla de números com menor precisão; a escolha depende da distribuição dos pesos do modelo.
O fp8 escalado FLUX.1 é mais rápido que modelos quantizados Q, mas pode ter qualidade ligeiramente inferior.
Use este modelo com a versão mais recente do ComfyUI e o nó TorchCompileModel; defina weight_dtype como default.
O modelo não funciona com Redux ou alguns modelos ControlNet.
Destaques da Versão
Versão fp8_e4m3fn do FLUX.1 [dev]. Este arquivo foi originalmente carregado por Kijai aqui no Hugging Face.
Patrocinadores do Criador
Atualização:
Adicionei algumas outras versões fp8 do FLUX.1 [dev] que não estão mais hospedadas no Civitai, especificamente fp8_e4m3fn e fp8_e5m2, além da versão fp8 escalada FLUX.1 [dev] que eu tinha postado originalmente.
Os modelos fp8_e4m3fn e fp8_e5m2 foram originalmente carregados por Kijai aqui no Hugging Face, onde é explicado que E5M2 e E4M3 produzem resultados ligeiramente diferentes, mas é difícil/impossível afirmar qual é melhor. E4M3 é o que as pessoas normalmente referem quando falam de FP8.
Aqui está uma informação de postagem no Reddit sobre fp8_e4m3fn e fp8_e5m2:
FP significa Floating Point (Ponto Flutuante). Qualquer número de ponto flutuante com sinal é armazenado em 3 partes:
Bit de sinal
Mantissa
Expoente
Então número = sinal * mantissa * 2^expoente
E5M2 significa que 2 bits representam a mantissa e 5 bits representam o expoente. E4M3 significa que 3 bits representam a mantissa e 4 bits representam o expoente.
E5M2 pode representar uma faixa mais ampla de números do que E4M3, com o custo de menor precisão nos números. Mas a quantidade de números distintos que podem ser representados é a mesma: 256 valores distintos. Então, se precisamos de mais precisão próximo a 0, usamos E4M3; se precisamos de mais precisão próximo aos valores mínimos/máximos, usamos E5M2.
A melhor maneira de escolher qual formato usar é analisar a distribuição dos valores dos pesos no modelo. Se eles tendem a estar mais próximos de zero usamos E4M3; caso contrário, usamos E5M2.
Original:
Eu não vi essa versão carregada aqui.
Este é o modelo fp8 escalado FLUX.1 [dev] enviado para o HuggingFace por comfyanonymous. Ele deve fornecer resultados melhores que o modelo fp8 regular, muito mais próximo do fp16, mas roda muito mais rápido que os quantizados Q. Funciona com o nó TorchCompileModel. Nota: por algum motivo, este modelo não funciona com Redux nem com alguns modelos ControlNet.
O checkpoint fp8 escalado é um pouco experimental e foi especificamente ajustado para tentar obter a mais alta qualidade usando a multiplicação matricial fp8 nas séries 40/ada/h100/etc... então provavelmente terá qualidade menor que o Q8_0, mas fará inferência mais rápida se seu hardware suportar operações fp8.
Do HuggingFace :
Teste do modelo flux dev fp8 escalado, use com a versão mais recente do ComfyUI com weight_dtype definido como default. Coloque-o na pasta ComfyUI/models/diffusion_models/ e carregue com o nó "Load Diffusion Model".
Detalhes do Modelo
Tipo de modelo
Modelo base
Versão do modelo
Hash do modelo
Criador
Discussão
Por favor, faça log in para deixar um comentário.

