모델/FLUX.1 [dev] fp8 버전 - 스케일된 fp8/fp8_e4m3fn/fp8_e5m2 - fp8_e4m3fn

FLUX.1 [dev] fp8 버전 - 스케일된 fp8/fp8_e4m3fn/fp8_e5m2 - fp8_e4m3fn

김지훈 (Kim Ji-hoon)

8/7/2025

12:50:59 AM

| Discussion|

팁

E4M3은 0 근처 값에서 더 높은 정밀도를 제공하고 E5M2는 폭넓은 숫자 범위를 더 낮은 정밀도로 다루며, 모델 가중치 분포에 따라 선택해야 합니다.

스케일된 fp8 FLUX.1은 Q 양자화 모델보다 빠르지만 품질은 약간 낮을 수 있습니다.

이 모델은 최신 ComfyUI 버전과 TorchCompileModel 노드에서 사용하며, weight_dtype을 기본값으로 설정하세요.

이 모델은 Redux나 일부 ControlNet 모델과 호환되지 않습니다.

버전 하이라이트

FLUX.1 [dev]의 fp8_e4m3fn 버전입니다. 이 파일은 원래 Kijai가 Hugging Face에 업로드했습니다.

크리에이터 스폰서

HuggingFace에서 스케일된 fp8 FLUX.1 [dev] 모델 다운로드
Kijai가 업로드한 기타 fp8 버전들 HuggingFace 링크
Reddit에서 fp8 형식에 관한 추가 정보 및 토론

업데이트:

원래 게시했던 스케일된 fp8 FLUX.1 [dev] 버전 외에 Civitai에 더 이상 호스팅되지 않는 fp8_e4m3fn 및 fp8_e5m2 버전을 추가했습니다.

fp8_e4m3fn 및 fp8_e5m2 모델은 원래 Kijai가 Hugging Face에 업로드했으며, 그곳에서는 E5M2와 E4M3가 약간 다른 결과를 준다고 명시되어 있지만 어느 쪽이 더 좋은지는 판단하기 어렵거나 불가능하다고 합니다. 일반적으로 FP8은 E4M3를 가리킵니다.

다음은fp8_e4m3fn 및 fp8_e5m2에 관한 이 Reddit 게시물의 일부 정보입니다:

FP는 부동 소수를 의미합니다. 부호가 있는 부동 소수점 숫자는 세 부분으로 저장됩니다:

부호 비트
가수(맨티사)
지수

즉 숫자는 부호 * 가수 * 2^지수 형태입니다.

E5M2는 2 비트가 가수를 나타내고 5 비트가 지수를 나타냅니다. E4M3는 3 비트가 가수를 나타내고 4 비트가 지수를 나타냅니다.

E5M2는 더 넓은 범위의 숫자를 나타낼 수 있지만 숫자 정밀도는 더 낮습니다. 그러나 표현 가능한 서로 다른 숫자의 수는 동일하게 256 값입니다. 따라서 0 근처에서 더 높은 정밀도가 필요하면 E4M3를, 최소/최대 값 근처에서 더 높은 정밀도가 필요하면 E5M2를 사용합니다.

어떤 포맷을 사용할지 선택하는 가장 좋은 방법은 모델의 가중치 값 분포를 분석하는 것입니다. 값이 0에 가까울수록 E4M3 또는 그렇지 않으면 E5M2를 사용합니다.

원본:

이 파일은 이곳에 업로드된 적이 없는 것으로 보입니다.

이것은 comfyanonymous가 HuggingFace에 업로드한 스케일된 fp8 FLUX.1 [dev] 모델입니다. 일반 fp8 모델보다 훨씬 뛰어난 결과를 제공하며 fp16에 훨씬 더 가깝지만 Q 양자화 모델보다 훨씬 빠르게 실행됩니다. TorchCompileModel 노드와 함께 작동합니다. 참고: 특정 이유로 이 모델은 Redux나 일부 ControlNet 모델과는 작동하지 않습니다.

fp8 스케일 체크포인트는 실험적인 요소가 약간 포함된 모델로, 40 시리즈/ada/h100 등에서 fp8 행렬 곱셈을 사용하면서 최고 품질을 얻도록 특별히 조정되었습니다. 따라서 Q8_0보다는 품질이 낮을 수 있지만, 하드웨어가 fp8 연산을 지원한다면 추론 속도가 더 빠릅니다.

HuggingFace 출처:

스케일된 fp8 flux dev 모델 테스트, 최신 ComfyUI에서 weight_dtype을 기본값으로 설정하여 사용하십시오. 이 파일을 ComfyUI/models/diffusion_models/ 폴더에 두고 "Load Diffusion Model" 노드로 불러오세요.