모델/Colossus Project Flux - v12_int4_SVDQ_nunchaku

Colossus Project Flux - v12_int4_SVDQ_nunchaku

김지훈 (Kim Ji-hoon)

7/29/2025

1:38:52 PM

| Discussion|

팁

부정 프롬프트 단어 'blurry'를 사용하여 이미지 선명도를 향상시키세요.

FP4/int4 버전의 경우: FP4는 Nvidia 50xx GPU 전용이며, int4는 40xx 및 이하(최소 20xx 시리즈 GPU)에서 작동합니다.

최고 결과를 위해 V2.0에서는 Euler 샘플러와 Simple 스케줄러를 사용하세요.

안정적인 품질을 위해 약 20~30 스텝과 2.2 cfg를 시도해보세요.

"All in One" 버전에는 사용 편의를 위한 Clip_L, T5xxl fp8, VAE가 내장되어 있습니다.

SVDQ 양자화는 모델 크기를 줄이고 생성 속도를 품질 손실 최소화하며 향상시킵니다.

버전 하이라이트

주의! FP4와 int4 두 가지 버전이 있으며, int4 버전은 40xx 및 이하에서 작동하며 50xx 카드에서는 작동하지 않습니다!

V12 양자화를 수행해주신 Nunchakutech의 Muyang Li님께 감사드립니다. https://huggingface.co/nunchaku-tech와 그들의 환상적인 nunchaku!

이 버전은 정말 놀랍습니다. 전례 없는 품질과 속도의 결합입니다.

두 버전 모두 여기에서 직접 다운로드할 수 있습니다: https://huggingface.co/nunchaku-tech/nunchaku-flux.1-dev-colossus

설치 가이드 및 작업 흐름

간단한 설치 가이드와 진행 중인 작업 흐름입니다.

https://civitai.com/articles/17313

Nunchaku용 새로운 작업 흐름을 아직 작업 중이므로 아래 작업 흐름은 매우 진행 중인 상태(WIP)이며, 주말에 자세한 글을 추가할 예정입니다.

크리에이터 스폰서

FLUX 모델 크리에이터를 지원하고 싶다면 여기에서 기부할 수 있습니다: https://ko-fi.com/afroman4peace

Nunchakutech의 Muyang Li가 변환한 FP4/int4 버전을 확인하세요: https://huggingface.co/nunchaku-tech

CivitAI에서 자세한 워크플로 가이드와 설치 도움말을 확인하세요: https://civitai.com/articles/17313, https://civitai.com/articles/17358

산 깊숙한 곳에는 인류를 돕거나 파괴를 일으킬 수 있는 잠자는 거인이 살고 있습니다...

거인이 깨어납니다...

제 SDXL 시리즈 이후로 이 프로젝트의 FLUX 시리즈 시간이 되었습니다... 이번에는 처음부터 이 모델을 직접 훈련시켰습니다. 훈련에 저만의 이미지를 사용했고, 제 schnell Flux 모델 DemonFlux/Colossus Project schnell과 SDXL Colossus Project 12를 리파이너로 활용했습니다.

이 SD Flux-Checkpoint는 거의 모든 것을 생성할 수 있습니다.. Colossus는 매우 사실적인 사진, 애니메이션, 예술작품 생성에 뛰어납니다.

마음에 드신다면 피드백 부탁드리며, 지원을 원하시면 여기에서 도와주실 수 있습니다. Flux 모델을 실제로 훈련시킬 수 있는 컴퓨터를 구축하는 데 상당한 비용이 들었으며, 훈련과 테스트에 많은 시간과 전력이 소요됩니다..

https://ko-fi.com/afroman4peace

버전 V12 "Hephaistos"

이 체크포인트를 공개하는 것이 한편으로는 기쁘고 다른 한편으로는 슬픕니다.. V12는 이 시리즈의 마지막 체크포인트가 될 것입니다.. 주된 이유는 곧 시행될 EU 인공지능 법규 때문입니다... 또 다른 이유는 Flux .1 DEV 자체의 라이선스 때문입니다. 모두의 지원에 감사드립니다! 지난 1년간 이 프로젝트에 많은 시간을 쏟았습니다. 이제 다른 프로젝트로 넘어갈 시간입니다.

어쨌든 이 시리즈를 훌륭한 마무리로 끝낼 것입니다...

V12는 V10B "BOB"를 기반으로 하지만 이 시리즈의 최고 부분을 하나의 체크포인트에 블록 병합했습니다. (약 1시간 30분이 걸렸고 128GB RAM을 전부 사용한 새로운 병합 방법의 결과물입니다). V10과 비교해 얼굴과 피부 텍스처가 향상되었으며, 눈은 더욱 사실적이고 "생동감" 있습니다.

직접 테스트해 보시고 V12에 대한 피드백을 주세요. 느린 인터넷 때문에 먼저 FP8_UNET을 업로드하고, 그다음 FP8 "all in one" 버전, FP16_unet 및 FP16_BEHEMOTH 버전을 올릴 예정입니다. int4 및 fp4로 변환도 시도할 예정입니다 (행운을 빕니다).

항상 그렇듯 V12에 대해 피드백 부탁드립니다..

버전 V12 "Behemoth" (AIO)

이 "all in one" 모델은 제 V12 시리즈 중 최고이며 사이즈도 가장 큽니다 :-)

Behemoth는 커스텀 T5xxl과 Clip_l이 모델 내부에 내장되어 있습니다. 품질을 중요시한다면 이 체크포인트를 추천합니다!

버전 V12 FP4/int4

양자화를 수행해주신 Nunchakutech의 Muyang Li님께 감사드립니다. https://huggingface.co/nunchaku-tech와 그들의 환상적인 nunchaku!

이 버전은 정말 놀랍습니다. 이전엔 볼 수 없던 품질과 속도의 결합입니다.

주의!

FP4와 int4 두 가지 버전이 있습니다. FP4는 Nvidia 50xx 그래픽 카드 전용이며, int4는 40xx 및 그 이하와 호환됩니다. (최소 20xx 시리즈 그래픽 카드 필요)

두 버전 모두 여기에서 직접 다운로드할 수 있습니다: https://huggingface.co/nunchaku-tech/nunchaku-flux.1-dev-colossus

설치 가이드 및 작업 흐름

간단한 설치 가이드와 진행 중인 작업 흐름입니다.

https://civitai.com/articles/17313

Nunchaku용 새로운 작업 흐름을 아직 작업 중이므로 아래 작업 흐름은 매우 진행 중인 상태(WIP)이며, 주말에 자세한 글을 추가할 예정입니다.

버전 V12 FP16_B_variant

새벽 2시경 실수로 "잘못된" 체크포인트를 이름 변경 후 업로드했습니다. 매우 실험적인 체크포인트로 공개할 예정은 아니었으며, 테스트는 적지만 쇼케이스 생성 시 매우 좋은 성능을 보였습니다. 표준 버전보다 나을 수도 있습니다.

아시아 얼굴 쪽으로 치우치는 경향이 있습니다. 이는 현재 작업 중인 부가 프로젝트와 혼합하려고 시도한 결과입니다. 이 체크포인트 사용 후 경험을 알려주세요 :-)

버전 V12 AIO FP8

이 버전은 V12의 all in one 버전으로 모든 클립이 내장되어 있습니다. 커스텀 clip_l이 포함된 FP8_unet과 동일한 출력을 제공합니다.

버전 V12 GGUF Q5_1

요청에 의해 제작된 버전입니다. 품질은 나쁘지 않습니다..

버전 V10B "BOB"

V10의 대체 버전으로, V10의 FP8 버전을 개선하기 위해 제작했습니다. 일반적으로 FP8 버전이 더 정밀하고 색상도 좋습니다. 최근 시간이 많지 않아 (실생활 우선) 오래 걸렸습니다.. 이 버전을 선호하는지 알려주세요. "BOB"의 FP16 버전도 있습니다. 피드백에 따라 int4 버전도 공개할 수 있습니다.

작업 흐름:

V12와 V10 작업 흐름: https://civitai.com/articles/17163

버전 V10_int4_SVDQ "Nunchaku"

먼저 FP16_Unet을 int4_SVDQ로 변환해주신 theunlikely (https://huggingface.co/theunlikely)에게 감사드립니다. 그의 페이지를 방문하고 좋아요를 남겨주세요.

이 버전은 FP8 버전과 거의 동일합니다. 워크플로 내 일반 모드에서도 일반 모델보다 약 2~3배 빠릅니다.. 워크플로의 "빠른 모드"에서는 3090ti로 약 19초 만에 2MP 이미지를 렌더링할 수 있습니다.

SVDQ "Nunchaku"란?

이 새로운 양자화 방식은 Flux 모델(여기서는 네이티브 FP16 모델)의 크기를 24GB에서 약 6.7GB로 줄일 수 있습니다. 하지만 이게 다가 아닙니다: 품질 손실 없이 전보다 빠른 생성이 가능합니다. 32GB_Behemoth와 비교하면 약간의 차이가 있지만, 이는 훨씬 더 많은 VRAM/RAM이 필요합니다.

자세한 내용은 다음을 참조하세요: https://github.com/mit-han-lab/ComfyUI-nunchaku?tab=readme-ov-file

설치: 워크플로/설치 가이드를 방문하세요: https://civitai.com/articles/15610

버전 V10 "Behemoth" (FP16_AIO)

이 버전은 아직 실험 단계입니다. 주요 목표는 더 사실적인 결과 생성이며 일부 "Flux Lines"를 감소시켰습니다. 이 모델은 Colossus Project V5.0_Behemoth, V9.0 및 제가 "Ouroborus Project"라 부르는 또 다른 프로젝트에 기반합니다.

FP16 버전은 매우 안정적이며 곧 FP8 버전도 릴리스할 예정입니다. FP8 버전도 좋지만 안정성은 다소 떨어집니다..

직접 실험해보시고 의견을 알려주세요.

즐거운 창작 되세요 :-)

버전 V9.0:

먼저 왜 V9.0인지 설명이 필요합니다.

최근 새 아파트로 이사하면서 인터넷 제공업체의 문제로 인터넷 연결이 되지 않아 컴퓨터를 계속 켜둔 상태에서 많은 (대부분 손상된) 체크포인트를 생성했습니다. 좋은 V8 버전도 있지만 조만간 공개할지 고려 중입니다..

무엇이 바뀌었나요?

V5.0의 최고 결과를 바탕으로 새로운 얼굴과 피부 텍스처를 훈련시켰으며, 더 나은 해부학적 구성을 위해 발과 다리 훈련도 추가했습니다. V5.0 버전에서 가끔 머리와 발이 잘렸던 문제를 일부 해결했다고 생각합니다.

추가로 제 풍경 이미지로도 훈련했습니다.. 그리고 이 모든 작업은 이사하면서 진행했습니다... 총 약 2주간의 컴퓨팅 시간이 소요되었으며 전기 비용도 적지 않습니다 (매 시간 약 25센트).

아무튼 이 버전을 좋아하시길 바랍니다.. 지원하시려면 멋진 이미지나 팁을 버즈나 코피에 올려주세요..

어떻게 생각하는지 알려주세요 :-)

버전 5.0:

V5.0은 실제로 V4.2 및 곧 공개될 V4.4를 기반으로 하며, 피부 세부사항과 해부학 훈련을 추가해 손과 유두 같은 문제를 대부분 해결했습니다. 얼굴 디테일도 훨씬 좋아졌습니다. 약간의 Flux 라인 문제도 수정하려 노력했습니다..

전반적으로 이 버전은 V4.2보다 더 사실적이고 세세한 부분까지 개선되었습니다. V4.2처럼 하이브리드 de-distilled 모델이며, 기본 설정은 V4.2와 유사합니다.

이용해볼 새로운 워크플로도 있습니다: https://civitai.com/articles/11950/workflow-for-colossus-project-flux-50

V4.2 또는 V2.1과 비교해서 어떻게 생각하는지 알려주세요.

버전 4.4 "Research":

완성을 위해 추가한 버전으로 V4.2보다 약간 더 사실적이며 V5.0의 기반이 됩니다. 원하는 경우 시도해볼 수 있으며 V5.0과 V4.2 워크플로를 모두 사용할 수 있습니다..

버전 4.2:

이 버전은 Demoncore Flux와 Colossus Project Flux의 발전형으로, 더 안정적인 결과와 향상된 피부 텍스처, 더 나은 손 모양, 다양한 얼굴 표현을 목표로 하였습니다. 혼합 모델로 훈련되었으며 유두 및 NSFW 부분을 개선했습니다. V4.2를 V2.1보다 선호하는지 알려주세요 :-)

쇼케이스 이미지는 SDXL 해상도 또는 2MP(예: 1216x1632) 네이티브 이미지만 사용했습니다. 이 모델은 더 높은 해상도도 처리 가능하며 최대 2500x2500까지 테스트했으나 2000x2000 정도가 적당합니다.

설정은 약 30 스텝과 2~2.5 cfg를 추천하며, 저는 주로 2.2~2.3을 사용합니다. 쇼케이스는 Simple scheduler가 적용된 DPM++ 2M을 사용했습니다.

곧 더 많은 버전을 추가하겠지만 크리스마스 전까지는 시간이 많지 않습니다..

설정

곧 새 Comfy 전용 워크플로를 추가할 예정이며, 지금은 쇼케이스 이미지를 다운로드해 열어보실 수 있습니다..

"All in One" 버전은 Forge에서도 잘 작동합니다..

기본적으로 버전 2.1과 동일한 설정으로 작동합니다 (아래 참고).

20~30 스텝 및 약 2.2 cfg를 적용하세요..

버전 2.1_de-distilled_experimental (병합)

이 버전은 완전히 다르며 일반 Flux 모델과 다르게 작동합니다!

버전 2.0과 de-distilled 버전(https://huggingface.co/nyanko7/flux-dev-de-distill) 사이의 실험적 병합입니다. 우연히 만들어진 결과지만 매우 놀라운 디테일과 프롬프트 준수도를 자랑합니다. 다음 단계는 de-distilled 모델에서 직접 훈련하는 것입니다. 이미 테스트 Lora도 제작했습니다. 매우 실험적이니 버그 발견 시 알려주시고, 좋은/나쁜 이미지도 공유해 주세요. 버전 2.0도 시도해보고 어떤 체크포인트가 맞는지 알려주세요.

주의!

일반 Flux 워크플로는 이 버전에서 작동하지 않으니 별도의 워크플로를 다운로드해야 합니다!

스스로 방법을 찾아볼 수도 있지만 이미지 품질 저하는 제 책임이 아닙니다. 매우 실험적인 모델임을 유념하세요..

이 체크포인트의 장단점:

극도로 세밀한 디테일 생성이 가능하지만 그 대가로 처리 속도가 느립니다. 일반 Flux 체크포인트보다 느립니다. 대신 보통 업스케일 없이도 충분합니다. 이 모델은 Flux Guidance 대신 cfg 스케일을 사용하므로 표준 워크플로와는 다릅니다.
부정 프롬프트를 사용할 수 있어 원하지 않는 요소를 제거할 수 있습니다.
가끔 아티팩트가 나타날 수 있으나 간단한 업스케일링으로 해결 가능합니다(개발 중). 모든 시드에서 발생하지는 않으며, 문제 시 첫 업스케일을 1.2 대신 1.14로 설정해보세요.

버전 2.1 설정 및 작업 흐름:

워크플로는 여기서 확인하세요: https://civitai.com/articles/8419

설정: 일반 Flux와 달리 Flux Guidance 스케일이 필요 없으며, cfg를 사용하세요. 저는 주로 3 cfg를 사용합니다. 일부 이미지는 낮은 cfg가 필요할 수 있습니다.

가장 중요한 점은 Flux Guidance 스케일을 끄는 것입니다..

워크플로 없이는 30 스텝, 2~3 cfg로 테스트했습니다. Forge에도 적용 가능합니다.

부정어에 "blurry"를 포함하는 것을 권장합니다.

샘플러 및 스케줄러:

다음 샘플러들이 잘 작동합니다:

Euler, Heun, DPM++2m, deisd, DDIM

저는 주로 "simple" 스케줄러를 사용합니다.

더 좋은 설정을 찾으면 알려주세요.. :-)

Forge에는 AIO 모델을 추천하며, 설정 예시는 다음과 같습니다.

버전 2.0_dev_experimental

이 버전은 실험용으로, 더 통합적이고 빠른 모델을 목표로 했습니다. 추가로 훈련한 Lora들을 합병(Tensor merge)했습니다. 커스텀 T5xxl을 "Attention Seeker"로 수정하여 속도와 품질을 향상시켰으며, ByteDance의 Hyper Flux lora를 병합해 작업 영역을 이동시켰습니다.

16 스텝 V 2.0

30 스텝 V 1.0

단점:

첫째, 이 버전은 이전 버전보다 약간 더 큽니다.. 둘째, Unet 전용 버전을 아직 제작하지 않았습니다. 완료되면 업데이트할 예정입니다..

버전 2.0 설정 및 작업 흐름:

이제 적은 스텝으로 모델을 실행할 수 있으며, 16 스텝이 이전 모델의 30 스텝에 해당합니다.

대부분의 경우 품질 향상을 위해 20~30 스텝 사용을 권장합니다.

샘플러: Euler와 Simple 스케줄러를 추천하며, 가이드(조절) 값은 1.5-3 사이에서 테스트하세요(범위 외에서도 가능). 1.8은 현실적 이미지에 적합합니다. DPM++2M과 Heun도 좋은 선택입니다.

워크플로 2.0:

V2.0과 V1.0용 새 워크플로를 제작했으며, 새로운 Flux 프롬프트 생성기와 두 번째 업스케일 단계를 포함합니다. https://civitai.com/articles/7946

Forge:

이 모델은 Forge에서도 좋은 성능을 보였지만, Comfy UI와는 이미지 품질에 차이가 있을 수 있습니다..

버전 1.0_dev_beta:

이 모델은 시리즈의 첫 시작이며, 피드백과 이미지 공유를 통해 프로젝트 개선에 도움을 주시면 감사하겠습니다. 여러 버전이 있으며, 품질면에서 최고는 FP16 버전입니다. FP16은 크기가 크고 고사양 그래픽 카드와 많은 RAM이 필요합니다. FP8은 품질과 성능의 균형 잡힌 솔루션입니다. GGUF 버전은 Q8_0을 다운로드하세요. Q4_0/4.1 버전은 요청에 따라 제작되었으며 크기는 작지만 품질이 다소 저하됩니다.

모델 유형은 두 가지로, "All in one" 모델은 하나의 파일만 다운로드하면 되며 Clip_l, T5xxl fp8, VAE가 내장되어 있습니다. 체크포인트 폴더에 넣으세요.

다른 버전들은 UNET-ONLY로 각 파일을 개별적으로 로드해야 합니다.