모델/SDXL / Flux.1 D - 매트 (반타)블랙 - 실험 - SDXL v3.0

SDXL / Flux.1 D - 매트 (반타)블랙 - 실험 - SDXL v3.0

김지훈 (Kim Ji-hoon)

7/15/2025

1:35:39 PM

| Discussion|

팁

Flux.1 D는 어둡고 사진 같은 이미지를 생성하는 경향이 있으므로 색상이나 스타일을 추가하는 다른 LoRA와 혼합해 사용하는 것이 가장 좋습니다.

예측 불가능하고 실험적인 결과를 기대하세요—가끔은 훈련 데이터를 1:1로 복사하거나 거의 순수한 검은색 이미지를 만들기도 합니다.

이 모델은 16GB VRAM의 4060 TI 같은 중급 GPU에서 잘 작동하며 최신 4090이 반드시 필요한 것은 아닙니다.

ControlNet IP-Adapter는 생성된 이미지를 향상시킬 수 있으나 랜덤한 효과가 발생할 수 있습니다.

명확하고 일관된 긍정적 또는 부정적 프롬프트는 권장되지 않으니 실험을 권장합니다.

버전 하이라이트

사실상의 새 버전 (그랬으면 좋겠네요)

Flux.1 D - V2.0

Flux에서 작동시키려는 마지막 시도... 여기서 "작동시킨다"는 건 가능한 최대한 망쳐 놓는다는 뜻입니다. SDXL 버전과 같은 결과를 낼 가능성은 거의 없습니다. 6000 스텝 후 관찰만으로도 명확했습니다. SDXL은 "알았어, 배울게, 하지만 내 방식으로 할거야"라는 느낌이라면 Flux는 뭔가를 어떻게 해야 할지 모르는 것이나 내가 배우길 원하는 것을 놓고 미친 듯이 싸우거나 보정합니다. 반면 오랜 훈련 후에는 그 이미지를 완전히 재현해내며, 훈련 데이터를 1:1로 복사하여 사실상 순수한 검은색 결과를 만듭니다. Flux는 몇 스텝만 거쳐도 사진처럼 이미지를 완벽히 복사할 수 있습니다.

앞서 Flux 버전에서 언급했듯, 대부분 다른 색상이 풍부하거나 특정 스타일이 있는 LoRA와 혼합해 사용하고 싶습니다.

SDXL v3.0과 같은 이미지에 Flux 버전에서는 꽤 많은 추가 이미지(일부는 가로 형식)를 넣었습니다. 다만 제가 올리거나 다른 사람들이 올린 이미지의 약 80%를 차지했던 3장의 사진을 제거했습니다. SDXL 버전에서 하려고 했으나 당시에는 하지 않았던 일입니다. 그 사진들이 너무 지배적이어서 이상한 동작과 특정 이미지 생성 편향을 야기했기 때문입니다. v1.0 Flux 버전에서 보았고 이제는 제거되었습니다. 인기에는 아마 타격이 있겠지만 어느 쪽이든 신경 쓰지 않습니다.

많은 사람들이 단지 "파이프라인"에 있기 때문에 특정 LoRA를 사용하는 것 같습니다. 어떤 경우에는 LoRA를 사용하지 않은 이미지가 더 나아 보일 수도 있습니다. 스타일 LoRA는 생성 시 명확히 스타일을 추가하므로 다릅니다. 그러나 이 모델은 모든 걸 악화시킬 잠재력이 크기 때문에 제가 올린 이미지들은 일부러 선별하지 않았습니다. 촛불 같은 강한 빛이나 광원이 있으면 Flux (및 몇몇 SDXL 모델)는 자체적으로 어두운 환경을 추가하는데, 빛이 잘 보이려면 반드시 주변에 어둠이 있어야 하기 때문입니다 (햇빛 내리쬐는 낮에 자동차 헤드라이트는 효과가 거의 없습니다).

그리고 NF4나 QQUFUF 5.64.3255 K4 2 버전에서 작동하는지 묻지 마세요. 파일 크기도 작아 직접 테스트 해보실 수 있습니다. 저는 일반 FP8/16 Dev 버전보다 메모리 절약이나 미미한 속도 향상(또는 더 느린 경우) 외에 명확한 이점이 없다면 저 모델들과 거리를 둘 것입니다.

아무래도 익숙해진 모델의 새 버전이 짧은 시간 안에 나오면 귀찮을 수 있다는 걸 압니다. 이 모델은 더 이상 추구하지 않고 누군가 유용한 결과를 얻길 기다릴 생각입니다.

또한, 포토샵으로 이미지를 준비하는 작업량이 너무 많아 보람을 느끼지 못합니다. 차라리 새로운 것이나 우연히 흥미롭거나 랜덤한 효과를 만드는, 또는 오래된 모델을 flux화하는 등의 시도를 하는 게 낫습니다.

Flux.1 D - V1.0

Kohya 등으로 이것저것 시험해 보고, Flux를 위한 꽤 기이한 컨셉의 LoRA로 성공적으로 작업한 후, 이 모델도 작동하는지 확인하려 했습니다. 사실 Flux 버전을 내는 게 목표는 아니었습니다. Flux는 대체로 대비 표현이 잘 되니까요. 제 주요 목표는 인공적/가짜 같은 느낌을 제거하는 것이었고, "불명확한" 데이터셋이 도움이 될 거라 생각했습니다. 때때로 효과가 있거나 오히려 더 악화되기도 합니다.

SDXL 버전과 마찬가지로, 색상을 많이 더하는 다른 LoRA와 함께 사용하는 것이 좋습니다.

프롬프트와 이미지 준비에 다소 게을렀던 점 죄송합니다. V3.0에서 사용한 것과 거의 동일하지만, 지금은 시연 목적에 충분합니다. 때때로 디테일이 손상되고 흥미로운 효과가 없기도 합니다(예: 해파리 사진이나 앵무새).

동일한 시드로 대응되는 이미지 생성
처음 두 이미지는 LoRA 사용 전후이며, 이후에는 순서가 바뀌어 먼저 LoRA 미사용, 다음 LoRA 사용(가끔 강도 다름)
일부는 처음에 트리거 단어 포함, 하지만 Flux에는 필요 없을 듯함
새 데이터셋이 아닌 V1.0 데이터셋 기반(이미지를 너무 많이 사용하고 싶지 않았음)

Flux를 위한 더 많은 LoRA를 만들지는 확실하지 않으나 여러 테스트를 해볼 예정입니다. 여러 버전이 혼재되어 혼란스러우며, 10시간 후면 구식이 될 수도 있는 것에 너무 많은 시간을 투자할 가치가 있는지 모르겠습니다.

참고로: 이 모델은 4060 TI (16GB)로 훈련되었으며 VRAM 최대 사용량은 14.4~15.2GB, 속도는 3.95초/스텝에서 5.15초/스텝, 해상도는 512x, Rank 4입니다. 따라서 최신 4090은 필요 없으며, 물론 4090이라면 더 빠르겠지만 기다리면서 다른 일을 해도 괜찮다면 문제 없습니다.

항상 그랬듯 가끔씩 사용하면서 의미 있는 결과를 얻는지 볼 생각입니다. 아마도 단순히 호기심을 충족시키는 용도일 것 같습니다.

V.3.0

V2.0에서 실수한 후 이번에는 진짜 제대로 만든 버전입니다. 병합 같은 건 하지 않았어요. 추가된 이미지 수 때문에 초반에는 너무 멀리 벗어난 게 아닌지 의심했지만 다행히 그렇지 않았습니다.

많은 사람이 이 LoRA를 유용하게 사용하며 많은 이미지를 만든 것이 정말 기쁩니다. 원래 의도와 달리 지금처럼 사용되는 모습을 보니 또 다른 용도가 생긴 것 같아 좋습니다(모든 LoRA가 그렇듯).

앞으로 한동안 마지막 버전일 가능성이 큽니다. 단지 이미지를 더 추가하는 것만으로는 주요 효과가 바뀌지 않기 때문입니다. 대부분은 다양한 모델, LoRA 조합, 프롬프트를 사용하는 것으로 이미 이루어지고 있습니다.

더 많은 이미지 생성에 집중해 새로운 조합을 찾고(또는 휴식 겸), 새로운 기이한 LoRA를 제작하거나 기존 LoRA를 수정할 것입니다. 또한 여러 사람이 올린 다른 자료도 많이 다운받았지만 대부분 사용하지 못했습니다.

지금까지 올려주신 모든 이미지에 감사드리며 더 많은 이미지도 기대합니다. AI 분야가 빠르게 변해 어느 LoRA든 수명이 한정되어 있고 유행도 끝나겠지만요. :)

V2.0

V2.0에 대한 작은 공지 (국가에 따라 02.04 또는 04.02)

음, 저는 공식적으로 바보입니다.

다른 LoRA를 훈련하다가 2000 스텝 지나도 샘플 이미지에 변화가 없음을 발견했습니다. 이는 사실상 불가능합니다. 원인을 찾아보니 LR 워밍업 설정을 변경하지 않고(또는 올바르게 설정하지 않고) 있었다는 걸 알게 되었습니다. 원래는 워밍업 단계 없이 훈련하지만 이전에 4장 이미지 데이터셋으로 테스트할 때 실험해본 겁니다. 100 에포크 설정에 500 스텝마다 모델 저장, 워밍업은 32%로 설정되어 있었습니다. 4장 x 10 반복 x 100 에포크 = 4000 스텝인데, 32%가 워밍업이라 실제로 큰 변화가 없는 스텝이 1280이었습니다.

이번 LoRA도 똑같은 설정이었지만 이미지가 60장(60 x 10 x 100 = 60000, 워밍업 32% = 19200 스텝)이라 그랬던 겁니다. 그래서 12000 스텝 넘게 지나도 시작도 안 된 셈입니다. 즉, 사실상 허공에다 훈련시킨 거였죠. 원인을 알게 되어 다행입니다. 잠들어 있었기에 몰랐지만 이미지 문제라고 생각했던 원인이었습니다.

그래서 이 버전은 실패작이고 대부분은 V1.0과 병합한 결과입니다.

주말에 다시 올바른 설정으로 훈련할 예정입니다.

정말 죄송합니다. 우연한 만우절 농담 같기도 하네요 :) .... :(

최근 많이 사용해서 몇 장 더 추가했습니다. 새 LoRA를 오랜만에 올렸는데, 회사 일이 너무 많고 복잡한 주제만 골라서 작업하다 보니 그랬습니다. 단순한 건 지루해서요.

또 Pony를 분석하는 데도 많은 시간을 썼는데, 몇 가지 면에서 놀랐습니다. 모든 Furry, Anime, 성인물 관련 자료를 제외하면 거의 Base XL 모델보다 기본적이고, LoRA 훈련으로 컨셉과 스타일 추가가 용이하지만 위치, 감정, 이상한 각도 등 훨씬 복잡한 것도 잘 압니다. 하지만 이건 완전히 다른 이야기입니다.

올해 얼마나 더 훈련할지 모르겠습니다. 중간중간 더 쉬운 것도 할지 모르고요. AI가 빠르게 변화하니 한 달이나 한 주 안에도 새로운 것이 나올 수 있습니다.

이전에 생성한 이미지와 동일한 시드와 모델로 테스트했습니다. 경우에 따라 변화가 미묘하거나 극명합니다 (공지를 읽으면 이유를 알 수 있음)
시연 이미지에서 더 많은 변형을 만들지 못해 죄송합니다. 이미지 준비가 LoRA 훈련보다 더 오래 걸리기도 하지만, 이 경우 크게 문제 되지 않을 듯합니다. 앞으로 자연스럽게 추가할 것입니다.

V1.0

완전히 검은색에 가까우며 희미한 실루엣만 있는 훈련 이미지를 AI가 어떻게 학습하는지 보기 위해 시도했습니다.

포토샵에서 데이터셋 준비가 거의 불가능했고, 거의 아무것도 보이지 않았기 때문입니다. 물론 각기 다른 모니터 설정 등이 있으므로 실제 이미지가 이렇게 어두웠는지는 확실하지 않지만, 제 눈에는 많은 부담이었습니다. 생성된 이미지를 봐도 훈련 이미지보다는 덜 어둡긴 하지만 꽤 어렵게 보입니다.

모델이 뭔가를 학습했다는 점에 놀랐습니다. 당분간 보류하겠지만 분명 이상한 결과를 만듭니다. 생성된 이미지를 ControlNet IP-Adapter에 넣으면 모든 것이 증폭되고 랜덤한 결과가 나옵니다.

생성 팁: