모델/SDXL / Flux.1 D - 매트 (반타)블랙 - 실험 - SDXL v1.0

SDXL / Flux.1 D - 매트 (반타)블랙 - 실험 - SDXL v1.0

김지훈 (Kim Ji-hoon)

7/13/2025

2:00:45 AM

| Discussion|

팁

Flux.1 D는 어두운 사진 같은 이미지를 생성하는 경향이 있으므로 색상이나 스타일을 추가하는 다른 LoRA와 혼합해 사용하는 것이 가장 좋습니다.

예측 불가능하고 실험적인 결과를 기대하세요—때때로 훈련 데이터를 1:1로 복사하거나 거의 순수한 검은색 이미지를 생성하기도 합니다.

이 모델은 16GB VRAM의 4060 TI 같은 중급 GPU에서 잘 작동하며 최신 4090이 꼭 필요하지는 않습니다.

ControlNet IP-Adapter는 생성된 이미지를 향상시키지만 무작위 효과가 나타날 수 있습니다.

명확하고 일관된 긍정적 또는 부정적 프롬프트가 권장되지 않으니 실험을 권장합니다.

Flux.1 D - V2.0

Flux에서 작동시키려는 마지막 시도... 여기서 작동시킨다는 건 가능한 한 많이 망가뜨린다는 뜻입니다. SDXL 버전과 똑같은 결과를 내지 않을 가능성이 큽니다. 6000 스텝 이후 관찰만으로도 명백했습니다. SDXL은 "알겠어, 학습하겠지만 나만의 스타일을 입힐 거야"라는 느낌이고, Flux는 모르는 것이나 내가 정확히 학습시키고 싶은 것에 대해 미친 듯이 싸우거나 보상하려고 합니다. 반면, 긴 훈련 후에는 훈련 데이터를 1:1로 복사하는 정도로 강력한 이미지를 생성하는데, 이 경우 거의 순수한 검은색이 나옵니다. Flux는 몇 스텝만으로도 사진처럼 이미지를 완벽하게 복제할 수 있습니다.

마지막 Flux 버전에서 말했듯, 주로 더 컬러풀하거나 특정 스타일이 있는 다른 LoRA와 섞어 사용하고 싶습니다.

SDXL v3.0과 같은 사진들이고 Flux 버전에는 추가된 사진도 꽤 많습니다(일부 가로형 사진 포함). 그러나 제가 올리거나 다른 사람이 올린 사진 중 80% 이상에 영향을 미친 3장을 제거했습니다. SDXL 버전에서는 그렇게 하려고 했지만 당시에는 하지 않기로 했습니다. 그 사진들이 너무 지배적이라 이상한 행동과 특정 이미지를 만드는 편향을 강하게 유발했기 때문입니다. v1.0 Flux 버전에서 이를 확인했고 이제는 없어졌습니다. 인기에는 다소 영향을 줄 수 있지만 신경 쓰지 않습니다.

많은 사람이 특정 LoRA를 단순히 자신의 '파이프라인'에 넣었기 때문에 사용하는 것 같아요. 경우에 따라 LoRA 없이 만든 이미지가 더 좋아 보이기도 하죠. 스타일 LoRA는 이미지 생성 시 명확한 스타일을 추가하기 때문에 다르지만, 이 모델은 모든 것을 악화시킬 수 있는 잠재력이 많아서 제가 올린 이미지를 편집하지 않고 있는 그대로 보여주는 이유입니다. 만약 촛불 같은 강한 빛이나 광원이 추가되면 Flux(및 일부 SDXL 모델)는 자체적으로 어두운 환경을 추가합니다. 왜냐하면 빛이 눈에 띄려면 반드시 어둠이 필요하기 때문입니다(맑은 날 자동차 전조등은 거의 효과가 없습니다).

그리고 NF4 또는 QQUFUF 버전 5.64.3255 K4 2 등에서 작동하는지 묻지 마세요. 파일 크기가 크지 않으니 직접 테스트해 보시면 됩니다. 일반 FP8/16 Dev 버전보다 메모리 사용량 감소나 약간의 속도 증가(또는 오히려 속도 감소)가 아닌 다른 이점이 없다면 그런 모델들과는 거리를 둘 생각입니다.

짧은 시간 내에 어떤 유형의 모델이 새 버전으로 자주 나오는 건 사용자에게 번거로울 수 있다는 걸 압니다. 이 모델은 더 이상 진행하지 않고, 저나 다른 누군가가 유용한 결과를 얻을 수 있는지 지켜볼 겁니다.

포토샵으로 이미지를 준비하는 데 드는 작업량도 가치 없다고 느낍니다. 특히 변화가 없다는 걸 알 때는 더 새롭거나 이상한, 흥미롭거나 무작위 효과를 내는 작업을 하는 편이 낫죠... 혹은 옛 모델들을 Flux 방식으로 바꿔 보는 것도요.

Flux.1 D - V1.0

Kohya 등과 조금 만져보다가, Flux에 대한 꽤 이상한 콘셉트의 LoRA들로 성공적인 테스트를 해서, 작동하는지 보기 위해 이 모델을 시도했습니다. 사실 Flux 버전을 만드는 게 주목적은 아니었습니다. Flux는 대부분 대비 효과가 뛰어나니까요. 주요 목표는 인공적이고 가짜 같은 느낌을 제거하는 것이었고, 그렇게 정의되지 않은 데이터셋이 도움이 될 거라고 생각했습니다. 그런데 가끔 도움이 되거나 오히려 더 악화시키기도 합니다.

SDXL 버전과 마찬가지로, 특히 많은 색을 더하는 다른 LoRA와 함께 사용하는 것이 더 적합합니다.

프롬프트나 이미지 준비가 좀 게을러 죄송합니다. V3.0에서 사용한 것과 거의 같지만, 일단 시연용으로는 충분합니다. 때때로 세부 사항을 없애거나 별로 흥미로운 걸 추가하지 않기도 합니다(예: 해파리 이미지나 앵무새).

대응하는 이미지에는 동일한 시드를 사용했습니다.
처음 두 이미지는 LoRA 사용 여부 순서로 되어 있고, 이후에는 반대로 되어 있습니다(때로 강도 차이가 있음).
일부는 트리거 단어가 포함되어 있지만, Flux에서는 꼭 필요하지 않다고 생각합니다.
기본 데이터셋은 V1.0 기준이고, 새 데이터셋은 아니며(너무 많은 이미지 사용을 피하기 위함)

Flux용으로 더 많은 LoRA를 만들지 확신할 수 없지만 꽤 많이 테스트할 예정입니다. 여러 버전이 혼재되어 지금은 혼란스러우며, 10시간 후에는 구식이 될 수 있는 것에 많은 시간을 투자할 가치가 있다고 느껴지지 않습니다.

참고로, 이 모델은 4060 TI(16GB)를 사용해 훈련했으며, VRAM 최대 사용량은 14.4~15.2GB, 3.95초/반복 - 5.15초/반복, 512x, 랭크 4. ... 4090이 꼭 필요한 건 아닙니다. 물론 4090이 더 빠르겠지만, 그냥 실행만 시켜놓고 다른 일을 하는 게 가능하다면 큰 문제는 아닙니다.

늘 그랬듯이, 여기저기 조금씩 사용하며 의미 있는 결과가 나오는지 확인할 겁니다. 아마도 호기심을 충족시키기 위한 용도일 가능성이 큽니다.

V.3.0

v2.0에서의 작은 실수 후에 이번에는 병합 없이 실제 제대로 된 버전임을 확인했습니다. 추가된 사진 수가 많아서 첫 버전에서 너무 멀어질까 걱정했지만 다행히 그렇지 않았습니다.

많은 사람이 이 LoRA를 유용하게 사용하고 많은 이미지를 만든 걸 보며 기쁩니다. 원래 지금 하는 역할을 의도하지 않았지만 다른 목적이나 다른 용도로도 사용될 수 있다는 게 좋네요 (모든 LoRA가 그런 것처럼).

당분간은 아마 마지막 버전이 될 것 같습니다. 사진을 더 추가한다고 해서 주요 효과가 바뀌지 않기 때문입니다. 대부분은 다양한 모델, LoRA 조합 및 프롬프트 사용에 의합니다.

더 많은 이미지를 실제로 만들어서 다양한 조합을 찾고(그리고 조금 쉬고), 이상한 LoRA를 새로 만들고, 오래된 것을 고치고 할 예정입니다. 또한 다른 사람들로부터 많은 자료를 받았지만 아직 거의 사용하지 못했습니다.

지금까지 올려주신 모든 이미지에 감사드리며, 앞으로도 더 많이 볼 수 있길 바랍니다. 빠르게 변하는 AI 분야에서 모든 LoRA는 수명이 있고, 화려함도 결국 끝나겠지만요 :)

V2.0

V2.0에 대한 작은 공지 (국가에 따라 02.04 혹은 04.02)

글쎄요, 제가 공식적으로 바보가 되었습니다.

또 다른 LoRA를 훈련시키기 시작했는데 2000 스텝 후에도 샘플 이미지에 아무 변화가 없어 매우 이상했습니다. 원인을 찾다가 LR 워밍업 설정을 제대로 바꾸지 않은 걸 발견했습니다. 보통 워밍업 스텝을 사용하지 않지만 이전에 4장 정도 이미지로 테스트할 때 어떤 효과가 있는지 확인하려고 사용했었습니다. 항상 100 에폭 설정을 사용하지만, 모델은 매 500 스텝마다 저장됩니다. 워밍업 비율은 32%였고, 4장 x 10 반복 x 100 에폭 = 4000 스텝 중 1280 스텝은 사실상 학습이 거의 안 되는 상태였습니다.

이번 LoRA는 같은 설정으로 60장(60 x 10 x 100 = 60000 스텝)에 32% 워밍업이 적용되었으니 19200 스텝은 워밍업이었고, 12000 스텝 이후에도 시작이 되지 않았습니다. 사실상 아무 것도 학습하지 않은 셈입니다. 이미지 자체 때문이라고 생각했는데 원인은 달랐네요. 잠들기 전까지 눈치채지 못했습니다.

네... 이 버전은 실패작이며 대부분은 V1.0과 병합한 영향입니다.

이번 주말에 직장 다녀온 후 올바른 설정으로 다시 훈련할 예정입니다.

정말 죄송합니다. 아마 의도치 않은 만우절 장난이었을지도 모르겠네요 :) .... :(

최근 많이 사용해서 사진 몇 장 더 추가했습니다. 새 LoRA를 한동안 업로드하지 않은 이유는 업무가 너무 많았고, 대부분 까다롭고 복잡한 주제들을 선택했기 때문입니다... 그 외에는 지루했을 테니까요.

또한 Pony를 분해하는 데 많은 시간을 쏟았는데 일부 면에서 놀랐습니다. 모든 Furry, 애니메이션, 일반적인 포르노 소재를 제외하면 거의 Base XL 모델보다 기본적입니다. LoRA 훈련을 통한 콘셉트와 스타일 추가에는 좋지만, 포지셔닝, 감정, 이상한 각도 등 훨씬 복잡한 부분도 알고 있습니다... 하지만 그것은 완전히 다른 이야기입니다.

올해 얼마나 더 훈련할 수 있을지는 모르겠습니다. 중간중간 쉬운 작업을 하겠지만 누가 알겠습니까. AI가 빨리 발전해서 한 달, 혹은 일주일 후에는 새로운 무언가가 나올지도 모르죠.

이전에 생성한 이미지와 같은 시드, 같은 모델을 테스트했습니다. 변화가 미묘한 경우도 있고 극단적인 경우도 있습니다 (이제 왜 그런지 압니다: 공지 참고)
시연 이미지에 변형을 더 만들지 못해 죄송합니다. 사진 준비가 LoRA 훈련보다 오래 걸리는데, 이번에는 크게 중요하지 않습니다. 더 많은 내용은 자연스럽게 이어질 것입니다.

V1.0

거의 완전한 검은색이고 희미한 형태만 있는 학습 이미지를 AI가 어떻게 인지하는지 알아보기 위해 일부러 도전했습니다.

포토샵에서 데이터셋 준비가 거의 불가능했습니다. 거의 아무것도 보이지 않았기 때문입니다. 물론 사람마다 모니터 설정이 달라 정확히 저처럼 어두웠는지는 알 수 없지만, 눈이 많이 피곤했습니다. 지금 생성된 이미지를 봐도 여전히 어둡긴 하지만, 학습 이미지보다는 덜합니다.

모델이 뭔가 배운 것에 제가 놀랐습니다. 당분간은 보류한 채 어떻게 할지 고민할 겁니다. 확실히 이상한 결과를 만듭니다. 생성한 이미지를 ControlNet IP-Adapter에 넣으면 모든 것이 강화되고 무작위 결과를 낳습니다.

생성 팁: