모델/아마추어 사진 촬영 [Flux Dev] - v2.0

아마추어 사진 촬영 [Flux Dev] - v2.0

김지훈 (Kim Ji-hoon)

7/19/2025

2:17:47 PM

| Discussion|

팁

프롬프트에 따라 Lora 가중치를 실험해 보아야 합니다; 권장 가중치는 버전에 따라 0.3-0.5에서 0.6-1까지 다양합니다.

사진 촬영 관련 상세 프롬프트가 모델 제어에 더 효과적입니다; photo, photograph, 카메라 종류나 날짜 같은 용어를 사용하세요.

손, 텍스트, 배경 인물, 피부 질감 문제 발생 시 Lora 가중치를 줄여 보세요.

설정이 허용한다면 1344x1728 같은 고해상도에서 바로 생성할 수도 있습니다.

데이터셋 캡션은 GPT4o로 작성되었으며, 상세한 캡션이 최상의 결과를 제공합니다.

버전 하이라이트

GPT4o 프롬프트:

저는 Stable Diffusion 텍스트-투-이미지 모델용 LoRA를 훈련할 예정입니다. 이 모델은 T5XXL 트랜스포머를 아키텍처로 사용합니다. 프롬프트는 자연어로 특정 형식을 따라야 합니다. 이미지를 업로드할 것이며, 해당 이미지 기반으로 상세한 프롬프트 작성을 도와 주십시오. 프롬프트는 "Amateur photography of"로 시작해서 "on flickr in 2007, 2005 blog, 2007 blog"로 끝나야 합니다. 항상 한 단락으로 프롬프트를 제공하세요.

형식은 다음과 같습니다:

대상 설명: 이미지에 있는 모든 사람을 세부적으로 묘사합니다. 인종과 민족, 신체 특징(키, 체형, 피부 톤, 머리 색 포함), 얼굴 특징, 복장, 표정이나 자세까지 구체적으로 설명하세요. 가능한 한 구체적으로 작성하세요. 대상의 체형(예: 플러스 사이즈, 슬림, 작은 체격 등)을 반드시 포함하세요.

장면 설명: 인물들이 사진에서 무엇을 하고 있는지 정확하게 전달하세요. 배경, 배경 요소, 상호작용하는 물건, 전체 환경(도시, 시골, 실내, 실외 등)도 묘사하세요.

이미지 품질 태그: 이미지 품질을 강조하는 설명 태그를 포함하세요. 약간의 모션 블러, 복잡한 배경, 따뜻한 톤, 밝은 자연광, 높은 대비, 선명한 색상 등 이미지의 분위기와 느낌을 반영하는 태그를 사용하세요.

최종 출력은 이 모든 요소를 결합하여 이미지에 정확하게 부합하는 상세한 프롬프트가 되어야 합니다.

안녕하세요 여러분, Lora USGR07FDW를 사용하기 전에 꼭 읽어주세요

권장 설정 (v6):

Distilled CFG 스케일: 3.5
샘플링 방법 및 스케줄 타입: DDIM과 함께하는 DEIS
스텝: 20
해상도: 896x1152
- hires fix 모델: 4x_NMKD-Superscale-SP_178000_G
- 스텝: 10
- 디노이즈: 0.3
- 업스케일 배율: 1.5
Lora 가중치: 0.8. 프롬프트에 따라 직접 실험해 보셔야 합니다

권장 설정 (v5-final):

Distilled CFG 스케일: 2.5에서 4 사이
샘플링 방법 및 스케줄 타입: BETA와 함께하는 Heun 또는 DDIM과 함께하는 DEIS 또는 [Forge] Flux Realistic (느림) + Beta / DDIM
스텝: 20 이상 (때로 20, 30, 35 또는 40 스텝을 사용합니다 - 이미지 수렴 시점을 확인해서 직접 실험하세요)
해상도: 896x1152 (이 해상도에서 작동하도록 확인했습니다. 고해상도에서 생성하라는 말에 불만인 분도 있어서요) - 하지만 hires fix 사용이 필수입니다. 아래는 예제 이미지 사용 시 설정값입니다
- hires fix: 4배 초고해상도, 디노이즈 0.4, 10 스텝 (저는 업스케일 전문가가 아닙니다. 다른 업스케일 방법이 있으면 사용 가능합니다)
- 가능하면 1344x1728 해상도로 직접 생성할 수도 있습니다
체크포인트: flux1-dev-Q8_0.gguf (Q8 버전을 사용합니다. FP8, Q4 등 다른 양자화 버전은 테스트하지 않았습니다)
Lora 가중치: 0.3-0.5, 프롬프트에 따라 실험하세요
포지티브 프롬프트: 별도의 트리거 단어는 필요 없지만 Flux를 유도하려면 사진 관련 용어(예: photo, photograph 등)를 사용해야 합니다. 다음 구문부터 시작할 수 있습니다. 훈련 데이터셋에 태그한 방식입니다
- 전신 사진
- 중간 거리 사진
- 셀카 사진
- 클로즈업 사진
- 또는 원하는 어떤 문구든 사용 가능합니다 (스텝, 가중치를 프롬프트에 맞게 조절하세요). 상세한 프롬프트가 가장 효과적입니다

문제점: 문제가 발생하면 가중치를 줄이세요
- 손
- 텍스트
- 배경 인물
- 피부 질감 - 완벽하지 않습니다. 저도 이 점이 마음에 들지 않아 개선 방법을 모색 중입니다

Buzz에게 팁을 준 모든 분들께 감사드립니다. 특별 감사:

plectrudecatastrophe
Paper_Cranes
congo2008

권장 설정 (v4-soap-testing 및 v5-beta):

Distilled CFG 스케일: 2.5에서 4 사이
샘플링 방법 및 스케줄 타입: BETA와 함께하는 Heun 또는 DDIM과 함께하는 DEIS 또는 [Forge] Flux Realistic (느림) + Beta / DDIM
스텝: 20 이상 (20, 30, 35, 40 스텝 사용. 이미지 수렴 시점 확인 필수)
해상도: 1344x1728 또는 1248x1824 또는 1440x1800. 896x1152도 가능하지만 hires fix 필요
체크포인트: flux1-dev-Q8_0.gguf (Q8 버전 사용, FP8, Q4 등은 테스트하지 않음)
Lora 가중치: 0.3-0.5가 적정
포지티브 프롬프트: 이 두 버전은 트리거 단어가 필요 없습니다. photo of, photograph of, Shot on iPhone photo of, This Image features 등 원하는 표현을 사용하세요 (다른 사용자의 다양한 예시 참고 가능). 테스트 결과 우측에 추가한 트리거 단어를 사용할 경우 매우 좋은 결과를 얻었습니다. 원하면 사용하세요. 데이터셋은 GPT4O로 캡션 처리되었으니 상세 프롬프트가 항상 최고의 결과를 냅니다

Buzz에게 팁을 주신 모든 분들께 다시 한 번 감사드립니다. 특별 감사:

kudzueye

권장 설정 (v3 및 v2):

Distilled CFG 스케일: 2.5에서 4 사이
샘플링 방법 및 스케줄 타입: BETA와 함께하는 Heun 또는 DDIM과 함께하는 DEIS 또는 [Forge] Flux Realistic (느림) + Beta / DDIM
스텝: 20 이상 (20, 30, 35, 40 스텝 사용. 이미지 수렴 시점을 확인하세요)
해상도: 896x1152, 1152x896 또는 1024x1024 (더 높은 해상도로도 생성 가능. Flux와 이 Lora 모두 지원)
체크포인트: flux1-dev-Q8_0.gguf (Q8 버전 사용, FP8, Q4 등은 테스트하지 않음)
Lora 가중치: 0.6-1
포지티브 프롬프트: 다른 프롬프트가 효과적이라면 사용하세요. 여기서는 제가 Lora를 테스트하는 방식을 강조합니다. 여러 이미지와 Reddit 게시글에서 다양한 프롬프트가 사용되는 걸 봤습니다
- 항상 "Amateur photography of"로 시작하고 "on flickr in 2007, 2005 blog, 2007 blog"로 끝내세요
  - 최고의 결과를 얻기 위한 프롬프트 형식 예: Amateur photography of <대상 설명>, <장면 설명>, <이미지 품질 태그>, on flickr in 2007, 2005 blog, 2007 blog