극적인 스포트라이트 아래 키 높이 차트 앞에 서있는 주황색 부리를 가진 심술궂은 흰 오리, 검은 용의자 이름표를 들고 있음.
체적 조명과 젖어 반짝이는 표면이 있는 폭우 구름 아래 비 오는 초원에 서 있는 심술궂은 의인화된 브로콜리 캐릭터.
검은 레이스 드레스와 황금 왕관을 착용하고 체적 조명 속에서 생동감 넘치는 피어난 꽃들에 둘러싸인 푸른 눈과 흐르는 다채로운 머리카락을 가진 소녀.
광선이 빛나는 해골 얼굴을 가진 사이보그 게이샤 악마가 피투성이 붉은 갑옷과 황금 망토를 입고 한 무릎을 꿇은 채 신비로운 성의 정원에 있는 해골들에 둘러싸여 있음.
회색 머리와 한쪽 날개를 가진 천사가 펼쳐진 책 위로 몸을 숙이고 있으며, 머리 위에는 떨어지는 빨간 후광과 만화 스타일의 위협적인 아우라가 표현된 일러스트.
어두운 눈을 가린 야생의 헝클어진 머리, 피 묻은 입과 넓고 불길한 미소, 척추 장식 목걸이, 그리고 선화 스타일로 표현된 가시적인 골격 가슴이 클로즈업된 여윈 소녀 초상화.
연한 갈색 머리와 주근깨를 가진 애니메 소녀의 클로즈업 초상화로, 녹색 드레스와 요정 날개를 착용하고 있으며, 빛의 광선과 입자가 어우러진 부드럽고 세밀한 야간 배경에 둘러싸여 있습니다.
노란색 후드티와 줄무늬 양말을 입고 짧은 금발머리와 동그란 안경을 쓴 작은 소녀가 베개와 고사리에 둘러싸여 마룻바닥에 앉아 녹색 책을 읽고 있는 모습, 소박한 창문과 책장이 있는 아늑한 침실.
빛나는 효과가 있는 대비되는 배경을 배경으로 실루엣 처리된 파란색과 주황색 늑대의 생동감 넘치는 인상파 유화
생생한 조명과 복고 미래적 디테일이 가미된 첨단 우주선 복도 안에서 분홍색 군복과 빨간 부츠를 착용한 금발 애니메 스타일 소녀가 역동적인 전투 자세로 총을 겨누고 있습니다.
보랏빛 눈을 가진 젊은 여성이 어두운 조명 아래 고전적인 재즈 클럽 무대에서 빈티지 마이크로 열정적으로 노래하며, 따뜻한 볼류메트릭 조명과 배경의 악기들이 어우러진 모습.
파란 재킷, 빨간 격자무늬 치마, 파란 장갑을 낀 검은 중간 길이 머리에 노란 눈을 가진 애니 스타일 소녀가 부서진 창문이 있는 방 안에서 AR-15 소총을 쏘며 돈이 가득 찬 더플백을 들고 있음.

이 모델은 LoRA로 미세 조정한 체크포인트입니다.

훈련은 4,000개의 프롬프트로 10 에폭 동안 진행되었습니다.

Step-by-step Preference Optimization은 각 단계에서 세밀한 시각적 개선을 가능하게 하여 미학을 효과적으로 향상시킵니다.

Step-by-step Preference를 이용한 일반 선호도 기반 미학적 사후 훈련 확산 모델

Arxiv 논문

Github 코드

프로젝트 페이지

초록

시각적으로 매력적인 이미지를 생성하는 것은 현대 텍스트-이미지 생성 모델의 기본입니다. 미학을 개선하는 하나의 잠재적 해법은 직접 선호 최적화(DPO)로, 프롬프트 정렬 및 미학을 포함한 일반 이미지 품질을 향상시키기 위해 확산 모델에 적용되어 왔습니다. 대중적인 DPO 방법은 깨끗한 이미지 쌍에서 선호 라벨을 두 생성 경로 전반의 모든 중간 단계로 전파합니다. 그러나 기존 데이터셋의 선호 라벨은 레이아웃 및 미학적 의견과 혼합되어 미학적 선호와 일치하지 않을 수 있습니다. 설령 상당한 비용을 들여 미학 라벨이 제공되더라도 두 경로 방법은 다양한 단계에서 미묘한 시각적 차이를 포착하기 어렵습니다.

미학을 경제적으로 개선하기 위해 본 논문은 기존의 일반 선호 데이터를 사용하고 전파 전략을 폐기하여 세밀한 이미지 디테일 평가를 가능하게 하는 Step-by-step Preference Optimization(SPO)을 소개합니다. 구체적으로 각 노이즈 제거 단계에서, 1) 공유된 노이즈 잠재공간에서 후보군을 샘플링하고, 2) 단계 인지 선호 모델을 사용해 확산 모델을 감독할 적합한 승-패 쌍을 찾으며, 3) 다음 노이즈 제거 단계를 초기화할 후보를 무작위로 선택합니다. 이 전략은 확산 모델이 레이아웃 대신 미묘하고 세밀한 시각적 차이에 집중하도록 합니다. 이러한 개선된 미세 차이를 누적함으로써 미학이 크게 향상됨을 확인했습니다.

Stable Diffusion v1.5와 SDXL을 미세 조정할 때, SPO는 기존 DPO 방법보다 미학 면에서 상당한 향상을 이루면서도 일반 모델과 비교해 이미지-텍스트 정렬을 저해하지 않습니다. 또한 SPO는 세밀한 시각적 디테일의 단계별 정렬 덕분에 DPO 방법보다 훨씬 빠르게 수렴합니다. 코드 및 모델: https://rockeycoss.github.io/spo.github.io/

모델 설명

이 모델은 stable-diffusion-xl-base-1.0에서 미세 조정되었습니다. 4,000개의 프롬프트로 10 에폭 동안 훈련되었습니다. 이 체크포인트는 LoRA 체크포인트입니다. 자세한 정보는 여기를 방문해 주세요.

인용

본 작업이 유용하다면 별점과 인용을 부탁드립니다.

@article{liang2024step,
  title={Step-by-step Preference Optimization을 통한 일반 선호 기반 미학적 사후 훈련 확산 모델},
  author={Liang, Zhanhao and Yuan, Yuhui and Gu, Shuyang and Chen, Bohan and Hang, Tiankai and Cheng, Mingxi and Li, Ji and Zheng, Liang},
  journal={arXiv preprint arXiv:2406.04314},
  year={2024}
}
이전
RealCartoon-XL - V7
다음
Artsy Vibe - v1 - FP8

모델 세부사항

모델 유형

LORA

기본 모델

SDXL 1.0

모델 버전

v1.0

모델 해시

b6c2c16f3e

제작자

토론

댓글을 남기려면 log in하세요.

모델 컬렉션 - SPO-SDXL_4k-p_10ep_LoRA_webui

SPO-SDXL_4k-p_10ep_LoRA_webui - v1.0 제작 이미지

기본 모델 이미지