모델/ThinkDiffusionXL - v1.0

ThinkDiffusionXL - v1.0

5/26/2025

11:02:01 AM

팁

높은 세부사항과 품질이 필요한 프로젝트에는 TDXL 사용을 고려하세요. 이 모델은 이 부분에서 뛰어납니다.

이 모델은 고유의 편향 없이 다양한 스타일이나 주제의 이미지를 유연하게 생성할 수 있습니다.

만족하셨다면 리뷰를 남겨주세요. 이는 저희가 더 많은 모델을 만들고 개선하는 데 큰 도움이 됩니다.

ThinkDiffusionXL은 놀라운 포토리얼리즘을 구현할 수 있으면서도 다양한 스타일과 주제에서 고품질 이미지를 생성할 수 있는 범용 모델을 만들기 위한 우리의 목표의 결과입니다. 복잡한 프롬프트 없이도 사용할 수 있습니다.

만족하셨다면 리뷰를 남겨주세요. 이는 저희가 더 많은 모델을 만들고 개선하는 데 큰 도움이 됩니다.

데이터 출처: TDXL은 포토리얼리즘, 디지털 아트, 애니메이션 등 다양한 분야를 아우르는 10,000장 이상의 다양한 이미지로 학습되었습니다. 데이터셋 내 가장 작은 해상도는 1365x2048이며, 최대 해상도는 4622x6753에 이릅니다. 전체 데이터셋 용량은 42GB입니다.
학습: 180만 스텝을 거친 학습 결과입니다. 비교하자면 Juggernaut는 60만 스텝, RealVisXL은 34.8만 스텝입니다.
수작업 캡션 이미지: 각 이미지는 세심하게 수작업으로 캡션이 추가되어 최소한의 프롬프트로도 정확하고 고품질 결과를 생성하는 데 도움이 됩니다.
NSFW 기능: 1,000장 이상의 품위 있게 선별된 NSFW 이미지도 포함되어 있습니다.

세부사항과 품질: 대부분의 Realistic 카테고리의 XL 모델들은 배경이나 눈, 치아, 피부와 같은 기본 특징에서 디테일 부족 문제를 겪습니다. TDXL은 방대한 고품질 데이터셋 덕분에 이러한 부분에서 뛰어납니다. 비교하자면 Juggernaut는 이미지 양이 약 절반이며 RealVisXL은 1,700장에 불과합니다. 결국 TDXL은 훨씬 더 많은 "지식"을 가지고 있습니다.
편향 감소: 각 스타일, 성별 등에 대해 동등한 수의 이미지를 사용했습니다. 최근 테스트한 다른 모델들은 인물사진, 성별, 특정 민족성 등에 편향이 존재했습니다. 예를 들어 Juggernaut는 클로즈업 편향과 영화 같은 조명이 두드러지고, RealVisXL은 인물사진 편향이 있습니다. 반면 TDXL은 풍경, 미드샷, 풀바디, 클로즈업, 인물, 측면, 후면, 액션샷, 영화적 스타일 등 원하는 무엇이든 편향 없이 생성할 수 있습니다.
다재다능한 기본 모델: 방대한 균형 잡힌 품질 데이터셋 덕분에 TDXL은 향후 학습을 위한 기반 모델로 다양하게 활용할 수 있습니다. 완전히 다른 방향의 새로운 파인튜닝을 만들거나, 부족한 개념을 보완하는 LoRA를 추가하거나, 더 균형 잡힌 품질 데이터로 추가 학습을 진행할 수 있습니다.