모델/RouWei - v0.8.0 vpred

RouWei - v0.8.0 vpred

김지훈 (Kim Ji-hoon)

10/16/2025

1:09:53 AM

| Discussion

팁

아티스트/스타일 태그는 별도의 CLIP 청크에 있거나 프롬프트 끝에 BREAK 토큰과 함께 위치해야 최상의 프롬프트 준수를 보입니다.

품질 태그는 'masterpiece'와 'best quality' (긍정용), 'low quality'와 'worst quality' (부정용) 4가지만 사용하세요.

'lowres' 같은 메타데이터 태그는 삭제되어 결과에 영향이 없으니 피하세요.

vpred 버전은 낮은 CFG 값(3~5)을 사용하세요.

밝기, 대비, 색상 관련 메타 태그(예: 'low brightness', 'high saturation')는 출력 품질을 높이며 epsilon과 vpred 버전 모두에서 작동합니다.

자연어와 부루 태그를 조합하여 프롬프트를 짧고 명확하게 유지하면 최상의 결과를 얻을 수 있습니다.

여러 아티스트 스타일을 프롬프트 가중치 및 마법(spells)과 함께 조합할 수 있습니다.

버전 하이라이트

v0.8용 vpred

크리에이터 스폰서

Huggingface 저장소를 통해 모델 및 저자를 지원하고, 디스코드 서버에 참여하세요. BTC, ETH/USDT, XMR 또는 GPU 시간(A100 이상)으로 기부를 환영합니다. 자세한 내용은 페이지를 확인하세요.

최고의 프롬프트 준수, 지식 및 최첨단 성능 달성을 위한 Illustrious 심층 재학습.

큰 꿈은 이루어진다

버전 번호는 현재 최종 릴리즈의 지표일 뿐이며, 계획된 훈련 분수가 아닙니다.

HF 저장소

약 1300만 장(약 400만 장은 자연어 캡션 포함)의 데이터셋을 이용한 GPU 클러스터 대규모 파인튜닝

캐릭터, 개념, 스타일, 문화 및 관련 사항에 대한 신선하고 방대한 지식 확보
출시 시점 SDXL 애니메이션 모델 중 최고의 프롬프트 준수
Illustrious, NoobAi 및 기타 체크포인트에서 흔히 발생하는 태그 번짐과 편향 문제 해결
광범위한 스타일에 걸친 탁월한 미학 및 지식 (5만 명 이상의 아티스트 (예시) 포함), 아티스트로부터 직접 제공받은 사설 갤러리의 수백 개 독점 데이터셋 포함
안정성 저하 없이 높은 유연성과 다양성
깨끗한 데이터셋 덕분에 인기 스타일의 거슬리는 워터마크 제거
번짐 없는 생생한 컬러와 부드러운 그라데이션, epsilon 버전에서도 전체 색상 범위 지원
Illustrious v0.1에서 순수하게 학습되었으며, 제3자 체크포인트, 로라, 트위커 등 미사용

이전 버전과 비교한 일부 문제 및 변경사항이 있으니 매뉴얼을 꼭 읽어주세요.

데이터셋 컷오프 - 2025년 4월 말.

특징 및 프롬프트 사용법:

중요 변경사항:

아티스트 스타일 프롬프트 작성 시, 특히 여러 스타일을 혼합하는 경우 스타일 태그는 반드시 별도의 CLIP 청크에 있어야 합니다. A1111 및 그 파생버전에서는 그 후에 BREAK를 추가하거나, Comfy에서는 컨디셔닝 concat 노드를 사용하거나 최소한 프롬프트 맨 끝에 배치해야 합니다. 그렇지 않으면 결과가 크게 저하될 수 있습니다.

기본 사항:

체크포인트는 짧고 단순한 프롬프트와 길고 복잡한 프롬프트 모두에서 작동합니다. 그러나 모순되거나 이상한 내용이 있으면, 다른 모델과 달리 출력에 영향을 미치며 무시되지 않습니다. 가이드 레일이나 보호장치가 없고, 기능 제한도 없습니다.

보고 싶은 내용을 프롬프트에 넣고, 그림에 있어서는 안 되는 내용은 명시하지 마세요. 예를 들어 위에서 바라보는 시점을 원하면 천장 관련 내용을 긍정 프롬프트에 넣지 말고, 프레임 밖으로 머리가 나오는 크롭뷰를 원할 경우 캐릭터 얼굴 특징을 세밀하게 묘사하지 마세요. 간단하지만 종종 사람들이 놓칩니다.

버전 0.8에는 자연어 프롬프트에 대한 고급 이해 기능이 추가되었습니다. 이 기능 사용이 의무는 아닙니다, 태그만 사용하는 것도 완전 괜찮으며 태그 조합 이해도 향상되었습니다.

T5나 LLM 텍스트 인코더 기반 Flux 등 다른 모델들과 같은 성능을 기대하지 마세요. SDXL 체크포인트 전체 크기는 단일 텍스트 인코더 크기보다 작으며, 기반이 되는 illustrious-v0.1은 vanilla sdxl-base의 일반 지식을 많이 잊었습니다.

그럼에도 현재 상태에서 훨씬 나은 작동을 하며, 외부 가이드 없이는 불가능한 새로운 작업이 가능하고 수동 편집, 인페인팅도 더 편리합니다.

최적 성능을 위해 CLIP 청크를 잘 관리해야 합니다. SDXL에서는 프롬프트가 75개 토큰(시작·끝 토큰 포함 77개) 단위로 CLIP에 별도로 처리되고, 이후 결합되어 unet에 조건으로 전달됩니다.

캐릭터/객체의 특정 속성을 다른 프롬프트 부분과 구분하려면 같은 청크에 넣고 선택적으로 BREAK로 구분하세요. 이로써 속성 혼합 문제를 완전히 해결하지는 못하지만 전체 이해도를 향상시켜 줍니다. RouWei의 텍스트 인코더는 전체 시퀀스를 처리하는 능력이 경쟁 모델보다 우수합니다.

데이터셋은 부루 스타일 태그와 자연어 표현만 포함합니다. 펑크족, 실사, 서양 미디어 등 일부 포함되었으나, 모든 캡션은 다양한 시스템 혼동 문제를 피하기 위해 전통적인 부루 스타일로 변환되었습니다. 따라서 e621 태그는 제대로 인식되지 않습니다.

샘플링 파라미터:

txt2img용 약 100만 화소, 32 배수 해상도 지원 (1024x1024, 1056x..., 1152x..., 1216x832 등). Euler_a, 20~28 스텝 권장.
epsilon 버전 CFG: 4~9 (7 최적), vpred 버전 CFG: 3~5
시그마 배수 사용으로 결과 향상 가능, CFG++ 샘플러 정상 작동. LCM/PCM/DMD 및 특이 샘플러 미검증.
일부 스케줄러는 잘 작동하지 않습니다.
Highresfix - 잠재공간 x1.5, 노이즈 제거 0.6 또는 GAN + 0.3~0.55
vpred 버전 사용 시 낮은 CFG(3~5)가 필수입니다!

vpred 버전은 CFG를 3~5로 낮게 설정해야 합니다!

품질 분류:

4가지 품질 태그만 사용:

masterpiece, best quality

긍정 프롬프트용

low quality, worst quality

부정 프롬프트용

이 외에는 필요 없습니다. 심지어 긍정 태그는 생략하고 부정만 low quality로 줄여도 기본 스타일과 구도에 영향이 있습니다.

lowres 같은 메타 태그는 삭제되어 작동하지 않으니 사용하지 않는 게 좋습니다. 저해상도 이미지는 중요도에 따라 제거되거나 DAT로 업스케일 및 정리되었습니다.

부정 프롬프트:

worst quality, low quality, watermark

이것으로 충분하며, "rusty trombone", "farting on prey" 등 불필요한 태그는 넣지 마세요. 회색조, 단색 태그는 사용법을 잘 모르면 부정 프롬프트에 넣지 마세요. 밝기/색상/대비 관련 아래 메타 태그들을 추가로 활용할 수 있습니다.

아티스트 스타일:

예시 그리드, 리스트/와일드카드 (‘training data’에서 찾을 수도 있습니다).

"by "와 함께 사용해야 하며 필수입니다. 없으면 제대로 작동하지 않습니다.

"by "는 비슷하거나 가까운 이름의 태그/캐릭터와 혼동 방지를 위한 스타일 메타 토큰입니다. 이를 통해 스타일 결과가 더 좋아지고, 다른 체크포인트에서 볼 수 있는 무작위 스타일 변동을 방지합니다.

여러 개 조합 시 매우 흥미로운 결과가 나오며, 프롬프트 가중치와 마법(spells)으로 제어할 수 있습니다.

A1111 사용자는 아티스트/스타일 태그 뒤에 반드시 `BREAK`를 넣고, Comfy 사용자는 컨디셔닝 결합을 하거나, 프롬프트 끝에 배치해야 합니다.

예시:

by kantoku, by wlop, best quality, masterpiece BREAK 1girl, ...

일반 스타일:

2.5d, anime screencap, bold line, sketch, cgi, digital painting, flat colors, smooth shading, minimalistic, ink style, oil style, pastel style

부루 태그 스타일:

1950s (style), 1960s (style), 1970s (style), 1980s (style), 1990s (style), 2000s (style), animification, art nouveau, pinup (style), toon (style), western comics (style), nihonga, shikishi, minimalism, fine art parody

이 그룹 내 모든 항목 포함.

아티스트와 함께 가중치 조합하여 긍정 및 부정 프롬프트에 모두 사용할 수 있습니다.

캐릭터:

정확한 부루 태그와 형식 사용 예: karin_(blue_archive) → karin \(blue archive\), 재현력 개선을 위해 스킨 태그 사용 가능: karin \(bunny\) \(blue archive\). 자동완성 확장 기능 매우 유용.

대부분 캐릭터는 부루 태그만으로 인식되지만, 기본 특징을 묘사하면 더 정확해집니다. 프롬프트만으로 와이푸/허스벤도를 손쉽게 환복시킬 수 있으며, 기본 특징 누수 문제를 피할 수 있습니다.

자연어:

부루 태그와 함께 사용하면 매우 효과적입니다. 스타일 및 품질 태그 입력 후 자연어만 사용하세요. 부루 태그만 써도 되고 선택은 자유입니다. 최적 성능을 위해 CLIP 75 토큰 청크를 관리하세요.

데이터셋 내 약 400만 장의 이미지는 Claude, GPT, Gemini, ToriiGate가 만든 하이브리드 자연어 캡션을 포함하며, 이후 정비 및 증강을 위해 태그와 다양한 조합으로 통합되었습니다.

일반 캡션과 달리 캐릭터 이름이 포함되어 매우 유용합니다. 깔끔하고 짧으며 간결한 설명이 가장 좋으며, 다음과 같은 긴 문장은 사용하지 않는 것이 좋습니다:

신비롭게 매혹적인 젊은 여성 실체로, 수천 개의 별빛을 품은 신성한 얼굴을 지니며, 고대 신화의 황금 강물처럼 흘러내리는 머리카락을 현대 패션 스타일로 연출했을지도 모른다. 눈은 수천 년 지혜를 담은 깊고 다양한 색채지만 순수하고 시간의 제약을 초월한 품성을 지닌다...

캡션용으로는 ToriiGate의 단축 모드를 사용할 수 있습니다.

Flux 등 다른 모델만큼 완벽할 것으로 기대하지 말고, 여러 시도 후 원하는 결과를 얻을 수 있지만 다소 불안정하고 세부 묘사가 부족할 수 있음을 염두에 두세요.

맞아요

꼬리 검열, 자신의 꼬리 잡기, 자신의 꼬리 안기, 다른 이의 꼬리 잡기, 꼬리 붙잡기, 꼬리 들기, 꼬리 내리기, 귀 내리기, 자신의 귀 만지기, 꼬리로 다리 감기, 꼬리로 음경 감기, 꼬리 놀이, 옷 사이로 꼬리, 옷 아래 꼬리, 꼬리에 들리기, 꼬리 물기, 꼬리 삽입(질/항문 명시 포함), 꼬리 자위, 꼬리로 잡기, 꼬리에 팬티, 꼬리에 브라, 꼬리 집중, 자신의 꼬리 내보이기...

(부루 의미이며 e621 아님) 및 자연어로 표현되는 다수 개념 포함. 대부분 완벽히 작동하며, 일부는 여러 시도가 필요합니다.

밝기/색상/대비:

추가 메타 태그로 제어 가능:

낮은 밝기, 높은 밝기, 낮은 채도, 높은 채도, 낮은 감마, 높은 감마, 선명한 색상, 부드러운 색상, HDR, SDR

예시

epsilon 및 vpred 버전 모두에서 잘 작동합니다.

epsilon 버전은 이에 지나치게 의존합니다. 낮은 밝기 또는 낮은 감마, 범위 제한(부정 프롬프트)이 없으면 진정한 0,0,0 검은색 표현이 어려울 수 있으며 흰색도 마찬가지입니다.

두 버전 모두 사실상 zsnr과 전체 색상 및 밝기 범위를 지원하며 일반적인 결함 없이 작동하지만 성격은 다르니 직접 시도해 보세요.

vpred 버전

가장 중요한 점은 CFG를 7에서 5 이하로 낮춰야 한다는 것입니다. 그렇지 않으면 사용법은 거의 동일하며 장점이 있습니다.

v0.7부터 vpred가 완벽하게 작동하는 것으로 보입니다. nai처럼 75토큰 청크 경계 인근 태그 무시 문제가 없습니다. 과다 노출된 이미지를 얻기 어려우며, 보통 cfg7에서 과포화되지만 부드러운 그라데이션이 있으며 일부 스타일에 유용합니다. (0,0,0)에서 (255,255,255)까지 표현 가능합니다. 위 밝기 메타 태그가 더 쉬운 프롬프트 작성을 위해 매우 유용하며 자연어 표현도 작동합니다. 가장 어두운 이미지를 얻으려면 high brightness를 부정 프롬프트에 넣거나 low brightness, low gamma를 사용하세요. 어두운 배경에 너무 밝은 피부가 싫거나 대비를 줄이거나 반대로 효과를 강화하려면 부정/긍정에 각각 hdr/sdr을 사용하세요.

일부 희귀 프롬프트에서 대비 저하가 보고되었으며, 다른 vpred 모델도 유사한 현상을 보입니다. 75 토큰 청크 경계 근처에 "구분자"를 추가하면 해결됩니다. 다만 v0.7에서는 직접 경험하지 못했습니다.

vpred 버전을 실행하려면 A1111 개발 빌드, Comfy(특수 로더 노드 포함), Forge 또는 Reforge가 필요합니다. 동일한 파라미터(Euler a, CFG 3~5, 20~28 스텝)를 사용하세요. Cfg rescale은 필요 없지만 시도 가능하며, CFG++는 잘 작동합니다.

베이스 모델:

이 모델은 기본 훈련 이후 미세한 세부사항 향상을 위해 소규모 unet 폴리싱을 거쳤으며, 해상도 향상 등도 포함합니다. 복잡한 프롬프트에서 소소한 실수가 있지만 더 나은 성능을 낼 수 있는 RouWei-Base 모델도 관심을 가질 만합니다. FP32 버전도 있어 Comfy의 fp32 텍스트 인코더 노드 사용, 병합 또는 파인튜닝에 적합합니다.

Huggingface 저장소에서 찾을 수 있습니다.

알려진 문제:

물론 있습니다:

아티스트 및 스타일 태그는 메인 프롬프트와 다른 청크에 배치하거나 마지막에 위치해야 합니다.
희귀한 경우 위치 또는 조합 편향이 발생할 수 있으나 아직 명확하지 않습니다.
일부 일반 스타일에 대한 불만이 있습니다.
epsilon 버전은 밝기 메타 태그에 지나치게 의존하므로 원하는 밝기 변화를 얻기 위해 사용할 필요가 있습니다.
최근 추가된 스타일/캐릭터는 기대한 만큼 우수하지 않을 수 있습니다.
추가 발견 중

향후 모델을 위한 아티스트/캐릭터 요청을 받습니다. 성능이 낮거나 부정확하거나 강력한 워터마크가 있는 아티스트/캐릭터/컨셉을 발견하면 꼭 알려주세요. 명확히 추가하겠습니다. 새로운 버전을 위해 팔로우하세요.

디스코드 서버 참여하기

라이선스:

Illustrious와 동일합니다. 병합, 파인튜닝 등에 자유롭게 사용 가능하지만, 링크나 출처 명시는 필수입니다.

제작 과정

나중에 보고서나 유사한 내용을 작성할 예정입니다. 확실히.

요약하면, 98%가 데이터셋 준비에 관련된 작업입니다. nai 논문 기반 태그 빈도 손실 가중치에 맹목적 의존 대신, 맞춤형 가이드 손실 가중치 구현과 비동기 콜레이터를 통한 밸런싱을 사용했습니다. Epsilon 예측을 포함한 Ztsnr를 노이즈 스케줄러 증강으로 달성했습니다.

사용한 연산량 - 8000시간 이상의 H100 (연구 및 실패 시도 제외)

감사:

무엇보다도 오픈 소스를 지원하고 코드 개발 및 개선에 기여하는 모든 분들께 감사드립니다. Illustrious 모델을 공개해주신 저자분들, 대규모 오픈 파인튜닝의 선구자인 NoobAI 팀, 경험 공유와 문제 해결에 힘써주신 모든 분들께 고마움을 전합니다.

개인적으로:

개인작품을 공유해주신 익명 아티스트들; 익명의 여러 후원자 분들 - 기부, 코드, 캡션 등; Soviet Cat - GPU 후원; Sv1. - LLM 접근, 캡션 제작, 코드; K. - 훈련 코드; Bakariso - 데이터셋, 테스트, 조언; NeuroSenko - 기부, 테스트, 코드; LOL2024 - 다수 독점 데이터셋; T.,[] - 데이터셋, 테스트, 조언; rred, dga, Fi., ello - 기부; TekeshiX - 데이터셋 등 많은 동료들께 사랑과 감사 ❤️.

피드백과 요청을 해주신 모든 분들도 대단히 귀중합니다.

누락된 분이 있다면 알려주세요.