RouWei - v0.8.0 엡실론
추천 프롬프트
masterpiece
추천 네거티브 프롬프트
worst quality,low quality,watermark
worst quality, low quality, watermark
추천 매개변수
samplers
steps
cfg
resolution
vae
추천 고해상도 매개변수
upscaler
upscale
steps
denoising strength
팁
아티스트 스타일 프롬프트 시 해당 태그는 반드시 별도의 CLIP 청크에 넣으세요—A1111과 변형에는 BREAK 추가, Comfy에는 conditioning concat 노드 사용, 또는 프롬프트 맨 끝에 배치하여 품질 저하를 방지하세요.
보고 싶은 것을 프롬프트하고 원하지 않는 요소는 피하세요; 모델은 모순되고 복잡한 프롬프트도 가이드레일이나 안전장치 없이 잘 처리합니다.
품질 태그는 긍정 "masterpiece, best quality"와 부정 "low quality, worst quality" 네 가지만 사용하세요; "lowres" 같은 메타 태그는 제거되고 쓸모없습니다.
최적 밝기와 색상 제어 위해 low/high brightness, saturation, gamma, sharp/soft colors, hdr, sdr 등의 메타 태그를 활용하세요.
vpred 버전은 CFG를 3~5로 낮추고 동일 샘플링 파라미터를 사용하세요; 부드러운 그라데이션과 전체 색상 범위를 구현합니다.
캐릭터는 정확한 전체 이름 부루 태그와 적절한 포맷을 사용해 정확도를 높이세요.
긴 자연어 프롬프트는 피하고, 짧고 깔끔한 설명이 자연어 입력에 가장 효과적입니다.
버전 하이라이트
주요 업데이트
크리에이터 스폰서
최고의 프롬프트 준수, 지식 및 최신 성능 달성을 위한 Illustrious의 심층 재학습
큰 꿈이 이루어집니다
버전 번호는 계획된 훈련 중 현재 최종 릴리스의 단순한 인덱스일 뿐입니다.
약 1300만 장(약 400만 장은 자연어 캡션 포함)의 데이터셋으로 GPU 클러스터를 이용한 대규모 파인튜닝
캐릭터, 개념, 스타일, 문화 및 관련 사항에 관한 신선하고 방대한 지식
출시 시점의 SDXL 애니메이션 모델 중 최고 수준의 프롬프트 준수
Illustrious, NoobAi 및 기타 체크포인트에 흔한 태그 혼선과 편향 문제를 해결
폭넓은 스타일에 걸친 뛰어난 미학과 지식 (5만 명 이상의 아티스트 (예시), 아티스트가 직접 제공한 개인 갤러리 데이터셋 수백 개 포함)
안정성 저하 없이 높은 유연성과 다양성
깨끗한 데이터셋 덕분에 인기 스타일에서 더 이상 성가신 워터마크 없음
엡실론 버전도 포함하여 태우기 흔적 없는 생생한 색상과 부드러운 그라데이션, 전체 범위 지원
타사 체크포인트, 로라, 튜이커 등을 사용하지 않은 순수 Illustrious v0.1 기반 훈련
이전 버전과 비교한 문제 및 변경점이 있으니 매뉴얼을 참고하세요.
데이터셋 컷오프 - 2025년 4월 말.
기능 및 프롬프트 안내:
중요 변경 사항:
특히 여러 아티스트 스타일을 혼합할 때는 해당 태그를 반드시 별도의 CLIP 청크에 넣어야 합니다. A1111 및 그 파생 버전에서는 BREAK를 추가하고, Comfy에서는 conditioning concat 노드를 사용하거나 최소한 맨 끝에 놓으세요. 그렇지 않으면 결과 품질이 크게 저하될 수 있습니다.
기본 사항:
체크포인트는 짧고 단순한 프롬프트와 길고 복잡한 프롬프트 모두 작동합니다. 그러나 모순되거나 이상한 내용이 있어도 다른 모델과 달리 무시되지 않고 출력에 영향을 줍니다. 가이드레일이나 안전장치가 없습니다.
보고 싶은 것을 프롬프트하고 원하지 않는 것은 프롬프트하지 마세요. 위에서 본 풍경을 원한다면 천장을 넣지 말고, 머리가 프레임 밖에 있는 크롭 뷰를 원하면 캐릭터 얼굴 특징을 상세히 설명하지 않는 식입니다. 간단하지만 사람들이 종종 놓치는 부분입니다.
버전 0.8은 자연어 프롬프트 해석 능력이 향상되었습니다. 하지만 반드시 사용해야 하는 것은 아닙니다. 태그만 써도 괜찮으며, 태그 조합에 대한 이해도 개선되었습니다.
Flux나 T5, LLM 기반 텍스트 인코더 모델처럼 작동하지는 않습니다. SDXL 체크포인트 전체 크기가 해당 텍스트 인코더 크기에도 미치지 않고, 기반인 illustrious-v0.1은 vanilla sdxl-base의 많은 기본 요소를 잊었습니다.
그러나 현재 상태만으로도 훨씬 나은 작동과 외부 가이드 없이 불가능했던 새로운 기능 수행, 수동 편집, 인페인팅 등이 더 편리해졌습니다.
최고 성능을 위해서는 CLIP 청크 관리가 중요합니다. SDXL은 프롬프트를 75토큰(시작 및 종료 포함 77토큰) 청크로 나누어 CLIP이 개별 처리 후 결합해 unet 조건으로 전달합니다.
캐릭터/객체의 특정 특징을 지정해 다른 부분과 분리하려면 같은 청크에 넣고 선택적으로 BREAK로 구분하세요. 이는 특성 혼합 문제를 완전히 해결하지는 않지만 전체 이해를 높여 성능 개선에 도움이 됩니다. RouWei의 텍스트 인코더는 전체 시퀀스를 처리할 수 있어 타 모델보다 개념 단위 처리에 우수합니다.
데이터셋은 부루 스타일 태그와 자연어 표현만 포함합니다. 퍼리, 실사, 서양 미디어 등이 일부 포함되었으나 모든 캡션은 다양한 시스템 혼합 문제를 피하기 위해 클래식 부루 스타일로 변환되었습니다. e621 태그는 제대로 인식되지 않습니다.
샘플링 파라미터:
txt2img는 약 100만 픽셀, 해상도는 32의 배수면 가능 (예: 1024x1024, 1056x, 1152x, 1216x832 등). Euler_a, 20~28 스텝 권장.
엡실론 버전의 CFG는 4~9(7 권장), vpred 버전은 3~5 권장.
시그마 배수 조절로 약간의 결과 개선 가능, CFG++ 샘플러 정상 작동. LCM/PCM/DMD 등 이국적 샘플러는 미검증.
몇몇 스케줄러는 제대로 작동하지 않을 수 있습니다.
Highresfix - 잠복 벡터 x1.5 및 디노이즈 0.6, 또는 GAN + 디노이즈 0.3~0.55.
vpred 버전은 낮은 CFG 3~5가 필요합니다!
vpred 버전은 낮은 CFG 3~5가 필요합니다!
품질 분류:
긍정 태그는 단 4개만 허용됩니다:
masterpiece, best quality부정 태그는
low quality, worst quality이 전부입니다.
사실 긍정 태그를 생략하고 부정 태그를 low quality만 사용하는 것도 가능하며, 이는 기본 스타일과 구도에 영향을 줍니다.
lowres 같은 메타 태그는 제거되어 효과 없으니 사용하지 않는 것이 좋습니다. 저해상도 이미지는 중요도에 따라 삭제되거나 DAT으로 업스케일 및 정리되었습니다.
네거티브 프롬프트:
worst quality, low quality, watermark이 세 가지만으로 충분하며, "rusty trombone", "farting on prey" 같은 태그는 필요 없습니다. 그레이스케일, 모노크롬 등의 태그는 사용법을 잘 알지 못하면 네거티브에 넣지 마세요. 아래 밝기/색상/대비 메타 태그를 추가로 활용할 수 있습니다.
아티스트 스타일:
예시 그리드, 목록/와일드카드 ("훈련 데이터"에서도 확인 가능)
"by "와 함께 사용해야 하며 필수입니다. 이것 없이는 제대로 작동하지 않습니다.
"by "는 스타일 구분과 태그/캐릭터 이름 혼동 방지를 위한 메타 토큰입니다. 이를 통해 스타일 결과가 개선되고 다른 체크포인트에서 발생하는 임의 스타일 변동을 줄일 수 있습니다.
복수 사용 시 매우 흥미로운 결과를 낼 수 있으며 프롬프트 가중치와 마법으로 제어 가능합니다.
아티스트/스타일 태그 뒤에 반드시 BREAK 추가 (A1111용), 또는 concat conditioning (Comfy용), 또는 프롬프트 맨 뒤에 배치해야 합니다.
예시:
by kantoku, by wlop, best quality, masterpiece BREAK 1girl, ...일반 스타일:
2.5d, 애니메이션 스크린샷, 굵은 선, 스케치, CGI, 디지털 페인팅, 플랫 컬러, 부드러운 음영, 미니멀리즘, 잉크 스타일, 오일 스타일, 파스텔 스타일부루 태그 스타일:
1950년대 스타일, 1960년대 스타일, 1970년대 스타일, 1980년대 스타일, 1990년대 스타일, 2000년대 스타일, 애니메이션화, 아르 누보, 핀업 스타일, 만화 스타일, 서양 만화 스타일, 니홍가, 시키시, 미니멀리즘, 파인 아트 패러디및 이 그룹의 모든 스타일.
태그 및 아티스트와 조합해 가중치 활용 가능하며, 긍정·부정 프롬프트 모두 적용됩니다.
캐릭터:
정확한 이름의 부루 태그 및 적절한 포맷 사용 (예: karin_(blue_archive) → karin \(blue archive\)). 재현도를 높이기 위해 스킨 태그도 활용 가능 (예: karin \(bunny\) \(blue archive\)). 자동완성 확장 프로그램이 유용합니다.
대부분 캐릭터는 부루 태그만으로 인식되지만 기본 특성 설명이 정확도를 높입니다. 프롬프트로 쉽게 와이푸/허스번도를 다시 옷 입힐 수 있으며, 기본 특징 누출 걱정이 줄어듭니다.
자연어 텍스트:
부루 태그와 조합해 사용하면 좋으며 매우 효과적입니다. 스타일과 품질 태그 입력 후 자연어만 사용해도 됩니다. 부루 태그만 써도 되며 선택 사항입니다. 최고의 성능을 위해 CLIP 75토큰 청크 관리를 권장합니다.
데이터셋의 약 400만 장은 Claude, GPT, Gemini, ToriiGate 등이 생성한 하이브리드 자연어 캡션을 포함하며, 정제 및 태그와 다양한 조합으로 증강되었습니다.
일반 캡션과 달리 캐릭터 이름 포함이 매우 유용하며, 간단하고 짧은 설명이 가장 효과적입니다. 다음과 같은 길고 난해한 문장은 피하세요:
A mysteriously enchanting feminine entity of indeterminate yet youthful essence, whose celestial visage radiates with the ethereal luminescence of a thousand dying stars, blessed with locks cascading like the golden rivers of ancient mythology, perhaps styled in a manner reminiscent of contemporary fashion trends though not necessarily adhering to any specific aesthetic paradigm. Her eyes, pools of unfathomable depth and hue, sparkle with the wisdom of millennia yet maintain an innocent quality that defies temporal constraints...캡션 생성은 ToriiGate의 단축 모드를 추천합니다.
Flux 등과 같은 고성능 수준은 아니며, 여러 시도 후 원하는 결과를 얻을 수 있으나 안정성과 세밀도가 다소 부족할 수 있습니다.
꼬리/귀 관련 개념 다수 포함:
맞습니다
tail censor, 자기 꼬리 잡기, 자기 꼬리 안기, 다른 사람 꼬리 잡기, 꼬리 잡기, 꼬리 들기, 꼬리 내리기, 귀 내리기, 자기 귀 만지기, 꼬리로 다리 감기, 꼬리로 음경 감기, 꼬리 작업, 옷 위로 꼬리, 옷 아래 꼬리, 꼬리 들기, 꼬리 물기, 꼬리 관통 (질/항문 구분 포함), 꼬리 자위, 꼬리로 잡기, 꼬리에 팬티, 꼬리에 브래지어, 꼬리 집중, 꼬리 보여주기...(부루 의미, e621 아님) 및 자연어도 다수 포함. 대부분 완벽하게 작동하며, 일부는 시도 횟수가 필요합니다.
밝기/색상/대비:
여러 보조 메타 태그로 제어 가능합니다:
low brightness, high brightness, low saturation, high saturation, low gamma, high gamma, sharp colors, soft colors, hdr, sdr엡실론과 vpred 버전 모두 효과적으로 작동합니다.
엡실론 버전은 메타 태그에 지나치게 의존하므로, 밝기/감마 저조정 등 없으면 진정한 0,0,0 검정색 구현이 어려울 수 있으며, 흰색 쪽도 마찬가지입니다.
두 버전 모두 진짜 zsnr, 색상 및 밝기의 전체 범위를 갖추었으며 일반적 흠집 없이 작동하지만 동작 방식은 다릅니다. 직접 시도해 보세요.
vpred 버전
주요 팁은 CFG를 7에서 5 이하로 낮추세요. 이외에는 사용법 및 장점이 유사합니다.
v0.7부터 vpred는 안정적으로 작동하며, nai처럼 75토큰 청크 경계 근처 태그 무시는 발생하지 않습니다. cfg7에서도 타 버전보다 덜 태워진 이미지가 나오고, 과포화되더라도 부드러운 그라데이션이 생겨 특정 스타일에 유용할 수 있습니다. (0,0,0)부터 (255,255,255)까지 모든 색상 구현 가능하며, 앞서 설명한 밝기 메타 태그가 자연어 프롬프트 및 간편한 조정을 위해 유용합니다. 가장 어두운 이미지는 네거티브에 high brightness를 넣고, low brightness, low gamma 태그도 사용할 수 있습니다. 어두운 배경 위 매우 밝은 피부가 싫으면 대비를 낮추고 싶거나, 반대로 강화하려면 hdr/sdr을 네거티브/포지티브에 사용하세요.
희귀한 경우, 특정 프롬프트에서 대비 저하 문제가 보고됐으며 다른 vpred 모델도 비슷한 경향입니다. 75토큰 청크 경계 근처에 "구분자"를 추가하면 해결됩니다. 다만 0.7 버전에서는 직접 겪지 못했습니다.
vpred 버전 실행을 위해서는 A1111 개발 빌드, Comfy(특수 로더 노드 필요), Forge 또는 Reforge가 필요합니다. 엡실론과 동일한 파라미터 (Euler a, CFG 3~5, 20~28 스텝)를 사용하며, Cfg rescale 옵션 사용은 선택 사항입니다. CFG++는 잘 작동합니다.
기본 모델:
이 모델은 주요 훈련 후 작은 세부사항 개선 및 해상도 향상을 위한 unet 다듬기 작업을 거쳤습니다. 다만 복잡한 프롬프트에서 작은 오류가 있음에도 더 나은 성능을 낼 수 있는 RouWei-Base도 참고해 보세요. FP32 버전도 있으며, Comfy에서 fp32 텍스트 인코더 노드 사용, 병합 또는 파인튜닝용입니다.
Huggingface 저장소에서 확인할 수 있습니다.
알려진 문제:
물론 있습니다:
아티스트 및 스타일 태그는 프롬프트 주요 부분과 별도의 청크에 넣거나 맨 마지막에 배치해야 합니다.
가끔 위치나 조합 편향이 있을 수 있으나 아직 명확하지 않습니다.
일부 일반 스타일에 대해 불만이 접수되었습니다.
엡실론 버전은 밝기 메타 태그에 지나치게 의존하며, 원하는 밝기 변화를 위해 이런 태그를 사용해야 하는 경우가 있습니다.
신규 추가된 스타일/캐릭터가 기대만큼 좋지 않거나 명확하지 않을 수 있습니다.
추가 발견 예정
향후 모델용 아티스트/캐릭터 요청을 받고 있습니다. 성능이 약하거나 부정확하거나 워터마크가 강한 아티스트/캐릭터/콘셉트를 발견하면 신고해 주세요. 명확히 추가할 예정이며, 새로운 버전도 팔로우해 주세요.
디스코드 서버 가입
라이선스:
Illustrious와 동일합니다. 병합 및 파인튜닝에 자유롭게 사용 가능하나, 링크나 언급은 반드시 해 주세요.
제작 과정
보고서를 나중에 작성할 예정입니다. 요약하면, 작업의 98%는 데이터셋 준비에 집중되었습니다. nai 논문의 태그 빈도 기반 손실 가중치에 맹목 의존하지 않고, 맞춤 가이드 손실 가중치와 비동기 콜레이터를 활용해 균형을 잡았습니다. 노이즈 스케줄러 증강으로 Ztsnr(또는 유사값)와 엡실론 예측 성능을 달성했습니다.
사용한 컴퓨팅 리소스는 연구 및 실패 시도를 제외하고 H100 8천 시간이 넘습니다.
감사:
우선 오픈 소스를 지원하고 코드 개발 및 개선에 참여한 모든 분께 감사드립니다. Illustrious 모델을 발매한 저자분들, 대규모 공개 파인튜닝의 선구자인 NoobAI 팀에게도 감사하며, 그들 덕분에 이전에 인지되지 못한 문제를 발견하고 해결할 수 있었습니다.
개인적으로:
아티스트는 사적 작품 공유를 위해 익명을 원하며, 여러 익명 기부자, Soviet Cat (GPU 지원), Sv1. (LLM 접근, 캡션, 코드), K. (훈련 코드), Bakariso (데이터셋, 테스트, 조언), NeuroSenko (기부, 테스트, 코드), LOL2024 (독특한 데이터셋 다수), T.,[] (데이터셋, 테스트, 조언), rred, dga, Fi., ello (기부), TekeshiX (데이터셋) 등 많은 동료들의 도움으로 탄생했습니다. 여러분 모두 사랑합니다 ❤️.
그리고 피드백과 요청을 해 준 모든 분도 진심으로 감사합니다. 정말 소중합니다.
누락된 분이 있으면 알려 주세요.
기부
지원하고 싶다면 제 모델을 공유하고 피드백을 남기거나, 귀여운 케모노미미 소녀 그림을 만들어 주세요. 물론 원작 아티스트도 지원해 주세요.
AI는 제 취미이며, 돈을 쓰고 기부를 부탁하지 않습니다. 그러나 점점 대규모 고비용 프로젝트가 되었습니다. 새 훈련과 연구 가속을 위해 지원을 고려해 주세요.
(알코올이나 코스프레 소녀에 쓸 수도 있으니 참고)
BTC: bc1qwv83ggq8rvv07uk6dv4njs0j3yygj3aax4wg6c
ETH/USDT(e): 0x04C8a749F49aE8a56CB84cF0C99CD9E92eDB17db
XMR: 47F7JAyKP8tMBtzwxpoZsUVB8wzg2VrbtDKBice9FAS1FikbHEXXPof4PAb42CQ5ch8p8Hs4RvJuzPHDtaVSdQzD6ZbA5TZ
GPU 시간(A100 이상)을 제공할 수 있으면 쪽지 주세요.
모델 세부사항
토론
댓글을 남기려면 log in하세요.









