RouWei - v0.8.0 epsilon
推薦提示詞
masterpiece
推薦反向提示詞
worst quality,low quality,watermark
worst quality, low quality, watermark
推薦參數
samplers
steps
cfg
resolution
vae
推薦高解析度參數
upscaler
upscale
steps
denoising strength
提示
提示藝術家風格時,其標籤必須置於獨立的 CLIP 區塊—A1111 及衍生版需添加 BREAK,Comfy 使用 conditioning concat 節點,或放在提示末尾,以避免品質下降。
只需提示你想看到的內容,避免提示不想要的元素;模型會尊重矛盾及複雜提示,無導向規則與保護措施。
僅使用四種品質標籤:正向“masterpiece, best quality”及負向“low quality, worst quality”;如“lowres”等元標籤已移除且無效。
若想最佳亮度與色彩控制,可使用元標籤如低/高亮度、飽和度、伽瑪、鮮豔/柔和色彩、HDR 與 SDR。
vpred 版本需將 CFG 降至 3-5,並使用相同的取樣參數;生成平滑漸層,能實現全色域。
角色提示使用全名 booru 標籤並正確格式化以提升準確性。
避免冗長繁複的自然文字提示,簡短清晰描述對自然文字輸入效果最佳。
版本亮點
重大更新
創作者贊助
深入重新訓練 Illustrious 以達到最佳提示遵守、知識及最先進性能。
偉大夢想成真
版本號僅為當前最終版本索引,而非計劃訓練的分段。
使用 GPU 集群進行大規模微調,數據集含約 1300 萬張圖片(約 400 萬配有自然文字說明)
新鮮且廣泛的角色、概念、風格、文化及相關知識
發布時擁有 SDXL 動漫模型中最佳的提示遵守能力
解決 Illustrious、NoobAi 等檢查點常見的標籤混淆與偏見問題
優秀的美學與多種風格知識(超過 5 萬位藝術家(示例),包含數百個私人畫廊精選數據集,甚至來自藝術家的原始資料)
高彈性與多樣性,且無穩定性折衷
無惱人的水印,得益於淨化數據集
鮮明色彩與平滑漸層,無任何燒焦痕跡,epsilon 版本亦可呈現全色域
純粹基於 Illustrious v0.1 訓練,未涉及第三方檢查點、Lora 或調整器等
與先前版本相比亦有些許問題與變更,請詳讀說明(RTFM)。
數據集截止於 2025 年 4 月底。
功能與提示:
重要變更:
提示藝術家風格時,尤其是混合多個風格時,必須將其標籤置於獨立的 CLIP 區塊。對 A1111 系列請添加 BREAK,對 Comfy 請使用 conditioning concat 節點,或至少將其放在提示末尾。否則結果可能大幅退化。
基本說明:
此檢查點同時支援短簡和長複雜提示。對於矛盾或奇怪的提示,與其他模型不同,該模型不會忽略,而會影響輸出。不設導向規則或保護,也沒有刪減。
請直接提示您想看到的內容,避免提示不希望畫面中有的元素。如想從上方視角描繪,正向提示中請勿加入天花板;如欲裁剪視角且角色頭部不在畫面,請勿詳述角色面部特徵,等等。簡單但常被忽略。
0.8 版本具備先進的自然語言提示理解能力。但不代表必須使用它,僅使用標籤依然完全可行,且標籤組合理解亦有所提升。
不要期待它表現得像 Flux 或其他基於 T5 或 LLM 文本編碼器的模型。SDXL 檢查點整體大小甚至小於單一文本編碼器,且以 Illustrious v0.1 為基底的版本已遺忘大量 vanilla sdxl-base 的通用知識。
儘管如此,目前狀態下它已大幅提升,能實現多數需外部輔助不可達成的新用例,也使手動編輯、補畫等更便利。
要達最佳效能,請留意 CLIP 區塊。SDXL 的提示分成 75(含 BOS 與 EOS為 77)個 Token 的區塊,由 CLIP 分別處理後串接作為 UNet 條件。
想為角色/物件指定特徵並將其與其他提示區分,務必將其放於同一區塊,且可用 BREAK 分隔。雖無法完全消除特徵混淆,但能提升整體理解,因 RouWei 文本編碼器能更好處理整體序列而非單一概念。
數據集僅包含 booru 風格標籤和自然文字表達。雖包含部分獸耳、現實照片、西方媒體等,但所有說明皆轉為經典 booru 風格,避免不同系統混淆產生問題。因此 e621 標籤無法正確識別。
取樣參數:
txt2img 約 1 百萬像素,任意 32 倍數解析度(1024x1024、1056x、1152x、1216x832 等)。Euler_a,20 至 28 步。
CFG:epsilon 版本 4 至 9(7 為最佳),vpred 版本 3 至 5。
適當調整 Sigma 倍數可略微提升結果,CFG++ 取樣器表現良好。LCM/PCM/DMD/...與異域取樣器未測試。
部分調度器表現不佳。
Highresfix:x1.5 隱空間 + 降噪 0.6;或任意 GAN + 降噪 0.3 至 0.55。
vpred 版本建議降低 CFG 至 3 至 5!
vpred 版本需使用較低 CFG(3 至 5)!
品質分類:
僅四種品質標籤:
masterpiece, best quality為正向標籤,
low quality, worst quality為負向標籤。
無其他標籤。實際上甚至可省略正向標籤,負向僅用 low quality,因其能影響基本風格與構圖。
已移除並禁用如 lowres 等元標籤,建議不使用。低解析圖片視重要性移除或經 DAT 放大清理。
負向提示:
worst quality, low quality, watermark僅此而已,無需 "rusty trombone"、"farting on prey" 等。除非明確了解,否則負向勿用 greyscale、monochrome 類標籤。以下亮度/色彩/對比元標籤可搭配使用。
藝術家風格:
必須使用 "by " 前綴,缺少該前綴風格無法正常運作。
"by " 是風格的元標籤,用於避免與類似或接近名稱的標籤/角色混淆,提升風格結果穩定性與準確度,避免其它檢查點常見的隨機波動現象。
多重標籤可產生非常有趣的結果,可透過提示權重與語法控管。
必須於藝術家/風格標籤後添加 BREAK(A1111 系列),或使用串接 conditioning(Comfy),或將其置於提示末尾。
示例:
by kantoku, by wlop, best quality, masterpiece BREAK 1girl, ...通用風格:
2.5d, anime screencap, bold line, sketch, cgi, digital painting, flat colors, smooth shading, minimalistic, ink style, oil style, pastel styleBooru 標籤風格:
1950s (style), 1960s (style), 1970s (style), 1980s (style), 1990s (style), 2000s (style), animification, art nouveau, pinup (style), toon (style), western comics (style), nihonga, shikishi, minimalism, fine art parody及 此類別 全部內容。
可與藝術家風格組合,並搭配權重,正負向提示均適用。
角色:
請使用完整 booru 標籤及正確格式,如 karin_(blue_archive) 替換為 karin \(blue archive\),可用皮膚標籤增加還原精度,如 karin \(bunny\) \(blue archive\)。自動補全外掛非常實用。
多數角色僅依 booru 標籤可識別,但若描述基本特徵能更精準。可利用提示為您的老婆/老公換裝,避免典型的特徵外洩。
自然文字:
建議與 booru 標籤組合使用,效果佳。先輸入風格與品質標籤後,再使用自然文字。也可以只用 booru 標籤,完全自選。為獲最佳表現,請留意 CLIP 75 token 區塊。
數據集中約 400 萬圖片包含由 Claude、GPT、Gemini、ToriiGate 生成的混合自然文本標註,後經重構、清理並與標籤組合,用於數據增強。
與典型標註不同,其包含角色名,十分有用。建議保持描述簡潔乾淨,效果最佳。不建議使用如:
一個神秘迷人的女性形象,青春的本質難以界定,天上的面容散發著千顆垂死星辰的空靈光輝,擁有如古代神話中金色河流般傾瀉的髮絲,可能以當代流行風格排列,無特定美學範式。她的雙眼深邃且色彩斑斕,閃爍千年智慧,同時帶有超越時間的純真...標註可使用ToriiGate短模式。
且不要期待其能媲美 Flux 等,引擎持續努力,多次嘗試後通常能達所需,但穩定性與細節度有限。
大量尾巴/耳朵相關概念:
沒錯
尾巴遮擋、牽住自己的尾巴、抱住自己的尾巴、牽別人尾巴、抓尾巴、尾巴豎起、尾巴垂下、耳朵下垂、手放在自己耳朵上、尾巴纏腿、尾巴纏陰莖、尾巴性愛、尾巴穿過衣物、尾巴在衣服下、被尾巴托起、咬尾巴、尾巴插入(包括指定陰道/肛門)、尾巴自慰、尾巴抓握、尾巴穿內褲、尾巴穿胸罩、尾巴焦點、展示自己的尾巴...(此指 booru 意義,非 e621),以及許多自然語言相關說法。大多數運作良好,有些需大量嘗試。
亮度/色彩/對比:
可使用額外的元標籤控制:
低亮度,高亮度,低飽和度,高飽和度,低伽瑪,高伽瑪,鮮豔色彩,柔和色彩,HDR,SDRepsilon 和 vpred 版本皆適用且效果良好。
epsilon 版本相當依賴這些標籤,無低亮或低伽瑪或限幅負向標籤,可能難以達到純黑(0,0,0);白色亦如此。
兩版本皆具有真實 zsnr,色域及亮度全範圍無常見缺陷。但表現不同,建議試用比較。
vpred 版本
主要需知為降低 CFG 自 7 至 5(或更低)。其他用法類似,有其優勢。
自 v0.7 起,vpred 運作非常穩定。其不會像 nai 一樣忽略靠近 75 token 結束邊界的標籤。較難產生燒焦圖片,CFG7 通常僅過飽和但漸層平滑,有利部分風格。確實能生成從 (0,0,0) 到 (255,255,255) 的任意顏色。前述亮度元標籤用於簡化提示非常實用,自然語言表達亦有效。欲產生最暗圖像,請在負向加入 high brightness 和/或使用 low brightness, low gamma 標籤。如不喜背黑底膚色過亮,想降低對比度(或相反加強)可使用負向/正向的 hdr/sdr。
有報告稱少數情境下對比度會下降。其他 vpred 模型亦有類似現象,加入分隔符接近 75 token 邊界可改善。但 0.7 版本迄今未遇此狀況。
啟用 vpred 版本需使用 A1111 開發版、Comfy(需專用 loader 節點)、Forge 或 Reforge。配置同 epsilon(Euler a,CFG 3-5,20-28 步)。無需 CFG 重縮放,但可嘗試,CFG++ 表現佳。
基礎模型:
此模型於主訓練後追加小幅 UNet 微調,改善細節與解析度等。若欲使用 FP32 文本編碼器節點或合併微調,可以考慮 RouWei-Base,雖偶有小錯誤,但對複雜提示表現更佳。
可於 Huggingface 倉庫取得。
已知問題:
當然有:
藝術家及風格標籤必須與主提示分成不同區塊或放末尾
罕見情況下可能存在位置性或組合偏差,但尚未明確
少數通用風格有用戶抱怨
epsilon 版本過度依賴亮度元標籤,時常需使用以達目標亮度調整
新增部份風格/角色可能不如預期明顯與明確
待發掘其他問題
未來模型藝術家/角色請求開放。若發現表現弱、準確度不佳或有明顯水印者,請回報,將特別加入。關注後續版本。
加入 Discord 伺服器
授權:
與 Illustrious 相同。歡迎用於合併、微調等,但請務必保留來源鏈結或說明,必須遵守。
製作過程
稍後考慮撰寫報告。肯定會的。
簡言之,98%投入於數據集準備。非盲目依賴 nai 論文標籤頻率加權損失,自定引導加權損失與非同步組合器負責平衡。使用噪聲調度器增強實現類 Ztsnr(或接近)與 Epsilon 預測。
耗費資源:超過 8000 小時 H100(不含研究及失敗嘗試)。
感謝:
首要感謝所有支持開源、開發及改良程式的人。感謝 Illustrious 作者釋出模型,感謝 NoobAI 團隊率先開展如此大規模開放微調,分享經驗、提出並解決先前未察覺的問題。
個人:
藝術家為分享私密作品選擇匿名;有數名匿名者提供捐贈、程式碼、標註等;Soviet Cat 贊助 GPU;Sv1. - LLM 存取、標註、程式碼;K. - 訓練程式碼;Bakariso - 數據集、測試、建議、內幕;NeuroSenko - 捐贈、測試、程式碼;LOL2024 - 許多獨特數據集;T.,[] - 數據集、測試、建議;rred, dga, Fi., ello - 捐贈;TekeshiX - 數據集。以及其他幫助的兄弟們。愛你們 ❤️。
當然也感謝所有提供回饋與請求的朋友,非常寶貴。
若有遺漏者,請告知。
捐款
若想支持,可分享模型、留下回饋、繪製可愛的獸耳女孩圖片。當然,也請支持原作者。
AI 是我的興趣,花錢不求捐助,但因規模龐大且成本高,考慮支持以加速後續訓練與研究。
(請放心,我不保證不會用於酒精或偽娘)
BTC:bc1qwv83ggq8rvv07uk6dv4njs0j3yygj3aax4wg6c
ETH/USDT(e):0x04C8a749F49aE8a56CB84cF0C99CD9E92eDB17db
XMR:47F7JAyKP8tMBtzwxpoZsUVB8wzg2VrbtDKBice9FAS1FikbHEXXPof4PAb42CQ5ch8p8Hs4RvJuzPHDtaVSdQzD6ZbA5TZ
如能提供 GPU 時間(a100 以上)請私訊。
模型詳情
討論
請log in以發表評論。









