RouWei - v0.8.0 vpred
推薦提示詞
masterpiece
推薦反向提示詞
worst quality,low quality,watermark
worst quality, low quality, watermark
推薦參數
samplers
steps
cfg
resolution
vae
推薦高解析度參數
upscaler
upscale
steps
denoising strength
提示
藝術家/風格標籤必須置於獨立 CLIP 區塊,或提示詞末尾並加 BREAK 令牌,以獲最佳提示詞遵從。
僅使用四個品質標籤:「masterpiece」與「best quality」為正向,「low quality」與「worst quality」為負向。
避免使用如 "lowres" 的元資料標籤,已被移除且不影響結果。
vpred 版本請使用較低的 CFG 值(3 至 5)。
亮度、對比及色彩相關元標籤(例如 "low brightness", "high saturation")可提升輸出品質,並且於 epsilon 和 vpred 版本皆適用。
將自然語文與 booru 標籤結合使用,保持提示詞簡短清楚以達最佳效果。
可透過提示權重及法術結合多重藝術家風格。
版本亮點
v0.8 的 vpred 版本
創作者贊助
支持模型與作者,請至 Huggingface 倉庫 並加入 Discord 伺服器。歡迎通過 BTC、ETH/USDT、XMR 或 GPU 時間(A100+)捐助,詳情請見頁面。
深入重新訓練 Illustrious,實現最佳提示詞遵從性、知識與頂尖表現。
偉大夢想成真
版本號僅是當前最終發行的索引,並非計劃訓練的分數。
使用 GPU 叢集與約 1300 萬張圖片資料集(約 400 萬張含自然語文本說明)進行大規模微調
關於角色、概念、風格、文化及相關事物的新鮮且豐富知識
發行時 SDXL 動漫模型中最佳的提示詞遵從性
解決 Illustrious、NoobAi 及其他檢查點常見的標籤溢出和偏差問題
跨多風格優異的美學與知識 (超過五萬位藝術家 (範例)),包括數百個從私人畫廊精挑細選的獨特資料集,甚至收錄藝術家本人的作品
高靈活性與多樣性,無犧牲穩定性
由於資料集清潔,流行風格不再有惱人的浮水印
鮮明色彩與平滑漸層,無燒焦痕跡,即使在 epsilon 版本亦保持全色域
純粹由 Illustrious v0.1 訓練而成,無涉及第三方檢查點、Lora 或調整器等
相較於前版本亦存在一些問題和變更,請詳讀使用手冊。
資料集截止日期為 2025 年四月底。
特性與提示詞使用說明:
重要變更:
當使用藝術家風格提示,尤其是混合多者時,其標籤必須置於獨立的 CLIP 區塊中。在此後加入 BREAK(對 A1111 及衍生版本),使用條件連接節點(對 Comfy)或至少置於提示詞最末端。否則結果可能嚴重劣化。
基本說明:
此檢查點可同時應用於簡短單純及長且複雜的提示詞。若提示中有矛盾或奇怪的描述,結果不會如其他模型般忽略,而會影響輸出。沒有引導鐵軌、保護措施,也不會人為修剪。
只要提示你想要看到的,不要提示不該出現的。如果想從上方視角觀看,不要正面加入天花板;如果想剪裁視角且頭部在畫面外,不要詳細描述角色臉部特徵,如此類推。很簡單,但有時人們會忽略。
0.8 版本具備進階自然語文本提示理解能力。並非必須使用此功能,只用標籤亦可,且標籤組合理解也有所提升。
別期待它能達到 Flux 或採用 T5、LLM 編碼器的模型表現。整個 SDXL 檢查點大小比該文本編碼器還小,且基礎的 illustrious-v0.1 版本遺忘了 vanilla sdxl-base 中許多訊息。
然而,現在狀態它表現更優,允許完成原本無法完成的新場景,也使手動編輯、修補更便利。
為達最佳效果,請特別注意 CLIP 區塊。SDXL 的提示詞被切分為 75 個(含 BOS 和 EOS 為 77 個)令牌的區塊,CLIP 分別處理各區塊,再串接作為 unet 條件輸入。
若要指定角色或物件特徵並與其他提示區塊區分,請確保同一區塊,並可用 BREAK 作區隔。此方法無法完全解決特徵混合問題,但能提升整體理解,因 RouWei 的文本編碼器可處理整段序列較優於分散概念。
資料集僅含 booru 樣式標籤與自然語言表達。儘管含有部分獸耳、真實照片、西方媒體等,所有說明皆轉換為經典 booru 風格以避免不同系統混用問題。因此 e621 標籤不會被正確理解。
取樣參數:
文本轉圖約一百萬像素,任意解析度且長寬為 32 倍數(1024x1024、1056x、1152x、1216x832 等)。Euler_a,20 至 28 步。
CFG:epsilon 版本為 4 至 9(最佳為 7),vpred 版本為 3 至 5。
乘以 Sigmas 可能微幅提升結果;CFG++ 取樣器表現不錯。LCM、PCM、DMD 等特殊取樣器未測試。
部分排程器表現不佳。
高解析修正 - 潛變 x1.5 + 去噪 0.6,或任何 GAN + 去噪 0.3 至 0.55。
vpred 版本需較低 CFG(3 至 5)!
vpred 版本需較低 CFG(3 至 5)!
品質分類:
只有 4 個品質標籤:
masterpiece, best quality用於正向提示,及
low quality, worst quality負向提示。
無其他標籤。其實可以省略正向標籤,負向減少至 low quality,因為這些標籤可影響基礎風格與構圖。
類似 lowres 的元標籤已移除且不起作用,建議不要使用。低解析影像已視重要性予以移除或經 DAT 放大乾淨處理。
負向提示:
worst quality, low quality, watermark就這些,不需要 "rusty trombone"、"farting on prey" 等詞。除非了解操作,不要加入灰階、單色等標籤。可使用以下關於亮度/顏色/對比的額外標籤。
藝術家風格:
使用時必須帶有 "by "。無 "by " 將無法正常作用。
"by " 是風格的元標籤,避免與相似或近似角色/標籤混淆,讓風格結果更穩定、精準,避免其他檢查點常見的隨機波動。
多重搭配會產生有趣結果,可用提示詞權重與法術控制。
你必須在藝術家/風格標籤後加入 BREAK(A1111)或連接條件節點(Comfy),或置於提示詞最尾端。
例如:
by kantoku, by wlop, best quality, masterpiece BREAK 1girl, ...一般風格:
2.5d, 動漫截圖, 粗線條, 草圖, CGI, 數位繪畫, 扁平色彩, 平滑陰影, 極簡, 水墨風, 油畫風, 粉彩風Booru 標籤風格:
1950 年代(風格), 1960 年代(風格), 1970 年代(風格), 1980 年代(風格), 1990 年代(風格), 2000 年代(風格), 動漫化, 新藝術, Pinup(風格), 漫畫風(風格), 西方漫畫(風格), 日本畫, 色紙, 極簡主義, 藝術惡搞以及此分類的所有內容。
可與藝術家標籤組合使用,也可帶權重,無論正向或負向提示皆適用。
角色:
請使用完整 booru 標籤與正確格式,例如 karin_(blue_archive) 轉為 karin \(blue archive\),使用膚色標籤以提升呈現效果,如 karin \(bunny\) \(blue archive\)。自動補全外掛非常實用。
多數角色只需 booru 標籤即可識別,但若描述其基本特徵會更準確。在這裡,你可以輕鬆透過提示詞替換老婆/老公造型,無需擔心基本特徵洩漏問題。
自然語文:
與 booru 標籤結合使用效果佳。建議在輸入風格及品質標籤後,僅使用自然語文;或只用 booru 標籤亦可,依你意願。為獲最佳效果,請注意 CLIP 75 令牌區塊。
資料集中約 400 萬張具混合自然語文說明,生成工具包括 Claude、GPT、Gemini、ToriiGate,後續經整理、清理並與標籤搭配多種變化以作擴增。
不同於一般說明,這些含角色姓名,非常實用。建議保持說明簡潔清晰,避免以下冗長且雜亂的描述:
神秘迷人的女性存在,年輕本質難確定,面容散發千顆墜落星辰的虛幻光輝,長髮如古老神話中的金色河流般垂落,或許以現代時尚潮流造型,卻不拘泥於特定美學。她眼眸深邃多彩,閃耀千年智慧,卻又保持超越時間的純真⋯⋯說明可使用ToriiGate的短模式。
不必期待其達到 Flux 等的水準,雖努力調整,多次嘗試後通常能達所需,但穩定度與細節度不如上述模型。
大量尾巴及耳朵相關概念:
沒錯
尾巴遮蔽、抓握自身尾巴、擁抱尾巴、抓握他人尾巴、尾巴抓弄、尾巴高舉、尾巴下垂、耳朵下垂、手放耳朵、尾巴繞腿、尾巴繞陰莖、尾巴舔弄、尾巴穿過衣物、尾巴藏於衣服下、尾巴提起、尾巴咬、尾巴穿透(包括陰道/肛門)、尾巴自慰、尾巴握持、穿著尾巴內褲、穿著尾巴胸罩、尾巴焦點、展示尾巴⋯⋯(booru 定義,非 e621)及其他多項自然語文描述。大多數能完美運作,部分需多次嘗試。
亮度/色彩/對比:
可使用額外元標籤控制:
低亮度、高亮度、低飽和度、高飽和度、低伽瑪、高伽瑪、鮮明色彩、柔和色彩、HDR、SDR在 epsilon 及 vpred 版本均有效且表現很好。
epsilon 版本對這類參數依賴較大。若無低亮度、低伽瑪或限制範圍(負向)標籤,較難達到真正的 0,0,0 黑色,白色亦常有相同問題。
epsilon 與 vpred 兩版皆具備真實 zsnr 及完整色彩亮度範圍,無常見缺陷,但行為不同,請自行嘗試。
vpred 版本
主要須知:將 CFG 由 7 降至 5(或更低)。其他使用方式類似且帶有優勢。
自 v0.7 起,vpred 工作穩定。該版本不會忽略接近 75 令牌邊界的標籤,如 nai。燒焦圖像較少,通常在 CFG7 下呈過飽和但漸層平滑狀態,適合部分風格。它可呈現從 (0,0,0) 至 (255,255,255) 的所有顏色。上述亮度元標籤對於輕鬆/懶人提示十分有用,自然語文表達同樣可用。若欲得最暗圖像,可將 high brightness 放於負向,並/或使用 low brightness, low gamma。若不喜背景深色時膚色過亮,需減少對比,反之需強化,可於負/正向使用 hdr/sdr。
據報告,少數提示會出現對比下降,似同其他 vpred 模型行為,加入靠近 75 令牌邊界的 "分隔符" 可修正。但在 0.7 版本未遇到此問題。
執行 vpred 版本需 A1111 開發版、Comfy(需特殊載入節點)、Forge 或 Reforge。參數與 epsilon 同(Euler a,CFG 3 至 5,20 至 28 步)。無需 Cfg 重調,可試用,CFG++ 很適用。
基礎模型:
此模型主訓練後經過小範圍 unet 優化,提升細節與解析度等。你可能亦對 RouWei-Base 感興趣,該版在複雜提示下表現有時更佳,雖偶有細節瑕疵。它亦有 FP32 版本,適合 Comfy 中使用 FP32 文本編碼器節點、合併或微調。
於 Huggingface 倉庫 可找到。
已知問題:
當然有:
藝術家與風格標籤必須與主提示詞分於其他區塊,或放最末尾
少數情況可能有位置或組合偏差,尚不明確
部分一般風格有使用者抱怨
epsilon 版本過度依賴亮度元標籤,有時需使用它們以達到理想亮度變化
部分新加入風格/角色品質可能未達理想與明顯程度
待發掘
未來模型的藝術家/角色需求開放。若發現弱、模糊或有強浮水印的,請回報,將特別新增。敬請關注新版。
加入 Discord 伺服器
授權:
與 Illustrious 相同。可自由用於合併、微調等,但請附帶連結或說明,這是必須的。
製作過程
稍後可能會寫一份報告,敬請期待。
簡言之,98% 工時用於資料集準備。未盲從 nai 論文基於標籤頻率的損失權重,而採用自訂引導權重實作與非同步協調平衡技術。利用噪聲排程增強實現 Ztsnr(或接近)與 Epsilon 預測。
計算花費逾 8000 小時 H100(不含研究及失敗嘗試)。
感謝:
首先感謝所有支持開源與改進代碼的人。感謝 Illustrious 開發者釋出模型,感謝 NoobAI 團隊開創大規模開放微調經驗,分享經驗,發現與解決過去被忽略問題。
個人:
藝術家希望匿名分享私作品;數位匿名者提供捐款、代碼及標註;Soviet Cat 贊助 GPU;Sv1. 提供 LLM 存取、標註與代碼;K. 提供訓練代碼;Bakariso 貢獻資料集、測試、建議與內幕;NeuroSenko 捐款、測試及編碼;LOL2024 豐富獨特資料集;T.,[] 貢獻資料及諮詢;rred、dga、Fi.、ello 捐款;TekeshiX 提供資料集。以及其他支援的夥伴。由衷感謝 ❤️。
當然也感謝所有反饋與需求者,極其珍貴。
若遺漏任何人,請告知。
捐助
想支持請分享我的模型、留下反饋,或畫一張可愛的獸耳女孩圖。當然,也請支持原創藝術家。
AI 是我的興趣,我自行出資,非募捐。但已成為大規模且昂貴之計劃,請考慮幫助加速訓練與研究。
(請放心,我也可能會把錢花在喝酒或為美少女角色扮演上)
BTC:bc1qwv83ggq8rvv07uk6dv4njs0j3yygj3aax4wg6c
ETH/USDT(e):0x04C8a749F49aE8a56CB84cF0C99CD9E92eDB17db
XMR:47F7JAyKP8tMBtzwxpoZsUVB8wzg2VrbtDKBice9FAS1FikbHEXXPof4PAb42CQ5ch8p8Hs4RvJuzPHDtaVSdQzD6ZbA5TZ
若能提供 GPU 時間(A100+)請私訊。


