模型/RouWei - v0.7 vpred

RouWei - v0.7 vpred

陳嘉欣 (Chan Ka-yan)

9/24/2025

1:31:08 AM

| Discussion

提示

藝術家／風格標籤必須置於獨立的 CLIP 區塊，或放在提示尾端，並以 BREAK（A1111）或 concat conditioning（Comfy）分隔，以避免結果嚴重下降。

僅使用四個品質標籤：masterpiece、best quality（正面）及 low quality、worst quality（負面）。避免使用其他元標籤如 lowres。

vpred 版本請將 CFG 降至 3 至 5 以獲最佳效果。

利用亮度／元標籤控制亮度、飽和度、伽瑪和對比度，以提升色彩還原度。

混合藝術家風格時，加上 "by " 前綴以防止風格混淆問題。

保持提示詞簡潔清晰，避免過長及雜亂的自然語言描述。

版本亮點

vpred 版本

創作者贊助

於 Huggingface 下載 Illustrious v0.8

加入 Discord 伺服器以獲得支援及更新

深入重訓 Illustrious 以達到最佳提示詞遵循、知識與最先進性能。

偉大夢想成真

版本號僅為當前最終發布的索引，非計劃訓練的分數。

HF 倉庫

使用 GPU 叢集大規模微調，資料集約 1300 萬圖片（約 400 萬含自然語言字幕）

最新且廣泛的角色、概念、風格、文化及相關知識
發布時 SDXL 動畫模型中最優秀的提示詞遵循
解決了 Illustrious、NoobAi 及其他檢查點常見的標籤色溢及偏見問題
卓越的美學與多樣風格知識（超過 50,000 位藝術家（範例），包括數百個從私人畫廊精選的獨特資料集，部分由藝術家本人提供）
高靈活性與多樣性，無穩定性犧牲
感謝乾淨資料集，不再有熱門風格煩人浮水印
鮮明色彩和平滑漸層，無燒焦痕跡，即使搭配 epsilon 版本亦能完全呈現色彩範圍
純訓練自 Illustrious v0.1，未使用第三方檢查點、Lora 或調整器等

與前版本相比仍有一些問題與變更，請詳讀說明。

資料集截止時間：2025 年 4 月底。

功能與提示詞使用：

重要變更：

當使用藝術家風格提示詞，尤其混合多個時，必須將它們的標籤置於獨立的 CLIP 區塊。在該區塊後加上 BREAK（A1111 及衍生版本），或使用 concat conditioning 節點（Comfy），或至少放在提示詞末尾。否則，很可能導致結果明顯下降。

基本：

該檢查點既支援短且簡單的提示詞，也支援長且複雜的提示詞。但若出現矛盾或奇怪內容，與其他模型不同，這裡不會忽略，而會影響產出。無引導安全機制，無防護，也無類似腦葉切除的限制。

只需提示你想看到的，避免包含不該出現的元素。如果想要俯視圖，正面提示不要出現天花板；要作頭部裁剪畫面，則不要詳細描述角色面部特徵，等等。非常簡單，但有時人們會忽略。

0.8 版本具備進階的自然語言提示理解能力。但不代表你必須使用它，純標籤輸入也是完全可行的，尤其理解標籤組合的能力也提升了。

請勿期待其表現媲美 Flux 或其他基於 T5 或 LLM 文本編碼器的模型。整個 SDXL 檢查點大小還不及單個文本編碼器，且以 illustrious-v0.1 為基礎，該版本完全遺忘 vanilla sdxl-base 的許多通用內容。

但即使如此，目前狀態下它表現依然優異，能完成通常沒法靠外部引導做到的新功能，並讓手動編輯、圖像修補等更為方便。

為取得最佳表現，應關注 CLIP 區塊。SDXL 將提示詞拆成約75(含 BOS 與 EOS 為 77) 個標記區塊，由 CLIP 分別處理，再拼接後作為 unet 條件輸入。

若想為角色或物體指定特徵並與其他提示部分分隔，請確保它們在同一區塊，並可用BREAK分隔。這無法完全解決特徵混淆問題，但可減少錯誤並改善理解，因為 RouWei 上的文本編碼器能處理整體序列，而非僅個別概念，效果較佳。

資料集中僅有 booru 風格標籤及自然語言表述。雖含部分獸耳、實拍照片、西方媒體等，但所有字幕已轉換成經典 booru 格式，以避免不同系統混雜帶來的多重問題，故 e621 標籤不會被正確識別。

取樣參數：

txt2img 約 1 百萬像素，任意長寬比解析度需32倍數（1024x1024、1056x、1152x、1216x832 等）。Euler_a，20 至 28 步。
CFG：epsilon 版本 4 至 9（7 最佳），vpred 版本 3 至 5
乘以 Sigmas 可能略微提升結果，CFG++ 取樣器運作良好。LCM/PCM/DMD 等稀有取樣器未測試。
某些排程器效果不佳。
Highresfix - x1.5 latent + 去噪 0.6 或任意 gan + 去噪 0.3 至 0.55。
vpred 版本須降低 CFG 至 3 至 5！

vpred 版本需降低 CFG 至 3 至 5！

品質分類：

僅有四種品質標籤：

masterpiece, best quality

作為正面標籤，及

low quality, worst quality

作為負面標籤。

僅此而已。實際上你甚至可省略正面標籤，負面僅用 low quality，因其會影響基本風格與構圖。

類似 lowres 的元標籤已刪除不生效，建議別用。低解析度圖像或移除或經過 DAT 放大與清理，視其重要性而定。

負面提示詞：

worst quality, low quality, watermark

就這些，無需 "rusty trombone" 、"farting on prey" 等。除非你明白其中意義，否則避免在負面中加入 greyscale、monochrome 類標籤。可使用下方的亮度/色彩/對比相關額外標籤。

藝術家風格：

範例格子圖，清單/萬用字元（亦載於「訓練數據」中）。

使用 "by " 前綴是必要的，否則無法正常運作。

"by " 為風格專用元標籤，可避免與相同或相近名稱的標籤/角色混淆。此舉可獲得更佳風格效果，並避免其他檢查點常見的隨機風格波動。

多重 "by " 結合會產生非常有趣的結果，可透過提示詞權重與設定調控。

必須在藝術家／風格標籤後加入 `BREAK`（A1111）或 concat conditioning（Comfy），或將其放於提示尾端。

例如：

by kantoku, by wlop, best quality, masterpiece BREAK 1girl, ...

通用風格：

2.5d, anime screencap, bold line, sketch, cgi, digital painting, flat colors, smooth shading, minimalistic, ink style, oil style, pastel style

Booru 標籤風格：

1950s (style), 1960s (style), 1970s (style), 1980s (style), 1990s (style), 2000s (style), animification, art nouveau, pinup (style), toon (style), western comics (style), nihonga, shikishi, minimalism, fine art parody

以及此分類中的所有項目。

可搭配藝術家標籤和權重，正面或負面提示皆適用。

角色：

請使用完整名稱 booru 標籤及正確格式，如 karin_(blue_archive) 轉為 karin \(blue archive\)；為更精準重現則加上皮膚標籤，如 karin \(bunny\) \(blue archive\)。自動完成功能十分實用。

大多數角色可透過 booru 標籤辨識，但詳述基本特徵能更精確。靠提示詞即可輕鬆變換你的老婆／老公角色，不再受限於基本特徵的典型洩漏。

自然語言：

與 booru 標籤配合使用效果良好。在輸入風格和品質標籤後僅用自然語言亦可。選擇全用 booru 標籤或結合，都由你自由決定。為達最佳效果，建議注意 CLIP 的 75 標記區塊分割。

資料集約有 400 萬張圖片配有混合自然語言字幕，由 Claude、GPT、Gemini、ToriiGate 製作，後經重構、清理並以多種組合方式與標籤結合，用於增強訓練。

與典型字幕不同，其包含角色名稱，非常有用。建議保持精簡、清晰與方便理解。最好不要用過長且雜亂的敘述，如：

一個神秘迷人的女性存在，年齡不明但顯年輕，她的天體面容散發千顆垂死星星的以太光芒，擁有如古代神話中金色河流般的秀髮，或許造型與當代時尚趨勢相似但不拘泥於任何特定美學範例。她的雙眼深邃且色彩豐富，閃爍著千年智慧，卻保持著超越時間限制的純真品質……

可使用ToriiGate的短版模式作字幕生成。

無須期待與 Flux 及其他模型同等品質，其仍在努力，多次嘗試後通常可達意願，但穩定性及細節仍有限。

沒錯

尾巴遮蔽、抓握自身尾巴、擁抱尾巴、抓另一人尾巴、拉尾巴、尾巴豎起、尾巴垂下、耳朵垂下、手摸耳朵、尾巴環繞腿部、尾巴環繞陰莖、尾巴體交、尾巴穿過衣物、尾巴藏於衣物下、被尾巴提起、尾巴咬、尾巴穿透（含陰道／肛門）、尾巴手淫、尾巴抓持、尾巴上戴內褲、尾巴上戴胸罩、尾巴焦點、展示自身尾巴……

（指 booru 意義，非 e621）還有許多其它搭配自然語言運用。大部分完全可用，少部分需要多次嘗試。

亮度／色彩／對比：

可使用額外元標籤控制：

低亮度，高亮度，低飽和度，高飽和度，低伽瑪，高伽瑪，鮮明色彩，柔和色彩，HDR，SDR

範例

這些標籤同時適用於 epsilon 與 vpred 版本且效果良好。

epsilon 版本過度依賴它們。沒有低亮度、低伽瑪或有限範圍（負面中）時，難以實現純黑 (0,0,0)，白色亦然。

兩個版本都具真實 zsnr，完整色彩及亮度範圍且無常見缺陷，但行為不同，可親自嘗試。

vpred 版本

主要須知是將 CFG 從 7 降至 5（或更低）。用法與 epsilon 類似且具優勢。

從 v0.7 起，vpred 版本運作順暢。它不會像 nai 那樣忽略接近 75 tokens 邊界的標籤。燒焦圖像較少，CFG7 通常為過飽和但漸層平滑，適合某些風格。的確可產生從(0,0,0)到(255,255,255)的任意亮度。上述亮度元標籤在懶人提示詞中相當實用，自然語言也適用。要達最暗圖片，請在負面中放入high brightness，及／或用low brightness, low gamma標籤。若不喜歡深色背景上過亮皮膚且想降低對比（或反之增強效果），可在負面／正面使用 hdr/sdr。

偶有報告某些提示詞時對比度降低，其他 vpred 模型亦有類似狀況，於 75 token 區塊邊界附近加「分隔符」可修復。但 0.7 版本我未遇過這情況。

執行 vpred 版本時需使用 A1111 開發版、Comfy（含特別加載節點）、Forge 或 Reforge。參數同 epsilon（Euler a、CFG 3 至 5、20 至 28 步）。無需使用 Cfg 重縮放，但可試試，CFG++ 表現優秀。

基礎模型：

此模型在主訓練後有少許 unet 精修，改善細節和提升解析度等。然而你可能也會對 RouWei-Base 感興趣，該版本在複雜提示詞上有時表現更佳，雖細節略有瑕疵。並有提供 FP32 版本，方便 Comfy 使用 fp32 文本編碼器節點、合併或微調。

可於 Huggingface 倉庫找到。

已知問題：

當然存在：

藝術家與風格標籤必須與主要提示詞分開成不同區塊，或置於末尾
極少數情況可能存在位置或組合偏差，但尚不明確
部分通用風格有少許投訴
epsilon 版本過度依賴亮度元標籤，有時需使用來達預期亮度變化
新增加的風格／角色可能尚未如預期精彩與獨特
待發現問題

未來模型藝術家／角色需求公開，若發現表現差、準確度不足或帶強烈水印者請反饋，將特別加入。關注以獲取新版本。

加入 Discord 伺服器

授權：

與 Illustrious 相同。歡迎用於合併、微調等，但請務必留下鏈接或提及，為強制要求。

製作方式

未來會考慮撰寫報告，敬請期待。

簡言之，98% 工作投入於資料集準備。非盲目依賴 nai 論文中的標籤頻率損失加權，而是使用自訂引導加權並配合非同步整理器平衡。利用 noise scheduler 增強實現了 Ztsnr（或接近）搭配 Epsilon 預測。

運算量：超過 8000 小時的 H100（不含研究及失敗嘗試）。

致謝：

首先感謝所有支持開源、開發及改進程式碼的人。感謝 Illustrious 作者發布模型，感謝 NoobAI 團隊為此規模開放微調的先驅，分享經驗、提出與解決之前未曾注意的問題。

個人：

藝術家希望匿名分享私人作品；部分匿名人士提供捐助、程式碼、字幕等；Soviet Cat 贊助 GPU；Sv1. 提供 LLM 存取、字幕、程式碼；K. 負責訓練程式碼；Bakariso 負責資料集、測試、建議、內幕；NeuroSenko 捐助、測試與程式碼；LOL2024 提供大量獨特資料集；T.,[] 負責資料集、測試、建議；rred、dga、Fi.、ello 捐助；TekeshiX 負責資料集。以及其他協助同胞。非常感謝，愛你們❤️。

當然還有所有提供反饋與需求的人，這非常寶貴。

若遺漏任何人，請通知我。