一位長髮黑色、穿著帶棋盤格圖案黑袍的無臉少女站在巨大鋼琴上,露出邪惡微笑,而一匹黑狼走在下面的棋盤砂地景上。

推薦提示詞

masterpiece

推薦反向提示詞

worst quality,low quality,watermark

worst quality, low quality, watermark

推薦參數

samplers

Euler_a, Euler a

steps

20 - 28

cfg

4 - 9

resolution

1024x1024, 1216x832, 1376x832, 1280x800, 1200x1920, 832x1216, 1216x832

vae

sdxl_vae.safetensors

推薦高解析度參數

upscaler

Latent

upscale

1.5

steps

15 - 22

denoising strength

0.5 - 0.65

提示

藝術家/風格標籤必須置於獨立 CLIP 區塊,或提示詞末尾並加 BREAK 令牌,以獲最佳提示詞遵從。

僅使用四個品質標籤:「masterpiece」與「best quality」為正向,「low quality」與「worst quality」為負向。

避免使用如 "lowres" 的元資料標籤,已被移除且不影響結果。

vpred 版本請使用較低的 CFG 值(3 至 5)。

亮度、對比及色彩相關元標籤(例如 "low brightness", "high saturation")可提升輸出品質,並且於 epsilon 和 vpred 版本皆適用。

將自然語文與 booru 標籤結合使用,保持提示詞簡短清楚以達最佳效果。

可透過提示權重及法術結合多重藝術家風格。

版本亮點

v0.8 的 vpred 版本

創作者贊助

支持模型與作者,請至 Huggingface 倉庫 並加入 Discord 伺服器。歡迎通過 BTC、ETH/USDT、XMR 或 GPU 時間(A100+)捐助,詳情請見頁面。

深入重新訓練 Illustrious,實現最佳提示詞遵從性、知識與頂尖表現。

偉大夢想成真

版本號僅是當前最終發行的索引,並非計劃訓練的分數。

HF 倉庫

使用 GPU 叢集與約 1300 萬張圖片資料集(約 400 萬張含自然語文本說明)進行大規模微調

  • 關於角色、概念、風格、文化及相關事物的新鮮且豐富知識

  • 發行時 SDXL 動漫模型中最佳的提示詞遵從性

  • 解決 Illustrious、NoobAi 及其他檢查點常見的標籤溢出和偏差問題

  • 跨多風格優異的美學與知識 (超過五萬位藝術家 (範例)),包括數百個從私人畫廊精挑細選的獨特資料集,甚至收錄藝術家本人的作品

  • 高靈活性與多樣性,無犧牲穩定性

  • 由於資料集清潔,流行風格不再有惱人的浮水印

  • 鮮明色彩與平滑漸層,無燒焦痕跡,即使在 epsilon 版本亦保持全色域

  • 純粹由 Illustrious v0.1 訓練而成,無涉及第三方檢查點、Lora 或調整器等

相較於前版本亦存在一些問題和變更,請詳讀使用手冊。

資料集截止日期為 2025 年四月底。

特性與提示詞使用說明:

重要變更:

當使用藝術家風格提示,尤其是混合多者時,其標籤必須置於獨立的 CLIP 區塊中。在此後加入 BREAK(對 A1111 及衍生版本),使用條件連接節點(對 Comfy)或至少置於提示詞最末端。否則結果可能嚴重劣化。

基本說明:

此檢查點可同時應用於簡短單純及長且複雜的提示詞。若提示中有矛盾或奇怪的描述,結果不會如其他模型般忽略,而會影響輸出。沒有引導鐵軌、保護措施,也不會人為修剪。

只要提示你想要看到的,不要提示不該出現的。如果想從上方視角觀看,不要正面加入天花板;如果想剪裁視角且頭部在畫面外,不要詳細描述角色臉部特徵,如此類推。很簡單,但有時人們會忽略。

0.8 版本具備進階自然語文本提示理解能力。並非必須使用此功能,只用標籤亦可,且標籤組合理解也有所提升。

別期待它能達到 Flux 或採用 T5、LLM 編碼器的模型表現。整個 SDXL 檢查點大小比該文本編碼器還小,且基礎的 illustrious-v0.1 版本遺忘了 vanilla sdxl-base 中許多訊息。

然而,現在狀態它表現更優,允許完成原本無法完成的新場景,也使手動編輯、修補更便利。

為達最佳效果,請特別注意 CLIP 區塊。SDXL 的提示詞被切分為 75 個(含 BOS 和 EOS 為 77 個)令牌的區塊,CLIP 分別處理各區塊,再串接作為 unet 條件輸入。

若要指定角色或物件特徵並與其他提示區塊區分,請確保同一區塊,並可用 BREAK 作區隔。此方法無法完全解決特徵混合問題,但能提升整體理解,因 RouWei 的文本編碼器可處理整段序列較優於分散概念。

資料集僅含 booru 樣式標籤與自然語言表達。儘管含有部分獸耳、真實照片、西方媒體等,所有說明皆轉換為經典 booru 風格以避免不同系統混用問題。因此 e621 標籤不會被正確理解。

取樣參數:

  • 文本轉圖約一百萬像素,任意解析度且長寬為 32 倍數(1024x1024、1056x、1152x、1216x832 等)。Euler_a,20 至 28 步。

  • CFG:epsilon 版本為 4 至 9(最佳為 7),vpred 版本為 3 至 5。

  • 乘以 Sigmas 可能微幅提升結果;CFG++ 取樣器表現不錯。LCM、PCM、DMD 等特殊取樣器未測試。

  • 部分排程器表現不佳。

  • 高解析修正 - 潛變 x1.5 + 去噪 0.6,或任何 GAN + 去噪 0.3 至 0.55。

  • vpred 版本需較低 CFG(3 至 5)!

vpred 版本需較低 CFG(3 至 5)!

品質分類:

只有 4 個品質標籤:

masterpiece, best quality

用於正向提示,及

low quality, worst quality

負向提示。

無其他標籤。其實可以省略正向標籤,負向減少至 low quality,因為這些標籤可影響基礎風格與構圖。

類似 lowres 的元標籤已移除且不起作用,建議不要使用。低解析影像已視重要性予以移除或經 DAT 放大乾淨處理。

負向提示:

worst quality, low quality, watermark

就這些,不需要 "rusty trombone"、"farting on prey" 等詞。除非了解操作,不要加入灰階、單色等標籤。可使用以下關於亮度/顏色/對比的額外標籤。

藝術家風格:

例圖集錦清單/通配符(亦可見於「訓練資料」中)。

使用時必須帶有 "by "。無 "by " 將無法正常作用。

"by " 是風格的元標籤,避免與相似或近似角色/標籤混淆,讓風格結果更穩定、精準,避免其他檢查點常見的隨機波動。

多重搭配會產生有趣結果,可用提示詞權重與法術控制。

你必須在藝術家/風格標籤後加入 BREAK(A1111)或連接條件節點(Comfy),或置於提示詞最尾端。

例如:

by kantoku, by wlop, best quality, masterpiece BREAK 1girl, ...

一般風格:

2.5d, 動漫截圖, 粗線條, 草圖, CGI, 數位繪畫, 扁平色彩, 平滑陰影, 極簡, 水墨風, 油畫風, 粉彩風

Booru 標籤風格:

1950 年代(風格), 1960 年代(風格), 1970 年代(風格), 1980 年代(風格), 1990 年代(風格), 2000 年代(風格), 動漫化, 新藝術, Pinup(風格), 漫畫風(風格), 西方漫畫(風格), 日本畫, 色紙, 極簡主義, 藝術惡搞

以及此分類的所有內容。

可與藝術家標籤組合使用,也可帶權重,無論正向或負向提示皆適用。

角色:

請使用完整 booru 標籤與正確格式,例如 karin_(blue_archive) 轉為 karin \(blue archive\),使用膚色標籤以提升呈現效果,如 karin \(bunny\) \(blue archive\)。自動補全外掛非常實用。

多數角色只需 booru 標籤即可識別,但若描述其基本特徵會更準確。在這裡,你可以輕鬆透過提示詞替換老婆/老公造型,無需擔心基本特徵洩漏問題。

自然語文:

與 booru 標籤結合使用效果佳。建議在輸入風格及品質標籤後,僅使用自然語文;或只用 booru 標籤亦可,依你意願。為獲最佳效果,請注意 CLIP 75 令牌區塊。

資料集中約 400 萬張具混合自然語文說明,生成工具包括 Claude、GPT、Gemini、ToriiGate,後續經整理、清理並與標籤搭配多種變化以作擴增。

不同於一般說明,這些含角色姓名,非常實用。建議保持說明簡潔清晰,避免以下冗長且雜亂的描述:

神秘迷人的女性存在,年輕本質難確定,面容散發千顆墜落星辰的虛幻光輝,長髮如古老神話中的金色河流般垂落,或許以現代時尚潮流造型,卻不拘泥於特定美學。她眼眸深邃多彩,閃耀千年智慧,卻又保持超越時間的純真⋯⋯

說明可使用ToriiGate的短模式。

不必期待其達到 Flux 等的水準,雖努力調整,多次嘗試後通常能達所需,但穩定度與細節度不如上述模型。

沒錯

尾巴遮蔽、抓握自身尾巴、擁抱尾巴、抓握他人尾巴、尾巴抓弄、尾巴高舉、尾巴下垂、耳朵下垂、手放耳朵、尾巴繞腿、尾巴繞陰莖、尾巴舔弄、尾巴穿過衣物、尾巴藏於衣服下、尾巴提起、尾巴咬、尾巴穿透(包括陰道/肛門)、尾巴自慰、尾巴握持、穿著尾巴內褲、穿著尾巴胸罩、尾巴焦點、展示尾巴⋯⋯

(booru 定義,非 e621)及其他多項自然語文描述。大多數能完美運作,部分需多次嘗試。

亮度/色彩/對比:

可使用額外元標籤控制:

低亮度、高亮度、低飽和度、高飽和度、低伽瑪、高伽瑪、鮮明色彩、柔和色彩、HDR、SDR

範例

在 epsilon 及 vpred 版本均有效且表現很好。

epsilon 版本對這類參數依賴較大。若無低亮度、低伽瑪或限制範圍(負向)標籤,較難達到真正的 0,0,0 黑色,白色亦常有相同問題。

epsilon 與 vpred 兩版皆具備真實 zsnr 及完整色彩亮度範圍,無常見缺陷,但行為不同,請自行嘗試。

vpred 版本

主要須知:將 CFG 由 7 降至 5(或更低)。其他使用方式類似且帶有優勢。

自 v0.7 起,vpred 工作穩定。該版本不會忽略接近 75 令牌邊界的標籤,如 nai。燒焦圖像較少,通常在 CFG7 下呈過飽和但漸層平滑狀態,適合部分風格。它可呈現從 (0,0,0) 至 (255,255,255) 的所有顏色。上述亮度元標籤對於輕鬆/懶人提示十分有用,自然語文表達同樣可用。若欲得最暗圖像,可將 high brightness 放於負向,並/或使用 low brightness, low gamma。若不喜背景深色時膚色過亮,需減少對比,反之需強化,可於負/正向使用 hdr/sdr。

據報告,少數提示會出現對比下降,似同其他 vpred 模型行為,加入靠近 75 令牌邊界的 "分隔符" 可修正。但在 0.7 版本未遇到此問題。

執行 vpred 版本需 A1111 開發版、Comfy(需特殊載入節點)、Forge 或 Reforge。參數與 epsilon 同(Euler a,CFG 3 至 5,20 至 28 步)。無需 Cfg 重調,可試用,CFG++ 很適用。

基礎模型:

此模型主訓練後經過小範圍 unet 優化,提升細節與解析度等。你可能亦對 RouWei-Base 感興趣,該版在複雜提示下表現有時更佳,雖偶有細節瑕疵。它亦有 FP32 版本,適合 Comfy 中使用 FP32 文本編碼器節點、合併或微調。

Huggingface 倉庫 可找到。

已知問題:

當然有:

  • 藝術家與風格標籤必須與主提示詞分於其他區塊,或放最末尾

  • 少數情況可能有位置或組合偏差,尚不明確

  • 部分一般風格有使用者抱怨

  • epsilon 版本過度依賴亮度元標籤,有時需使用它們以達到理想亮度變化

  • 部分新加入風格/角色品質可能未達理想與明顯程度

  • 待發掘

未來模型的藝術家/角色需求開放。若發現弱、模糊或有強浮水印的,請回報,將特別新增。敬請關注新版。

加入 Discord 伺服器

授權:

與 Illustrious 相同。可自由用於合併、微調等,但請附帶連結或說明,這是必須的。

製作過程

稍後可能會寫一份報告,敬請期待。

簡言之,98% 工時用於資料集準備。未盲從 nai 論文基於標籤頻率的損失權重,而採用自訂引導權重實作與非同步協調平衡技術。利用噪聲排程增強實現 Ztsnr(或接近)與 Epsilon 預測。

計算花費逾 8000 小時 H100(不含研究及失敗嘗試)。

感謝:

首先感謝所有支持開源與改進代碼的人。感謝 Illustrious 開發者釋出模型,感謝 NoobAI 團隊開創大規模開放微調經驗,分享經驗,發現與解決過去被忽略問題。

個人:

藝術家希望匿名分享私作品;數位匿名者提供捐款、代碼及標註;Soviet Cat 贊助 GPU;Sv1. 提供 LLM 存取、標註與代碼;K. 提供訓練代碼;Bakariso 貢獻資料集、測試、建議與內幕;NeuroSenko 捐款、測試及編碼;LOL2024 豐富獨特資料集;T.,[] 貢獻資料及諮詢;rred、dga、Fi.、ello 捐款;TekeshiX 提供資料集。以及其他支援的夥伴。由衷感謝 ❤️。

當然也感謝所有反饋與需求者,極其珍貴。

若遺漏任何人,請告知。

捐助

想支持請分享我的模型、留下反饋,或畫一張可愛的獸耳女孩圖。當然,也請支持原創藝術家。

AI 是我的興趣,我自行出資,非募捐。但已成為大規模且昂貴之計劃,請考慮幫助加速訓練與研究。

(請放心,我也可能會把錢花在喝酒或為美少女角色扮演上)

BTC:bc1qwv83ggq8rvv07uk6dv4njs0j3yygj3aax4wg6c

ETH/USDT(e):0x04C8a749F49aE8a56CB84cF0C99CD9E92eDB17db

XMR:47F7JAyKP8tMBtzwxpoZsUVB8wzg2VrbtDKBice9FAS1FikbHEXXPof4PAb42CQ5ch8p8Hs4RvJuzPHDtaVSdQzD6ZbA5TZ

若能提供 GPU 時間(A100+)請私訊。

上一個
Colorful Chaos Cracks and Drops XL - v1.0
下一個
迷幻氛圍藝術風格 - (Dreambooth 訓練 - SDXL LoRA) - v1.0

模型詳情

模型類型

Checkpoint

基礎模型

Illustrious

模型版本

v0.8.0 vpred

模型雜湊值

1a40b1babc

創作者

討論

log in以發表評論。

RouWei - v0.8.0 vpred 的圖片

動畫 圖片

基礎模型 圖片

著名的 圖片