Anime Illust Diffusion XL - v0.5-alpha
相關關鍵字和標籤
推薦提示詞
frieren from sousou no frieren,impasto style,beautiful color, detailed, aesthetic
best quality,masterpiece,vivid color,1girl,solo,bangs
推薦反向提示詞
worst quality:1.3,low quality,lowres,messy,abstract,ugly,disfigured,bad anatomy,draft,deformed hands,fused fingers,signature,text,multi views
aidxl_neg
推薦參數
samplers
steps
cfg
resolution
vae
other models
推薦高解析度參數
denoising strength
提示
降低藝術家風格觸發詞權重,如 (by xxx:0.6)。
排列提示詞標籤以獲更佳結果。
使用模型自帶 VAE 或 sdxl-vae。
版本亮點
新增了143個觸發詞。此版本為 AIDXLv0.5 測試版,新風格尚不穩定。若非嘗鮮,推薦使用 AIDXLv0.41。
Added 143 new trigger words. This version is a beta release of AIDXLv0.5. The new styles are unstable. For better experience, I recommend AIDXLv0.41.
創作者贊助
算力贊助:感謝@NieTa社區(捏Ta (nieta.art))提供算力支持;
數據支持:感謝@KirinTea_Aki(KirinTea_Aki Creator Profile | Civitai)與@Chenkin(Civitai | Share your models)提供大量數據支持;
沒有他們就不會有 0.7 版本。
模型介紹(英文部分)
I 目錄
在本介紹中,您將了解:
模型資訊(見 II 部分);
使用說明(見 III 部分);
訓練參數(見 IV 部分);
觸發詞列表(見 附錄 A 部分);
II AIDXL
Anime Illustration Diffusion XL,簡稱AIDXL,是一款專注於生成風格化二次元插圖的模型。它內置超過800種插畫風格(持續更新中),可通過特定觸發詞(見 附錄 A)調用。
優勢:
靈活構圖,不同於傳統 AI 擺拍;
細節精巧,避免混亂凌亂;
具良好動漫角色識別能力;
III 使用指南
1 基本使用
1.1 提示詞
觸發詞:添加附錄 A 中提供的觸發詞以強化風格。適合的觸發詞將顯著提升質量;
建議降低藝術家風格觸發詞的權重,例如 (by xxx:0.6)。
語義排序:調整提示詞標籤或語句順序有助模型理解。
推薦順序:觸發詞(by xxx)-> 角色(一名來自 sousou no frieren 系列的 frieren 女孩)-> 種族(精靈)-> 構圖(cowboy shot)-> 風格(impasto風格)-> 主題(幻想主題)-> 主要環境(日間森林)-> 背景(漸變背景)-> 動作(坐在地上)-> 表情(面無表情)-> 主要特徵(白髮)-> 身體特徵(雙馬尾、綠眼、分唇)-> 服裝(穿白色連衣裙)-> 服飾配件(荷葉邊)-> 其他物品(一隻貓)-> 次要環境(草地、陽光)-> 美學(美麗色彩,細緻,唯美)-> 品質((最佳品質:1.3))
負面提示詞:(最差品質:1.3)、低品質、低解析度、混亂、抽象、醜陋、畸形、解剖錯誤、草稿、變形手、融合手指、簽名、文字、多視角等。
1.2 生成參數
解析度:確保總像素數量(寬度*高度)約為1024*1024,並且寬高為32的整除數,這樣AIDXL能產生最佳效果。例如:832x1216(2:3)、1216x832(3:2)及1024x1024(1:1)等。
取樣器與步驟:使用 "Euler Ancester" 取樣器,在webui中稱為 Euler A。通常在 7 至 9 的 CFG Scale 上取樣約28步。
“精煉”方法:文字轉圖像工具生成的圖像有時會模糊,可以透過 image2image 或修補等方法進行“精煉”。
簡單放大可參考:使用 SD Upscale 放大並添加細節,非常簡單! : r/StableDiffusion (reddit.com)
其他組件:無需使用額外精煉模型。請使用模型自帶的 VAE 或
sdxl-vae。
問:如何重現模型封面?為何使用相同參數無法復刻完全相同的封面圖?
答:封面中所示的生成參數不是文字轉圖像參數,而是影像放大(image2image)參數。基礎圖像大多使用Euler Ancester 取樣器生成,而非 DPM 取樣器。
2 特殊使用
2.1 泛風格化
從版本0.7起,AIDXL歸納多種相似風格,引入了泛風格觸發詞,每個詞代表一種常見二次元插畫風格類別。請注意,泛風格觸發詞並不一定符合其詞義的藝術含義,乃是重新定義的特殊觸發詞。
2.2 角色
0.7版本強化了角色訓練。部分角色觸發詞的效果能接近Lora,且能明確分離角色概念與服裝。
角色觸發格式為:{character} \({copyright}\)。例如,觸發動畫《Cyberpunk: Edgerunners》中的女主Lucy用lucy \(cyberpunk\);觸發遊戲《Genshin Impact》中的角色甘雨用ganyu \(genshin impact\)。這裡「lucy」和「ganyu」為角色名,「\(cyberpunk\)」和「\(genshin impact\)」為作品名,括號以反斜線轉義防止被解析成加權標籤。部分角色不需添加作品名。
角色觸發詞列表參考:selected_tags.csv · SmilingWolf/wd-v1-4-convnext-tagger-v2 at main (huggingface.co),也可能包含未在文檔中提及的額外觸發詞。
部分角色需額外觸發提示詞,若單一觸發詞無法完整還原,需補充角色主要特徵提示。
AIDXL支持角色服裝變換。角色觸發詞通常不包含服裝特徵,如需添加服裝,需在提示詞中補充服裝標籤。例如,silver evening gown, plunging neckline 可以描述遊戲《Azur Lane》中角色St. Louis(Luxurious Wheels)的禮服。同理,任意角色的服裝標籤均可套用於其他角色。
2.3 品質標籤
從0.7版本起,品質及美學標籤已正式訓練,在提示詞中使用會影響生成圖像品質。
品質標籤分六級,由高至低:amazing quality、best quality、high quality、normal quality、low quality、及worst quality。
建議增加品質標籤權重,如(amazing quality:1.5)。
2.4 美學標籤
0.7版本起引入用以描述圖像特殊美學特徵的標籤。
2.5 風格融合
支持合併多種風格觸發詞於自訂風格中。所謂“合併”即一次使用多個風格標籤。例如,chun-li, amazing quality, (by yoneyama mai:0.9), (by chi4:0.8), by ask, by modare, (by ikky:0.9).
技巧:
控制各風格標籤的權重與順序以調整最終風格。
將風格標籤置於提示詞末尾而非開頭。
IV 訓練策略與參數
AIDXLv0.1
以 SDXL1.0 作為底模,利用約 2.2 萬張標註圖片,在餘弦學習率調度器、學習率 5e-6、循環次數1下訓練約 100 期得到模型A。後以學習率 2e-7,其他參數相同,訓練得到模型B。將 A 與 B 融合得 AIDXLv0.1。
AIDXLv0.51
訓練策略
從 AIDXLv0.5 繼續訓練,分三階段流水線進行:
長標註訓練:全數據集(部分人工標註)。同時訓練 U-Net 與文本編碼器,使用 AdamW8bit 優化器、高學習率(~1.5e-6)與餘弦調度器,當學習率降至閾值(~5e-7)停止訓練。
短標註訓練:以第1步輸出為起點,參數不變,使用短標註資料集。
精煉階段:第1步數據集子集,包含人工挑選高品質圖片。從步驟2輸出繼續訓練,低學習率(~7.5e-7),餘弦調度器重啟5至10次,直到結果具有美學品質。
固定訓練參數
無額外噪聲如噪聲偏移;
最小SNR gamma=5,加快訓練;
全bf16精度;
AdamW8bit優化器,兼顧效率與性能。
資料集
解析度:1024x1024,利用修改版官方SDXL分桶策略;
標註:使用 WD14-Swinv2 模型,閾值0.35;
特寫裁剪:切分多個特寫,適用於大型或稀有圖像;
觸發詞:保留圖片首個標籤作為觸發詞。
AIDXLv0.6
訓練策略
從 AIDXLv0.52 繼續訓練,採用自適應重複策略——對每張標註圖片增減訓練次數,依規則:
規則1:圖片質量越高,重複次數越多;
規則2:若圖片屬於某風格類別:
類別未擬合或欠擬合,則手動或自動增加該類別圖片重複次數,直至總重複約100次;
已擬合或過擬合,強制將重複次數設為1,且質量低者刪除;
規則3:每張圖片的重複次數不超過約10次。
此策略優點:
保護模型原有資訊,類似正則化圖像;
使訓練數據影響可控;
平衡不同類別訓練,激勵欠擬合類別,防止過擬合類別;
節約運算資源,更方便新增風格。
固定訓練參數
同 AIDXLv0.51。
資料集
基於 AIDXLv0.51,額外優化:
標註語義排序:按語義序排序標籤,如"gun, 1boy, holding, short hair"調整為"1boy, short hair, holding, gun";
標註去重:刪除相似重複標籤,保留信息量最大者,如“long hair”與“very long hair”;
補充標籤:手動添加額外標籤,如“high quality”、“impasto”等,可藉工具快速完成。
V 特別感謝
算力贊助:感謝@NieTa社區(捏Ta (nieta.art))提供算力支援;
數據支持:感謝@KirinTea_Aki(KirinTea_Aki Creator Profile | Civitai)及@Chenkin(Civitai | Share your models)提供大量數據支持;
沒有他們就沒有 0.7 版本。
VI AIDXL 與 AID 比較
2023/08/08。AIDXL 使用與 AIDv2.10 相同的訓練集訓練,但性能優於 AIDv2.10。AIDXL 更智能,能實現許多基於 SD1.5 的模型無法做到的功能。它也較好區分概念,學習圖像細節,處理SD1.5與AID難以達成的構圖。整體來說,潛力巨大,我將繼續更新AIDXL。
VII 贊助
如果您喜歡我們的作品,歡迎透過 Ko-fi(https://ko-fi.com/eugeai) 贊助我們,以支持研發。感謝您的支持~
模型介紹(中文部分)
I 目錄
在本介紹中,您將了解:
模型介紹(見 II 部分);
使用指南(見 III 部分);
訓練參數(見 IV 部分);
觸發詞列表(見附錄 A 部分)
II 模型介紹
動漫插畫設計XL,簡稱 AIDXL,是一款專門用於生成二次元插圖的模型。它內置超過 800 種(且持續更新)插畫風格,透過特定觸發詞(見附錄 A 部分)觸發。
優點:構圖大膽,沒有擺拍感,主體突出,細節不繁雜,對多種動漫角色有良好識別(依靠角色日文名拼音觸發,例如“ayanami rei”為“綾波麗”,“kamado nezuko”為“祢豆子”)。
III 使用指南(持續更新中)
1 基本用法
1.1 提示詞書寫
使用觸發詞:使用附錄 A 提供的觸發詞以風格化圖像。合適的觸發詞將大幅提升生成品質;
提示詞標籤化:使用標籤化的提示詞描述生成對象;
提示詞排序:排序提示詞有助模型理解詞義。推薦標籤順序:
觸發詞(by xxx)->主角(1girl)->角色(frieren)->種族(elf)->構圖(cowboy shot)->風格(impasto)->主題(fantasy)->主要環境(forest, day)->背景(gradient background)->動作(sitting)->表情(expressionless)->主要人物特徵(white hair)->人體特徵(twintails, green eyes, parted lip)->服飾(white dress)->服裝配件(frills)->其他物品(magic wand)->次要環境(grass, sunshine)->美學(beautiful color, detailed, aesthetic)->品質(best quality)
負面提示詞:worst quality, low quality, lowres, messy, abstract, ugly, disfigured, bad anatomy, deformed hands, fused fingers, signature, text, multi views
1.2 生成參數
解析度:確保圖像總解析度(寬x高)約1024x1024,且寬高為32整除數。例如,832x1216 (3:2), 1216x832 (3:2), 及 1024x1024 (1:1)。
不啟用“Clip Skip”,即 Clip Skip=1。
取樣器與 步數:使用 “euler_ancester” 取樣器(webui稱 Euler A),通常於 7 CFG Scale 下取樣 28 步。
只使用模型本體,無需 Refiner 精煉器。
使用基底模型 VAE 或 sdxl-vae。
2 特殊用法
2.1 泛風格化
版本0.7起,歸納多種相似插畫風格,引入泛風格觸發詞,每詞代表一常見動漫插畫風格類別。
請注意,泛風格詞不必符合其詞義的藝術定義,而是特殊重新定義的觸發詞。
2.2 角色
0.7版本強化了角色訓練。部分角色觸發詞能達到 Lora 水平,可有效分離角色與服裝概念。
角色觸發方式為 角色名 \(作品\)。如動畫《賽博朋克:邊緣行者》女主 Lucy 用 lucy \(cyberpunk\);遊戲《原神》角色甘雨用 ganyu \(genshin impact\)。括號以斜線“\”轉義防止被解讀為加權標籤。部分角色不需作品名。
角色觸發詞列表參考 selected_tags.csv · SmilingWolf/wd-v1-4-convnext-tagger-v2 at main (huggingface.co)。另外,可能包含未文檔提及的額外觸發詞。
用時若單一觸發詞無法完整復原角色,需補充該角色主要特徵做為提示。
AIDXL 支持角色衣著更換。角色觸發詞通常不涵蓋服裝特徵,欲增加服裝描述,需補充服裝提示詞。如遊戲《碧藍航線》中角色聖路易斯 (st. louis \(luxurious wheels\) \(azur lane\)) 的禮服,提示詞為 silver evening gown, plunging neckline。類似可將任意角色服軟提示詞應用於其他角色。
2.3 品質標籤
0.7版本起,品質與美學標籤正式訓練,提示詞內包含會影響生成質量。
品質分六級:從優到劣為 amazing quality、best quality、high quality、normal quality、low quality 及 worst quality。
建議增加權重,如(amazing quality:1.5)。
2.4 美學標籤
0.7版本起,引入美學標籤描述圖像特殊美感。
2.5 風格融合
可將多種風格合併到自訂風格中。"合併"即同時使用多個風格觸發詞。如chun-li, amazing quality, (by yoneyama mai:0.9), (by chi4:0.8), by ask, by modare, (by ikky:0.9).
建議:
控制各風格權重與先後順序以達理想風格;
將風格標籤置於提示詞尾端。
3 注意事項
使用 SDXL 支持的 VAE、文本嵌入(embeddings)與 Lora 模型。注意:sd-vae-ft-mse-original 不支持 SDXL;EasyNegative、badhandv4 等負面文本嵌入亦不支持 SDXL;
對 0.61 及以下版本,強烈建議使用該模型專用負面文本嵌入(見建議資源欄下載),因專為該模型設計,基本僅有正面效果;
各版本新增的觸發詞於當前版本中效果可能較弱或不穩定。
IV 訓練參數
以 SDXL1.0 為底模,使用約 2 萬張自標註圖片,在學習率 5e-6、迴圈 1 的餘弦調度上訓練約 100 期得模型 A;再以學習率 2e-7 且其餘相同參數訓練得模型 B。將 A 與 B 融合,得 AIDXLv0.1 模型。
其他訓練參數請參照英文版本介紹。
V 特別鳴謝
算力贊助:感謝 @捏Ta 社區(捏Ta (nieta.art))提供算力支援;
數據支持:感謝 @秋麒麟熱茶(KirinTea_Aki Creator Profile | Civitai)及 @風吟(Chenkin Creator Profile | Civitai)提供大量數據支持;
沒有他們就不會有 0.7 版本。
VI 更新日誌
2023/08/08:AIDXL 使用與 AIDv2.10 相同訓練集,但表現優於 AIDv2.10。AIDXL 更智能,能做到許多基於 SD1.5 的模型無法完成的事。它亦能更好區分概念、學習細節、處理對 SD1.5 困難的構圖,近乎完美掌握舊版 AID 無法掌控的風格。整體來說,具備比 SD1.5 更高的潛力,我會持續更新 AIDXL。
2024/01/27:0.7 版本新增大量內容,數據集規模超過上一版本兩倍。
為達滿意標註,嘗試新標籤處理算法,如標籤排序、分層隨機化、角色特徵分離等。項目連結:Eugeoter/sd-dataset-manager (github.com);
為提高訓練可控性,自製基於 Kohya-ss 的訓練腳本;
開發啟發式模型融合算法掌控不同世代模型融合過程;放棄融合文本編碼器與 UNET OUT 層以維持風格穩定及美學;
訓練水印檢測、圖像分類、美學評分三個模型輔助數據清洗。
VII 贊助我們
若喜歡我們工作,歡迎透過 Ko-fi(https://ko-fi.com/eugeai) 贊助支持研發,謝謝您的支持!
附錄 / Appendix
A. 特殊觸發詞列表 / Special Trigger Words List
藝術風格觸發詞:點擊查看
繪畫風格觸發詞:flat color, clean color, celluloid, flat-pasto, thin-pasto, pseudo-impasto, impasto, realistic, photorealistic, cel shading, 3d
flat color:平塗,用線條描繪光影
平涂:平面色彩,使用線條和色塊描述光影和層次
clean color:介於平塗和平厚塗間,簡潔著色
具有簡潔色彩的平塗,介於 flat color 和 flat-pasto 之間
celluloid:動漫著色
平塗賽璐璐:二次元著色風格
flat-pasto:近似平面色,使用漸層描繪光影
接近平面的色彩,使用漸變描述光影和層次
thin-pasto:細緻輪廓,利用漸層與顏料厚度描繪光影
細輪廓勾線,使用漸變和顏料厚度描述光影和層次

pseudo-impasto:用漸層和顏料厚度描繪光影
偽厚塗/半厚塗:使用漸變和顏料厚度描述光影和層次
impasto:用顏料厚度描繪光影層次
厚塗:使用顏料厚度描述光影和層次
realistic
寫實
photorealistic:重定義為接近真實世界風格
照片寫實主義:重定義為對應現實風格
cel shading:動漫3D建模風格
卡通渲染:二次元三維建模風格
3d

美學觸發詞:
beautiful
美麗
aesthetic:稍帶抽象藝術感
唯美:帶點抽象藝術感
detailed
細緻
beautiful color:色彩優雅
協調色彩:精妙配色
lowres
messy:構圖或細節混亂
雜亂:構圖及細節凌亂
品質觸發詞:amazing quality, best quality, high quality, low quality, worst quality










