模型/Anime Illust Diffusion XL - v0.5-alpha

Anime Illust Diffusion XL - v0.5-alpha

陳嘉欣 (Chan Ka-yan)

5/24/2025

1:16:03 AM

| Discussion|

提示

降低藝術家風格觸發詞權重，如 (by xxx:0.6)。

排列提示詞標籤以獲更佳結果。

使用模型自帶 VAE 或 sdxl-vae。

版本亮點

新增了143個觸發詞。此版本為 AIDXLv0.5 測試版，新風格尚不穩定。若非嘗鮮，推薦使用 AIDXLv0.41。

Added 143 new trigger words. This version is a beta release of AIDXLv0.5. The new styles are unstable. For better experience, I recommend AIDXLv0.41.

創作者贊助

算力贊助：感謝@NieTa社區（捏Ta (nieta.art )）提供算力支持；

數據支持：感謝@KirinTea_Aki（KirinTea_Aki Creator Profile | Civitai）與@Chenkin（Civitai | Share your models）提供大量數據支持；

沒有他們就不會有 0.7 版本。

模型介紹（英文部分）

I 目錄

在本介紹中，您將了解：

模型資訊（見 II 部分）；
使用說明（見 III 部分）；
訓練參數（見 IV 部分）；
觸發詞列表（見 附錄 A 部分）；

II AIDXL

Anime Illustration Diffusion XL，簡稱AIDXL，是一款專注於生成風格化二次元插圖的模型。它內置超過800種插畫風格（持續更新中），可通過特定觸發詞（見 附錄 A）調用。

優勢：

靈活構圖，不同於傳統 AI 擺拍；
細節精巧，避免混亂凌亂；
具良好動漫角色識別能力；

III 使用指南

1 基本使用

1.1 提示詞

觸發詞：添加附錄 A 中提供的觸發詞以強化風格。適合的觸發詞將顯著提升質量；
建議降低藝術家風格觸發詞的權重，例如 (by xxx:0.6)。
語義排序：調整提示詞標籤或語句順序有助模型理解。
推薦順序：觸發詞（by xxx）-> 角色（一名來自 sousou no frieren 系列的 frieren 女孩）-> 種族（精靈）-> 構圖（cowboy shot）-> 風格（impasto風格）-> 主題（幻想主題）-> 主要環境（日間森林）-> 背景（漸變背景）-> 動作（坐在地上）-> 表情（面無表情）-> 主要特徵（白髮）-> 身體特徵（雙馬尾、綠眼、分唇）-> 服裝（穿白色連衣裙）-> 服飾配件（荷葉邊）-> 其他物品（一隻貓）-> 次要環境（草地、陽光）-> 美學（美麗色彩，細緻，唯美）-> 品質（(最佳品質:1.3)）
負面提示詞：（最差品質:1.3）、低品質、低解析度、混亂、抽象、醜陋、畸形、解剖錯誤、草稿、變形手、融合手指、簽名、文字、多視角等。

1.2 生成參數

解析度：確保總像素數量（寬度*高度）約為1024*1024，並且寬高為32的整除數，這樣AIDXL能產生最佳效果。例如：832x1216（2:3）、1216x832（3:2）及1024x1024（1:1）等。
取樣器與步驟：使用 "Euler Ancester" 取樣器，在webui中稱為 Euler A。通常在 7 至 9 的 CFG Scale 上取樣約28步。
“精煉”方法：文字轉圖像工具生成的圖像有時會模糊，可以透過 image2image 或修補等方法進行“精煉”。
簡單放大可參考：使用 SD Upscale 放大並添加細節，非常簡單！ : r/StableDiffusion (reddit.com )
其他組件：無需使用額外精煉模型。請使用模型自帶的 VAE 或 sdxl-vae。

問：如何重現模型封面？為何使用相同參數無法復刻完全相同的封面圖？

答：封面中所示的生成參數不是文字轉圖像參數，而是影像放大（image2image）參數。基礎圖像大多使用Euler Ancester 取樣器生成，而非 DPM 取樣器。

2 特殊使用

2.1 泛風格化

從版本0.7起，AIDXL歸納多種相似風格，引入了泛風格觸發詞，每個詞代表一種常見二次元插畫風格類別。請注意，泛風格觸發詞並不一定符合其詞義的藝術含義，乃是重新定義的特殊觸發詞。

2.2 角色

0.7版本強化了角色訓練。部分角色觸發詞的效果能接近Lora，且能明確分離角色概念與服裝。

角色觸發格式為：{character} \({copyright}\)。例如，觸發動畫《Cyberpunk: Edgerunners》中的女主Lucy用lucy \(cyberpunk\)；觸發遊戲《Genshin Impact》中的角色甘雨用ganyu \(genshin impact\)。這裡「lucy」和「ganyu」為角色名，「\(cyberpunk\)」和「\(genshin impact\)」為作品名，括號以反斜線轉義防止被解析成加權標籤。部分角色不需添加作品名。

角色觸發詞列表參考：selected_tags.csv · SmilingWolf/wd-v1-4-convnext-tagger-v2 at main (huggingface.co )，也可能包含未在文檔中提及的額外觸發詞。

部分角色需額外觸發提示詞，若單一觸發詞無法完整還原，需補充角色主要特徵提示。

AIDXL支持角色服裝變換。角色觸發詞通常不包含服裝特徵，如需添加服裝，需在提示詞中補充服裝標籤。例如，silver evening gown, plunging neckline 可以描述遊戲《Azur Lane》中角色St. Louis（Luxurious Wheels）的禮服。同理，任意角色的服裝標籤均可套用於其他角色。

2.3 品質標籤

從0.7版本起，品質及美學標籤已正式訓練，在提示詞中使用會影響生成圖像品質。

品質標籤分六級，由高至低：amazing quality、best quality、high quality、normal quality、low quality、及worst quality。

建議增加品質標籤權重，如(amazing quality:1.5)。

2.4 美學標籤

0.7版本起引入用以描述圖像特殊美學特徵的標籤。

2.5 風格融合

支持合併多種風格觸發詞於自訂風格中。所謂“合併”即一次使用多個風格標籤。例如，chun-li, amazing quality, (by yoneyama mai:0.9), (by chi4:0.8), by ask, by modare, (by ikky:0.9).

技巧：

控制各風格標籤的權重與順序以調整最終風格。
將風格標籤置於提示詞末尾而非開頭。

IV 訓練策略與參數

AIDXLv0.1

以 SDXL1.0 作為底模，利用約 2.2 萬張標註圖片，在餘弦學習率調度器、學習率 5e-6、循環次數1下訓練約 100 期得到模型A。後以學習率 2e-7，其他參數相同，訓練得到模型B。將 A 與 B 融合得 AIDXLv0.1。

AIDXLv0.51

訓練策略

從 AIDXLv0.5 繼續訓練，分三階段流水線進行：

長標註訓練：全數據集（部分人工標註）。同時訓練 U-Net 與文本編碼器，使用 AdamW8bit 優化器、高學習率(~1.5e-6)與餘弦調度器，當學習率降至閾值(~5e-7)停止訓練。
短標註訓練：以第1步輸出為起點，參數不變，使用短標註資料集。
精煉階段：第1步數據集子集，包含人工挑選高品質圖片。從步驟2輸出繼續訓練，低學習率(~7.5e-7)，餘弦調度器重啟5至10次，直到結果具有美學品質。

固定訓練參數

無額外噪聲如噪聲偏移；
最小SNR gamma=5，加快訓練；
全bf16精度；
AdamW8bit優化器，兼顧效率與性能。

資料集

解析度：1024x1024，利用修改版官方SDXL分桶策略；
標註：使用 WD14-Swinv2 模型，閾值0.35；
特寫裁剪：切分多個特寫，適用於大型或稀有圖像；
觸發詞：保留圖片首個標籤作為觸發詞。

AIDXLv0.6

訓練策略

從 AIDXLv0.52 繼續訓練，採用自適應重複策略——對每張標註圖片增減訓練次數，依規則：

規則1：圖片質量越高，重複次數越多；
規則2：若圖片屬於某風格類別：
- 類別未擬合或欠擬合，則手動或自動增加該類別圖片重複次數，直至總重複約100次；
- 已擬合或過擬合，強制將重複次數設為1，且質量低者刪除；
規則3：每張圖片的重複次數不超過約10次。

此策略優點：

保護模型原有資訊，類似正則化圖像；
使訓練數據影響可控；
平衡不同類別訓練，激勵欠擬合類別，防止過擬合類別；
節約運算資源，更方便新增風格。

固定訓練參數

同 AIDXLv0.51。

資料集

基於 AIDXLv0.51，額外優化：

標註語義排序：按語義序排序標籤，如"gun, 1boy, holding, short hair"調整為"1boy, short hair, holding, gun"；
標註去重：刪除相似重複標籤，保留信息量最大者，如“long hair”與“very long hair”；
補充標籤：手動添加額外標籤，如“high quality”、“impasto”等，可藉工具快速完成。

V 特別感謝

算力贊助：感謝@NieTa社區（捏Ta (nieta.art )）提供算力支援；

數據支持：感謝@KirinTea_Aki（KirinTea_Aki Creator Profile | Civitai）及@Chenkin（Civitai | Share your models）提供大量數據支持；

沒有他們就沒有 0.7 版本。

VI AIDXL 與 AID 比較

2023/08/08。AIDXL 使用與 AIDv2.10 相同的訓練集訓練，但性能優於 AIDv2.10。AIDXL 更智能，能實現許多基於 SD1.5 的模型無法做到的功能。它也較好區分概念，學習圖像細節，處理SD1.5與AID難以達成的構圖。整體來說，潛力巨大，我將繼續更新AIDXL。

VII 贊助

如果您喜歡我們的作品，歡迎透過 Ko-fi(https://ko-fi.com/eugeai) 贊助我們，以支持研發。感謝您的支持～

模型介紹（中文部分）

I 目錄

在本介紹中，您將了解：

模型介紹（見 II 部分）；
使用指南（見 III 部分）；
訓練參數（見 IV 部分）；
觸發詞列表（見附錄 A 部分）

II 模型介紹

動漫插畫設計XL，簡稱 AIDXL，是一款專門用於生成二次元插圖的模型。它內置超過 800 種（且持續更新）插畫風格，透過特定觸發詞（見附錄 A 部分）觸發。

優點：構圖大膽，沒有擺拍感，主體突出，細節不繁雜，對多種動漫角色有良好識別（依靠角色日文名拼音觸發，例如“ayanami rei”為“綾波麗”，“kamado nezuko”為“祢豆子”）。

III 使用指南（持續更新中）

1 基本用法

1.1 提示詞書寫

使用觸發詞：使用附錄 A 提供的觸發詞以風格化圖像。合適的觸發詞將大幅提升生成品質；
提示詞標籤化：使用標籤化的提示詞描述生成對象；
提示詞排序：排序提示詞有助模型理解詞義。推薦標籤順序：
觸發詞（by xxx）->主角（1girl）->角色（frieren）->種族（elf）->構圖（cowboy shot）->風格（impasto）->主題（fantasy）->主要環境（forest, day）->背景（gradient background）->動作（sitting）->表情（expressionless）->主要人物特徵（white hair）->人體特徵（twintails, green eyes, parted lip）->服飾（white dress）->服裝配件（frills）->其他物品（magic wand）->次要環境（grass, sunshine）->美學（beautiful color, detailed, aesthetic）->品質（best quality）
負面提示詞：worst quality, low quality, lowres, messy, abstract, ugly, disfigured, bad anatomy, deformed hands, fused fingers, signature, text, multi views

1.2 生成參數

解析度：確保圖像總解析度（寬x高）約1024x1024，且寬高為32整除數。例如，832x1216 (3:2), 1216x832 (3:2), 及 1024x1024 (1:1)。
不啟用“Clip Skip”，即 Clip Skip=1。
取樣器與步數：使用 “euler_ancester” 取樣器（webui稱 Euler A），通常於 7 CFG Scale 下取樣 28 步。
只使用模型本體，無需 Refiner 精煉器。
使用基底模型 VAE 或 sdxl-vae。

2 特殊用法

2.1 泛風格化

版本0.7起，歸納多種相似插畫風格，引入泛風格觸發詞，每詞代表一常見動漫插畫風格類別。

請注意，泛風格詞不必符合其詞義的藝術定義，而是特殊重新定義的觸發詞。

2.2 角色

0.7版本強化了角色訓練。部分角色觸發詞能達到 Lora 水平，可有效分離角色與服裝概念。

角色觸發方式為 角色名 \(作品\)。如動畫《賽博朋克：邊緣行者》女主 Lucy 用 lucy \(cyberpunk\)；遊戲《原神》角色甘雨用 ganyu \(genshin impact\)。括號以斜線“\”轉義防止被解讀為加權標籤。部分角色不需作品名。

角色觸發詞列表參考 selected_tags.csv · SmilingWolf/wd-v1-4-convnext-tagger-v2 at main (huggingface.co )。另外，可能包含未文檔提及的額外觸發詞。

用時若單一觸發詞無法完整復原角色，需補充該角色主要特徵做為提示。

AIDXL 支持角色衣著更換。角色觸發詞通常不涵蓋服裝特徵，欲增加服裝描述，需補充服裝提示詞。如遊戲《碧藍航線》中角色聖路易斯 (st. louis \(luxurious wheels\) \(azur lane\)) 的禮服，提示詞為 silver evening gown, plunging neckline。類似可將任意角色服軟提示詞應用於其他角色。

2.3 品質標籤

0.7版本起，品質與美學標籤正式訓練，提示詞內包含會影響生成質量。

品質分六級：從優到劣為 amazing quality、best quality、high quality、normal quality、low quality 及 worst quality。

建議增加權重，如(amazing quality:1.5)。

2.4 美學標籤

0.7版本起，引入美學標籤描述圖像特殊美感。

2.5 風格融合

可將多種風格合併到自訂風格中。"合併"即同時使用多個風格觸發詞。如chun-li, amazing quality, (by yoneyama mai:0.9), (by chi4:0.8), by ask, by modare, (by ikky:0.9).

建議：

控制各風格權重與先後順序以達理想風格；
將風格標籤置於提示詞尾端。

3 注意事項

使用 SDXL 支持的 VAE、文本嵌入（embeddings）與 Lora 模型。注意：sd-vae-ft-mse-original 不支持 SDXL；EasyNegative、badhandv4 等負面文本嵌入亦不支持 SDXL；
對 0.61 及以下版本，強烈建議使用該模型專用負面文本嵌入（見建議資源欄下載），因專為該模型設計，基本僅有正面效果；
各版本新增的觸發詞於當前版本中效果可能較弱或不穩定。

IV 訓練參數

以 SDXL1.0 為底模，使用約 2 萬張自標註圖片，在學習率 5e-6、迴圈 1 的餘弦調度上訓練約 100 期得模型 A；再以學習率 2e-7 且其餘相同參數訓練得模型 B。將 A 與 B 融合，得 AIDXLv0.1 模型。

其他訓練參數請參照英文版本介紹。

V 特別鳴謝

算力贊助：感謝 @捏Ta 社區（捏Ta (nieta.art )）提供算力支援；

數據支持：感謝 @秋麒麟熱茶（KirinTea_Aki Creator Profile | Civitai）及 @風吟（Chenkin Creator Profile | Civitai）提供大量數據支持；

沒有他們就不會有 0.7 版本。

VI 更新日誌

2023/08/08：AIDXL 使用與 AIDv2.10 相同訓練集，但表現優於 AIDv2.10。AIDXL 更智能，能做到許多基於 SD1.5 的模型無法完成的事。它亦能更好區分概念、學習細節、處理對 SD1.5 困難的構圖，近乎完美掌握舊版 AID 無法掌控的風格。整體來說，具備比 SD1.5 更高的潛力，我會持續更新 AIDXL。

2024/01/27：0.7 版本新增大量內容，數據集規模超過上一版本兩倍。

為達滿意標註，嘗試新標籤處理算法，如標籤排序、分層隨機化、角色特徵分離等。項目連結：Eugeoter/sd-dataset-manager (github.com )；
為提高訓練可控性，自製基於 Kohya-ss 的訓練腳本；
開發啟發式模型融合算法掌控不同世代模型融合過程；放棄融合文本編碼器與 UNET OUT 層以維持風格穩定及美學；
訓練水印檢測、圖像分類、美學評分三個模型輔助數據清洗。

VII 贊助我們

若喜歡我們工作，歡迎透過 Ko-fi(https://ko-fi.com/eugeai) 贊助支持研發，謝謝您的支持！

附錄 / Appendix

A. 特殊觸發詞列表 / Special Trigger Words List

藝術風格觸發詞：點擊查看

繪畫風格觸發詞：flat color, clean color, celluloid, flat-pasto, thin-pasto, pseudo-impasto, impasto, realistic, photorealistic, cel shading, 3d
- flat color：平塗，用線條描繪光影
  平涂：平面色彩，使用線條和色塊描述光影和層次
- clean color：介於平塗和平厚塗間，簡潔著色
  具有簡潔色彩的平塗，介於 flat color 和 flat-pasto 之間
- celluloid：動漫著色
  平塗賽璐璐：二次元著色風格
- flat-pasto：近似平面色，使用漸層描繪光影
  接近平面的色彩，使用漸變描述光影和層次
- thin-pasto：細緻輪廓，利用漸層與顏料厚度描繪光影
  細輪廓勾線，使用漸變和顏料厚度描述光影和層次
- pseudo-impasto：用漸層和顏料厚度描繪光影
  偽厚塗／半厚塗：使用漸變和顏料厚度描述光影和層次
- impasto：用顏料厚度描繪光影層次
  厚塗：使用顏料厚度描述光影和層次
- realistic
  寫實
- photorealistic：重定義為接近真實世界風格
  照片寫實主義：重定義為對應現實風格
- cel shading：動漫3D建模風格
  卡通渲染：二次元三維建模風格
- 3d
美學觸發詞：
- beautiful
  美麗
- aesthetic：稍帶抽象藝術感
  唯美：帶點抽象藝術感
- detailed
  細緻
- beautiful color：色彩優雅
  協調色彩：精妙配色
- lowres
- messy：構圖或細節混亂
  雜亂：構圖及細節凌亂
品質觸發詞：amazing quality, best quality, high quality, low quality, worst quality