模型/Anime Illust Diffusion XL - v0.5-alpha

Anime Illust Diffusion XL - v0.5-alpha

|
5/24/2025
|
1:16:03 AM
| Discussion|
0
一位穿著紅色連衣裙、長髮飄逸的動畫女孩,站在聚光燈下。使用 Stable Diffusion 生成的 AI 圖像。
一位動漫風格角色,擁有長且略微凌亂的深色頭髮,額頭上有傷疤,戴著耳環。角色穿著時尚外套,表情輕鬆,臉上有微妙的汗珠。背景是一座繁忙的夜間城市景觀,有霓虹燈招牌和濕潤表面的反光,帶有賽博朋克的感覺。
動漫風格圖片:一位長黑髮、有臉部疤痕,穿傳統日本服飾的男子。使用 Stable Diffusion AI 生成的圖像。
一位哥德風格的動漫女孩,綁著黑色雙馬尾,穿著暗紅與黑色維多利亞風格服裝,使用Stable Diffusion創作。
優雅的數位藝術肖像,描繪一名綴有紅色花飾髮飾的亞洲黑髮女性。女性身穿帶有複雜圖案的傳統服裝。背景模糊且有散景燈光。

推薦提示詞

frieren from sousou no frieren,impasto style,beautiful color, detailed, aesthetic

best quality,masterpiece,vivid color,1girl,solo,bangs

推薦反向提示詞

worst quality:1.3,low quality,lowres,messy,abstract,ugly,disfigured,bad anatomy,draft,deformed hands,fused fingers,signature,text,multi views

aidxl_neg

推薦參數

samplers

DPM++ 2M Karras

steps

30 - 35

cfg

7

resolution

1664x2496, 1760x2352, 2496x1664

vae

sdxl_vae.safetensors (235745af8d)

other models

0013.fp16 (c57cecf7c7), 0017.fp16 (910c87ca13)

推薦高解析度參數

denoising strength

0.37

提示

降低藝術家風格觸發詞權重,如 (by xxx:0.6)。

排列提示詞標籤以獲更佳結果。

使用模型自帶 VAE 或 sdxl-vae。

版本亮點

新增了143個觸發詞。此版本為 AIDXLv0.5 測試版,新風格尚不穩定。若非嘗鮮,推薦使用 AIDXLv0.41。

Added 143 new trigger words. This version is a beta release of AIDXLv0.5. The new styles are unstable. For better experience, I recommend AIDXLv0.41.

創作者贊助

算力贊助:感謝@NieTa社區(捏Ta (nieta.art))提供算力支持;

數據支持:感謝@KirinTea_AkiKirinTea_Aki Creator Profile | Civitai)與@Chenkin(Civitai | Share your models)提供大量數據支持;

沒有他們就不會有 0.7 版本。

模型介紹(英文部分)

I 目錄

在本介紹中,您將了解:

  1. 模型資訊(見 II 部分);

  2. 使用說明(見 III 部分);

  3. 訓練參數(見 IV 部分);

  4. 觸發詞列表(見 附錄 A 部分);

II AIDXL

Anime Illustration Diffusion XL,簡稱AIDXL,是一款專注於生成風格化二次元插圖的模型。它內置超過800種插畫風格(持續更新中),可通過特定觸發詞(見 附錄 A)調用。

優勢

  • 靈活構圖,不同於傳統 AI 擺拍;

  • 細節精巧,避免混亂凌亂;

  • 具良好動漫角色識別能力;

III 使用指南

1 基本使用

1.1 提示詞

  1. 觸發詞:添加附錄 A 中提供的觸發詞以強化風格。適合的觸發詞將顯著提升質量;

    建議降低藝術家風格觸發詞的權重,例如 (by xxx:0.6)

  2. 語義排序:調整提示詞標籤或語句順序有助模型理解。

    推薦順序:觸發詞(by xxx)-> 角色(一名來自 sousou no frieren 系列的 frieren 女孩)-> 種族(精靈)-> 構圖(cowboy shot)-> 風格impasto風格)-> 主題(幻想主題)-> 主要環境(日間森林)-> 背景(漸變背景)-> 動作(坐在地上)-> 表情(面無表情)-> 主要特徵(白髮)-> 身體特徵(雙馬尾、綠眼、分唇)-> 服裝(穿白色連衣裙)-> 服飾配件(荷葉邊)-> 其他物品(一隻貓)-> 次要環境(草地、陽光)-> 美學美麗色彩細緻唯美)-> 品質(最佳品質:1.3)

  3. 負面提示詞:(最差品質:1.3)、低品質低解析度混亂、抽象、醜陋、畸形、解剖錯誤、草稿、變形手、融合手指、簽名、文字、多視角等。

1.2 生成參數

  1. 解析度:確保總像素數量(寬度*高度)約為1024*1024,並且寬高為32的整除數,這樣AIDXL能產生最佳效果。例如:832x1216(2:3)、1216x832(3:2)及1024x1024(1:1)等。

  2. 取樣器與步驟:使用 "Euler Ancester" 取樣器,在webui中稱為 Euler A。通常在 7 至 9 的 CFG Scale 上取樣約28步。

  3. “精煉”方法:文字轉圖像工具生成的圖像有時會模糊,可以透過 image2image 或修補等方法進行“精煉”。

    簡單放大可參考:使用 SD Upscale 放大並添加細節,非常簡單! : r/StableDiffusion (reddit.com)

  4. 其他組件:無需使用額外精煉模型。請使用模型自帶的 VAE 或 sdxl-vae

:如何重現模型封面?為何使用相同參數無法復刻完全相同的封面圖?

:封面中所示的生成參數不是文字轉圖像參數,而是影像放大(image2image)參數。基礎圖像大多使用Euler Ancester 取樣器生成,而非 DPM 取樣器。

2 特殊使用

2.1 泛風格化

從版本0.7起,AIDXL歸納多種相似風格,引入了泛風格觸發詞,每個詞代表一種常見二次元插畫風格類別。請注意,泛風格觸發詞並不一定符合其詞義的藝術含義,乃是重新定義的特殊觸發詞。

2.2 角色

0.7版本強化了角色訓練。部分角色觸發詞的效果能接近Lora,且能明確分離角色概念與服裝。

角色觸發格式為:{character} \({copyright}\)。例如,觸發動畫《Cyberpunk: Edgerunners》中的女主Lucy用lucy \(cyberpunk\);觸發遊戲《Genshin Impact》中的角色甘雨用ganyu \(genshin impact\)。這裡「lucy」和「ganyu」為角色名,「\(cyberpunk\)」和「\(genshin impact\)」為作品名,括號以反斜線轉義防止被解析成加權標籤。部分角色不需添加作品名。

角色觸發詞列表參考:selected_tags.csv · SmilingWolf/wd-v1-4-convnext-tagger-v2 at main (huggingface.co),也可能包含未在文檔中提及的額外觸發詞。

部分角色需額外觸發提示詞,若單一觸發詞無法完整還原,需補充角色主要特徵提示。

AIDXL支持角色服裝變換。角色觸發詞通常不包含服裝特徵,如需添加服裝,需在提示詞中補充服裝標籤。例如,silver evening gown, plunging neckline 可以描述遊戲《Azur Lane》中角色St. Louis(Luxurious Wheels)的禮服。同理,任意角色的服裝標籤均可套用於其他角色。

2.3 品質標籤

從0.7版本起,品質及美學標籤已正式訓練,在提示詞中使用會影響生成圖像品質。

品質標籤分六級,由高至低:amazing qualitybest qualityhigh qualitynormal qualitylow quality、及worst quality

建議增加品質標籤權重,如(amazing quality:1.5)

2.4 美學標籤

0.7版本起引入用以描述圖像特殊美學特徵的標籤。

2.5 風格融合

支持合併多種風格觸發詞於自訂風格中。所謂“合併”即一次使用多個風格標籤。例如,chun-li, amazing quality, (by yoneyama mai:0.9), (by chi4:0.8), by ask, by modare, (by ikky:0.9).

技巧:

  • 控制各風格標籤的權重與順序以調整最終風格。

  • 將風格標籤置於提示詞末尾而非開頭。

IV 訓練策略與參數

AIDXLv0.1

以 SDXL1.0 作為底模,利用約 2.2 萬張標註圖片,在餘弦學習率調度器、學習率 5e-6、循環次數1下訓練約 100 期得到模型A。後以學習率 2e-7,其他參數相同,訓練得到模型B。將 A 與 B 融合得 AIDXLv0.1。

AIDXLv0.51

訓練策略

從 AIDXLv0.5 繼續訓練,分三階段流水線進行:

  1. 長標註訓練:全數據集(部分人工標註)。同時訓練 U-Net 與文本編碼器,使用 AdamW8bit 優化器、高學習率(~1.5e-6)與餘弦調度器,當學習率降至閾值(~5e-7)停止訓練。

  2. 短標註訓練:以第1步輸出為起點,參數不變,使用短標註資料集。

  3. 精煉階段:第1步數據集子集,包含人工挑選高品質圖片。從步驟2輸出繼續訓練,低學習率(~7.5e-7),餘弦調度器重啟5至10次,直到結果具有美學品質。

固定訓練參數

  • 無額外噪聲如噪聲偏移;

  • 最小SNR gamma=5,加快訓練;

  • 全bf16精度;

  • AdamW8bit優化器,兼顧效率與性能。

資料集

  • 解析度:1024x1024,利用修改版官方SDXL分桶策略;

  • 標註:使用 WD14-Swinv2 模型,閾值0.35;

  • 特寫裁剪:切分多個特寫,適用於大型或稀有圖像;

  • 觸發詞:保留圖片首個標籤作為觸發詞。

AIDXLv0.6

訓練策略

從 AIDXLv0.52 繼續訓練,採用自適應重複策略——對每張標註圖片增減訓練次數,依規則:

  • 規則1:圖片質量越高,重複次數越多;

  • 規則2:若圖片屬於某風格類別:

    • 類別未擬合或欠擬合,則手動或自動增加該類別圖片重複次數,直至總重複約100次;

    • 已擬合或過擬合,強制將重複次數設為1,且質量低者刪除;

  • 規則3:每張圖片的重複次數不超過約10次。

此策略優點:

  1. 保護模型原有資訊,類似正則化圖像;

  2. 使訓練數據影響可控;

  3. 平衡不同類別訓練,激勵欠擬合類別,防止過擬合類別;

  4. 節約運算資源,更方便新增風格。

固定訓練參數

同 AIDXLv0.51。

資料集

基於 AIDXLv0.51,額外優化:

  • 標註語義排序:按語義序排序標籤,如"gun, 1boy, holding, short hair"調整為"1boy, short hair, holding, gun";

  • 標註去重:刪除相似重複標籤,保留信息量最大者,如“long hair”與“very long hair”;

  • 補充標籤:手動添加額外標籤,如“high quality”、“impasto”等,可藉工具快速完成。

V 特別感謝

算力贊助:感謝@NieTa社區(捏Ta (nieta.art))提供算力支援;

數據支持:感謝@KirinTea_AkiKirinTea_Aki Creator Profile | Civitai)及@Chenkin(Civitai | Share your models)提供大量數據支持;

沒有他們就沒有 0.7 版本。

VI AIDXL 與 AID 比較

2023/08/08。AIDXL 使用與 AIDv2.10 相同的訓練集訓練,但性能優於 AIDv2.10。AIDXL 更智能,能實現許多基於 SD1.5 的模型無法做到的功能。它也較好區分概念,學習圖像細節,處理SD1.5與AID難以達成的構圖。整體來說,潛力巨大,我將繼續更新AIDXL。

VII 贊助

如果您喜歡我們的作品,歡迎透過 Ko-fi(https://ko-fi.com/eugeai) 贊助我們,以支持研發。感謝您的支持~

模型介紹(中文部分)

I 目錄

在本介紹中,您將了解:

  1. 模型介紹(見 II 部分);

  2. 使用指南(見 III 部分);

  3. 訓練參數(見 IV 部分);

  4. 觸發詞列表(見附錄 A 部分)

II 模型介紹

動漫插畫設計XL,簡稱 AIDXL,是一款專門用於生成二次元插圖的模型。它內置超過 800 種(且持續更新)插畫風格,透過特定觸發詞(見附錄 A 部分)觸發。

優點:構圖大膽,沒有擺拍感,主體突出,細節不繁雜,對多種動漫角色有良好識別(依靠角色日文名拼音觸發,例如“ayanami rei”為“綾波麗”,“kamado nezuko”為“祢豆子”)。

III 使用指南(持續更新中)

1 基本用法

1.1 提示詞書寫

  1. 使用觸發詞:使用附錄 A 提供的觸發詞以風格化圖像。合適的觸發詞將大幅提升生成品質;

  2. 提示詞標籤化:使用標籤化的提示詞描述生成對象;

  3. 提示詞排序:排序提示詞有助模型理解詞義。推薦標籤順序:

    觸發詞(by xxx)->主角(1girl)->角色(frieren)->種族(elf)->構圖(cowboy shot)->風格(impasto)->主題(fantasy)->主要環境(forest, day)->背景(gradient background)->動作(sitting)->表情(expressionless)->主要人物特徵(white hair)->人體特徵(twintails, green eyes, parted lip)->服飾(white dress)->服裝配件(frills)->其他物品(magic wand)->次要環境(grass, sunshine)->美學(beautiful color, detailed, aesthetic)->品質(best quality)

  4. 負面提示詞worst quality, low quality, lowres, messy, abstract, ugly, disfigured, bad anatomy, deformed hands, fused fingers, signature, text, multi views

1.2 生成參數

  1. 解析度:確保圖像總解析度(寬x高)約1024x1024,且寬高為32整除數。例如,832x1216 (3:2), 1216x832 (3:2), 及 1024x1024 (1:1)。

  2. 不啟用“Clip Skip”,即 Clip Skip=1。

  3. 取樣器步數:使用 “euler_ancester” 取樣器(webui稱 Euler A),通常於 7 CFG Scale 下取樣 28 步。

  4. 只使用模型本體,無需 Refiner 精煉器。

  5. 使用基底模型 VAE 或 sdxl-vae。

2 特殊用法

2.1 泛風格化

版本0.7起,歸納多種相似插畫風格,引入泛風格觸發詞,每詞代表一常見動漫插畫風格類別。

請注意,泛風格詞不必符合其詞義的藝術定義,而是特殊重新定義的觸發詞。

2.2 角色

0.7版本強化了角色訓練。部分角色觸發詞能達到 Lora 水平,可有效分離角色與服裝概念。

角色觸發方式為 角色名 \(作品\)。如動畫《賽博朋克:邊緣行者》女主 Lucy 用 lucy \(cyberpunk\);遊戲《原神》角色甘雨用 ganyu \(genshin impact\)。括號以斜線“\”轉義防止被解讀為加權標籤。部分角色不需作品名。

角色觸發詞列表參考 selected_tags.csv · SmilingWolf/wd-v1-4-convnext-tagger-v2 at main (huggingface.co)。另外,可能包含未文檔提及的額外觸發詞。

用時若單一觸發詞無法完整復原角色,需補充該角色主要特徵做為提示。

AIDXL 支持角色衣著更換。角色觸發詞通常不涵蓋服裝特徵,欲增加服裝描述,需補充服裝提示詞。如遊戲《碧藍航線》中角色聖路易斯 (st. louis \(luxurious wheels\) \(azur lane\)) 的禮服,提示詞為 silver evening gown, plunging neckline。類似可將任意角色服軟提示詞應用於其他角色。

2.3 品質標籤

0.7版本起,品質與美學標籤正式訓練,提示詞內包含會影響生成質量。

品質分六級:從優到劣為 amazing qualitybest qualityhigh qualitynormal qualitylow qualityworst quality

建議增加權重,如(amazing quality:1.5)

2.4 美學標籤

0.7版本起,引入美學標籤描述圖像特殊美感。

2.5 風格融合

可將多種風格合併到自訂風格中。"合併"即同時使用多個風格觸發詞。如chun-li, amazing quality, (by yoneyama mai:0.9), (by chi4:0.8), by ask, by modare, (by ikky:0.9).

建議:

  • 控制各風格權重與先後順序以達理想風格;

  • 將風格標籤置於提示詞尾端。

3 注意事項

  1. 使用 SDXL 支持的 VAE、文本嵌入(embeddings)與 Lora 模型。注意:sd-vae-ft-mse-original 不支持 SDXL;EasyNegative、badhandv4 等負面文本嵌入亦不支持 SDXL;

  2. 對 0.61 及以下版本,強烈建議使用該模型專用負面文本嵌入(見建議資源欄下載),因專為該模型設計,基本僅有正面效果;

  3. 各版本新增的觸發詞於當前版本中效果可能較弱或不穩定。

IV 訓練參數

以 SDXL1.0 為底模,使用約 2 萬張自標註圖片,在學習率 5e-6、迴圈 1 的餘弦調度上訓練約 100 期得模型 A;再以學習率 2e-7 且其餘相同參數訓練得模型 B。將 A 與 B 融合,得 AIDXLv0.1 模型。

其他訓練參數請參照英文版本介紹。

V 特別鳴謝

算力贊助:感謝 @捏Ta 社區(捏Ta (nieta.art))提供算力支援;

數據支持:感謝 @秋麒麟熱茶(KirinTea_Aki Creator Profile | Civitai)及 @風吟(Chenkin Creator Profile | Civitai)提供大量數據支持;

沒有他們就不會有 0.7 版本。

VI 更新日誌

2023/08/08:AIDXL 使用與 AIDv2.10 相同訓練集,但表現優於 AIDv2.10。AIDXL 更智能,能做到許多基於 SD1.5 的模型無法完成的事。它亦能更好區分概念、學習細節、處理對 SD1.5 困難的構圖,近乎完美掌握舊版 AID 無法掌控的風格。整體來說,具備比 SD1.5 更高的潛力,我會持續更新 AIDXL。

2024/01/27:0.7 版本新增大量內容,數據集規模超過上一版本兩倍。

  1. 為達滿意標註,嘗試新標籤處理算法,如標籤排序、分層隨機化、角色特徵分離等。項目連結:Eugeoter/sd-dataset-manager (github.com)

  2. 為提高訓練可控性,自製基於 Kohya-ss 的訓練腳本;

  3. 開發啟發式模型融合算法掌控不同世代模型融合過程;放棄融合文本編碼器與 UNET OUT 層以維持風格穩定及美學;

  4. 訓練水印檢測、圖像分類、美學評分三個模型輔助數據清洗。

VII 贊助我們

若喜歡我們工作,歡迎透過 Ko-fi(https://ko-fi.com/eugeai) 贊助支持研發,謝謝您的支持!

附錄 / Appendix

A. 特殊觸發詞列表 / Special Trigger Words List

  • 繪畫風格觸發詞:flat color, clean color, celluloid, flat-pasto, thin-pasto, pseudo-impasto, impasto, realistic, photorealistic, cel shading, 3d

    • flat color:平塗,用線條描繪光影

      平涂:平面色彩,使用線條和色塊描述光影和層次

    • clean color:介於平塗和平厚塗間,簡潔著色

      具有簡潔色彩的平塗,介於 flat color 和 flat-pasto 之間

    • celluloid:動漫著色

      平塗賽璐璐:二次元著色風格

    • flat-pasto:近似平面色,使用漸層描繪光影

      接近平面的色彩,使用漸變描述光影和層次

    • thin-pasto:細緻輪廓,利用漸層與顏料厚度描繪光影

      細輪廓勾線,使用漸變和顏料厚度描述光影和層次

    • pseudo-impasto:用漸層和顏料厚度描繪光影

      偽厚塗/半厚塗:使用漸變和顏料厚度描述光影和層次

    • impasto:用顏料厚度描繪光影層次

      厚塗:使用顏料厚度描述光影和層次

    • realistic

      寫實

    • photorealistic:重定義為接近真實世界風格

      照片寫實主義:重定義為對應現實風格

    • cel shading:動漫3D建模風格

      卡通渲染:二次元三維建模風格

    • 3d

  • 美學觸發詞

    • beautiful

      美麗

    • aesthetic:稍帶抽象藝術感

      唯美:帶點抽象藝術感

    • detailed

      細緻

    • beautiful color:色彩優雅

      協調色彩:精妙配色

    • lowres

    • messy:構圖或細節混亂

      雜亂:構圖及細節凌亂

  • 品質觸發詞:amazing quality, best quality, high quality, low quality, worst quality

上一個
超無敵可愛!- v2
下一個
EthernalDope - v1.0

模型詳情

模型類型

Checkpoint

基礎模型

SDXL 1.0

模型版本

v0.5-alpha

模型雜湊值

c57cecf7c7

訓練詞彙

SEE APPENDIX
见附录

創作者

討論

log in以發表評論。

Anime Illust Diffusion XL - v0.5-alpha 的圖片

動畫 圖片

基礎模型 圖片

插圖 圖片