Anime Illust Diffusion XL - v0.61
推薦提示詞
Trigger word (by xxx),a girl named frieren from sousou no frieren series,best quality,beautiful color,detailed,aesthetic,impasto style,cowboy shot,fantasy theme,gradient background,sitting on ground,expressionless,white hair,twintails,green eyes,parted lip,white dress,frills,a cat,grass,sunshine
best quality, 1girl, solo, looking at viewer, bangs
推薦反向提示詞
(worst quality:1.3),low quality,lowres,messy,abstract,ugly,disfigured,bad anatomy,draft,deformed hands,fused fingers,signature,text,multi views
aidxlv05_neg
推薦參數
samplers
steps
cfg
resolution
vae
推薦高解析度參數
denoising strength
提示
降低藝術家風格觸發詞權重,例如 (by xxx:0.6)。
排序提示詞標籤可以幫助模型更好理解含義;已提供推薦標籤順序。
若 text2image 輸出模糊,請使用“修正”(image2image 或修補)方法。
風格融合時,控制各風格權重和順序,使用附加方式而非前置。
角色觸發詞通常不含服裝,需另行添加服裝標籤。
0.61 及以下版本建議使用模型專用負面文本嵌入,以取得最佳效果。
確保總像素約 1024x1024,且寬高為 32 的倍數,以優化生成效果。
版本亮點
風格化更強。
另外,我在訓練中加入額外噪聲。部分採樣器在最後步驟不歸零,可能造成生成圖像含雜訊。因此,Euler A 或 Euler 採樣器可能更適合您使用。
Stronger stylization.
Additionally, I added additional noise in the training. Some samplers do not reach zero timestep at the final step, thus potentially causing the generated image to be noisy. So, Euler A or Euler sampler may be more suitable for you to use.
創作者贊助
如果喜歡我們的工作,請透過 Ko-fi 支持我們:https://ko-fi.com/eugeai
感謝 @NieTa 社區(nieta.art)提供算力,並感謝 @KirinTea_Aki(Civitai 賬戶)與 @Chenkin(Civitai 賬戶)提供數據支持。
模型介紹(英文部分)
目錄
在此介紹中,您將了解:
模型資訊(見第二部分);
使用說明(見第三部分);
訓練參數(見第四部分);
觸發詞列表(見附錄 A 部分)
II AIDXL
Anime Illustration Diffusion XL,簡稱 AIDXL,是一款專注生成風格化動漫插畫的模型。內置超過 800 種(隨更新持續增加)插畫風格,通過特定觸發詞觸發(見附錄 A)。
優勢:
靈活構圖,打破傳統 AI 擺拍;
細膩的細節,避免雜亂無章;
更精準理解動漫角色。
III 使用指南
1 基本用法
1.1 提示詞
觸發詞:加入附錄 A 提供的觸發詞以風格化圖像。適當的觸發詞將大幅提升品質;
建議降低藝術家風格觸發詞權重,例如 (by xxx:0.6)。
語義排序:排序提示詞標籤或句子,有助模型理解含義。
推薦標籤順序:觸發詞 (by xxx) -> 角色 (一名叫 frieren 的女孩,來自 sousou no frieren 系列) -> 種族 (精靈) -> 構圖 (牛仔鏡頭) -> 風格 (厚塗風格 ) -> 主題 (奇幻主題) -> 主要環境 (森林,白天) -> 背景 (漸變背景) -> 動作 (坐在地上) -> 表情 (面無表情) -> 主要特徵 (白髮) -> 身體特徵 (雙馬尾,綠眼,分唇) -> 服裝 (穿白色洋裝) -> 服裝配件 (荷葉邊) -> 其他物品 (一隻貓) -> 次要環境 (草地,陽光) -> 美學 (美色, 細緻, 唯美) -> 質量 ((最佳品質:1.3))
負面提示詞:(最差品質:1.3), 低品質, 低解析度, 凌亂, 抽象, 醜陋, 畸形, 解剖錯誤, 草稿, 變形的手, 指頭融合, 簽名, 文字, 多視角
1.2 生成參數
解析度:確保總像素數(寬×高)約為 1024×1024,且寬和高均為 32 的倍數,這樣 AIDXL 可達最佳效果。例:832×1216 (2:3)、1216×832 (3:2)、1024×1024 (1:1) 等。
採樣器與步數:使用「Euler Ancester」採樣器,webui稱為 Euler A。通常在 7 至 9 CFG 比例下,採樣約 28 步。
修正(Refine):文字生成圖像(text2image)有時較模糊,建議使用 image2image 或修補(inpainting)等方法“修正”圖像。
對於簡單放大,可參考:https://www.reddit.com/r/StableDiffusion/comments/xkjjf9/upscale_to_huge_sizes_and_add_detail_with_sd/
其他元件:不需使用任何精煉模型。使用模型自身的 VAE 或
sdxl-vae。
問:如何重現模型封面?為何用相同生成參數不能得到相同封面圖?
答:因封面顯示的生成參數不是文字生成(text2image)參數,而是圖像生成(image2image,用於放大)參數。基礎圖像多使用 Euler Ancester 採樣器,非 DPM 採樣器。
2 特殊用法
2.1 泛風格化
0.7 版本開始,AIDXL 歸納多種相似風格,推出泛風格觸發詞,每種代表一類常見動畫插畫風格。請注意泛風格詞可能不符合字面藝術意義,而是特殊重定義觸發詞。
2.2 角色
0.7 版增強角色訓練。部分角色觸發詞已具 Lora 效果,可有效區分角色概念與服裝。
角色觸發格式為:{character} \({copyright}\)。例如觸發動畫「Cyberpunk: Edgerunners」的女主 Lucy 用 lucy \(cyberpunk\);觸發遊戲「Genshin Impact」角色甘雨用 ganyu \(genshin impact\)。括號使用反斜線逃逸以防止被識別為加權標籤。部分角色可省略作品來源。
從 v0.8 版起,更簡易觸發格式為:a {girl/boy} named {character} from {copyright} series。
角色觸發詞列表見:selected_tags.csv · SmilingWolf/wd-v1-4-convnext-tagger-v2 at main (huggingface.co)。另有部分未列出的觸發詞亦可使用。
部分角色需額外觸發,如單一詞無法完全還原,請在提示詞中加入角色主要特徵。
AIDXL 支持角色換裝。角色觸發詞通常不含服裝特徵,需另在提示詞加入服裝標籤,如遊戲《碧藍航線》角色 St. Louis 的服裝為 silver evening gown, plunging neckline。類似地,任何角色均可套用其他角色服裝標籤。
2.3 品質標籤
品質與美學標籤經過正式訓練。於提示詞尾部添加這些標籤將影響圖像品質。
0.7 版起正式引入品質標籤,共六級自高至低分別為:amazing quality、best quality、high quality、normal quality、low quality及worst quality。
建議提升標籤權重,例如 (amazing quality:1.5)。
2.4 美學標籤
從 0.7 版本開始,引入美學標籤以描述圖像特殊美學特性。
2.5 風格融合
可將多種風格合併到自訂風格中。所謂「融合」即同時使用多種風格觸發詞。例如:chun-li, amazing quality, (by yoneyama mai:0.9), (by chi4:0.8), by ask, by modare, (by ikky:0.9)。
提示:
控制風格權重與順序調整最終風格;
將融合詞附加於提示詞尾部而非前端;
IV 訓練策略與參數
AIDXLv0.1
以 SDXL1.0 為基底模型,用約 2.2 萬張帶標註圖像,在餘弦調度器及 5e-6 學習率、循環數 1 條件下訓練約 100 期獲得模型 A。隨後使用 2e-7 學習率和相同其他參數訓練獲得模型 B。最終透過混合模型 A 與 B 得到 AIDXLv0.1。
AIDXLv0.51
訓練策略
從 AIDXLv0.5 續訓,有三階段依序連續進行:
長標註訓練:使用全數據集,其中部分圖像手動標註。以 AdamW8bit 優化器訓練 U-Net 與文本編碼器,採高學率(約 1.5e-6)搭配餘弦調度器。學率降至門檻(約 5e-7)後停止訓練。
短標註訓練:從第 1 步成果起訓,參數與策略相同,但數據集標註較短。
精煉階段:準備第 1 步數據集的高質量子集。從第 2 步成果再起訓,學率低(約 7.5e-7),使用餘弦調度器並重啟 5 至 10 次,訓練至美學效果佳。
固定訓練參數
不使用額外噪音,例如噪音偏移。
最小 snr 伽瑪值為 5,以加快訓練速度。
使用 bf16 全精度。
AdamW8bit 優化器:兼顧效率與效能。
數據集
分辨率:1024×1024 總像素,採官方修改版 SDXL 分桶策略。
標註:由 WD14-Swinv2 模型以 0.35 閾值生成。
特寫裁剪:對於大張或稀有圖像進行多特寫裁剪,非常有用。
觸發詞:保留圖像首標籤作為觸發詞。
AIDXLv0.6
訓練策略
從 AIDXLv0.52 續訓,加入自適應重複策略——對每一標註圖像,根據下列規則增加訓練重複次數:
規則一:圖像質量越高,重複次數越多;
規則二:若圖像屬於某風格類別:
若該類別尚未適配或欠擬合,則手動或自動增加類別內數據重複數,目標約 100 次;
若該類別已擬合或過擬合,則強制類別重複數變為 1,且若品質低則剔除;
規則三:限制最終重複數不超過約 10 次。
此策略優點:
保護模型原始資訊免受新訓練過度影響;
令訓練數據影響更易控制;
促使不同類別平衡訓練,鼓勵欠擬合類別,抑制過擬合類別;
大幅節約計算資源,且方便加入新風格。
固定訓練參數
同 AIDXLv0.51。
數據集
AIDXLv0.6 數據集基於 AIDXLv0.51 並追加優化:
標註語義排序:按語義順序排序標籤,如「gun, 1boy, holding, short hair」改為「1boy, short hair, holding, gun」。
標註去重:移除重複標籤,保留資訊量最大者。重複指意義類似,例如「long hair」與「very long hair」。
額外標籤:手動為所有圖像添加附加標籤,如「high quality」、「impasto」等,輔助工具可快速完成。
V 特別感謝
算力贊助:感謝 @NieTa 社區(捏Ta (nieta.art))提供算力支持;
數據支持:感謝 @KirinTea_Aki(KirinTea_Aki 創作者資料 | Civitai)及 @Chenkin(Chenkin 創作者資料 | Civitai)提供大量數據支持;
沒有他們就不會有 0.7 版本。
VI AIDXL 與 AID 比較
2023/08/08,AIDXL 以與 AIDv2.10 相同數據集訓練,卻優於 AIDv2.10。AIDXL 更智能,能做到許多 SD1.5 模型無法完成的任務。有更佳概念區分、細節學習與難構圖處理能力,接近完美掌握前版 AID 無法完全實現之風格。整體而言,潛能絕佳,將持續更新。
VII 贊助
若您喜歡我們的工作,歡迎透過 Ko-fi(https://ko-fi.com/eugeai) 贊助我們,支持我們的研發工作。感謝您的支持~
模型介紹(中文部分)
I 目錄
本介紹中您將了解:
模型介紹(見 II 部分);
使用指南(見 III 部分);
訓練參數(見 IV 部分);
觸發詞列表(見附錄 A 部分)
II 模型介紹
動漫插畫設計XL,或稱 AIDXL,是專門生成二次元插畫的模型。內置超過 800 種(隨更新增加)插畫風格,依靠特定觸發詞(見附錄 A 部分)觸發。
優點:大膽構圖,非擺拍感,主體突出,無過度細節雜亂,熟悉許多動漫角色(依角色日文名拼音觸發,如“ayanami rei”是「綾波麗」、“kamado nezuko”是「祢豆子」)。
III 使用指南(持續更新)
1 基本用法
1.1 提示詞書寫
使用觸發詞:使用附錄 A 的觸發詞來風格化圖像。適當的觸發詞將大幅提高生成質量;
提示詞標籤化:用標籤描述生成對象;
提示詞排序:排序提示詞有助模型理解語義。推薦順序:
觸發詞(by xxx)->主角(1girl)->角色(frieren)->種族(elf)->構圖(cowboy shot)->風格(impasto)->主題(fantasy)->主要環境(forest, day)->背景(gradient background)->動作(sitting)->表情(expressionless)->主要人物特徵(white hair)->人體特徵(twintails, green eyes, parted lip)->服飾(white dress)->服裝配件(frills)->其他物品(magic wand)->次要環境(grass, sunshine)->美學(beautiful color, detailed, aesthetic)->質量(best quality)
負面提示詞:worst quality, low quality, lowres, messy, 抽象, 醜陋, 畸形, 解剖不良, 變形手部, 手指融合, 簽名, 文字, 多視角
1.2 生成參數
解析度:確保總解析度(高*寬)約 1024*1024,且寬高皆為 32 的倍數。如 832×1216 (3:2), 1216×832 (3:2), 1024×1024 (1:1)。
不做“Clip Skip”操作,Clip Skip = 1。
採樣器與步數:使用 “euler_ancester” 採樣器(webui 中稱 Euler A)。7 CFG Scale 下採樣 28 步。
不需使用精煉器。
使用基底模型 VAE 或 sdxl-vae。
2 特殊用法
2.1 泛風格化
0.7 版本總結多種相似插畫風格,推出泛風格觸發詞,代表一種常見動漫插畫風格類別。
請注意泛風格詞不必然符合其字面藝術意義,是經過重定義的特殊觸發詞。
2.2 角色
0.7 版增強對角色的訓練,部分角色觸發詞效果可達 Lora 水準,且與角色服裝設定有效區分。
角色觸發詞格式:角色名 \(作品名\)。例如動畫《賽博朋克:邊緣行者》女主 Lucy 用 lucy \(cyberpunk\);遊戲《原神》角色甘雨用 ganyu \(genshin impact\)。括號以反斜線轉義避免解析為權重標籤。部分角色可省略來源。
角色詞見 selected_tags.csv · SmilingWolf/wd-v1-4-convnext-tagger-v2 at main (huggingface.co)。
如單一角色詞無法完整還原角色,需加入角色主要特徵。
AIDXL 支援角色換裝。角色詞通常無服裝特徵,須在提示詞中另外加入服裝標籤。例:遊戲《碧藍航線》角色 St. Louis 的服裝可用 silver evening gown, plunging neckline 標註。亦可為任意角色添加其他角色服裝標籤。
2.3 質量標籤
質量及美學標籤經過正式訓練,於提示詞中使用能影響生成圖像質量。
0.7 版起引入六個質量等級:amazing quality、best quality、high quality、normal quality、low quality、及worst quality。
建議附加權重,如 (amazing quality:1.5)。
2.4 美學標籤
0.7 版起引入美學標籤,描述圖像的特殊美學元素。
2.5 風格融合
可合併多種風格為自訂風格,「融合」即同時使用多個風格觸發詞。例如 chun-li, amazing quality, (by yoneyama mai:0.9), (by chi4:0.8), by ask, by modare, (by ikky:0.9)。
提示:
控制風格權重與順序調整風格;
附加於提示詞尾,不要放前。
3 注意事項
使用 SDXL 支援的 VAE、嵌入模型(embeddings)和 Lora 模型。注意:sd-vae-ft-mse-original 非 SDXL 支援的 VAE;EasyNegative、badhandv4 等負面嵌入也非 SDXL 支援。
0.61 及以下版本強烈建議搭配專用負面嵌入,成效最佳。
新加入的觸發詞在當前版本效果可能較弱或不穩定。
IV 訓練參數
以 SDXL1.0 為基底,使用約 2 萬張含標註圖像,在 5e-6 學習率、循環數 1 的餘弦調度器上訓練約 100 期得模型 A,隨後以 2e-7 學習率及相同參數訓練得模型 B。將 A、B 混合獲得 AIDXLv0.1。
其他訓練參數請參考英文版本介紹。
V 特別感謝
算力贊助:感謝 @捏Ta 社區(捏Ta (nieta.art))提供算力支持;
數據支持:感謝 @秋麒麟熱茶(KirinTea_Aki 創作者資料 | Civitai)及 @風吟(Chenkin 創作者資料 | Civitai)提供大量數據支持;
無他們就無 0.7 版本。
VI 更新日誌
2023/08/08:AIDXL 與 AIDv2.10 同池訓練,但表現超越 AIDv2.10。AIDXL 更智能,能實現許多 SD1.5 模型不及之事。具優秀概念區分、細節捕捉及難構圖處理能力,能完美復刻舊版 AID 難以完全掌握的風格。總體潛力無限,將持續更新。
2024/01/27:0.7 版本大幅擴充內容,數據集規模是先前的兩倍以上。
嘗試多種新標註算法,如標註排序、分層隨機化、角色特徵分離等。項目地址:Eugeoter/sd-dataset-manager (github.com);
為更好控訓,基於 Kohya-ss 開發特製訓練腳本;
開發啟發式模型融合算法管理不同世代模型融合,且為達到高風格化,放棄融合文本編碼器與 UNET OUT 層以提升穩定性與美學,因傷及風格。
訓練水印檢測、圖像分類、美學評分模型輔助打理數據。
VII 贊助我們
若喜歡我們的工作,歡迎透過 Ko-fi(https://ko-fi.com/eugeai) 贊助,支持我們研發,謝謝!
附錄
A. 特殊觸發詞列表
藝術風格觸發詞:點擊查看
繪畫風格觸發詞:flat color, clean color, celluloid, flat-pasto, thin-pasto, pseudo-impasto, impasto, realistic, photorealistic, cel shading, 3d
flat color:平面色彩,用線條描述光影
平涂:平面色彩,使用線條和色塊描述光影和層次
clean color:介於 flat color 與 flat-pasto 之間的簡潔上色
具有簡潔色彩的平涂,介於 flat color 和 flat-pasto 之間
celluloid:動漫著色
平涂賽璐璐:動漫著色
flat-pasto:近乎平面,用漸變描述光影
接近平面的色彩,使用漸變描述光影和層次
thin-pasto:細輪廓,用漸變及顏料厚度表現光影層次
細輪廓勾線,使用漸變和顏料厚度描述光影和層次

pseudo-impasto:用漸變與顏料厚度描述光影
偽厚塗/半厚塗:使用漸變和顏料厚度描述光影和層次
impasto:用顏料厚度描述光影與漸變
厚塗:使用顏料厚度描述光影和層次
realistic:寫實
寫實
photorealistic:重定義為更接近真實風格
相片寫實主義:重定義為接近真實世界的風格
cel shading:動漫 3D 建模風格
卡通渲染:二次元三維建模風格
3d

美學觸發詞:
beautiful
美麗
aesthetic:略帶抽象藝術感
唯美:稍微抽象的藝術感
detailed
細膩
beautiful color:精妙用色
協調的色彩:精妙的用色
lowres
messy:凌亂的構圖或細節
雜亂:雜亂的構圖或細節
品質觸發詞:amazing quality, best quality, high quality, low quality, worst quality





