Vanillaware 風格 PonyXL - v0.1
推薦提示詞
score_9, score_8_up, score_7_up, <lora:vanillawareStyle:1>, 1girl, solo, looking at viewer, full body, light particles
推薦反向提示詞
thumbnail,3d
3d, bad anatomy, watermark
推薦參數
samplers
steps
cfg
clip skip
resolution
vae
other models
推薦高解析度參數
upscaler
upscale
denoising strength
提示
提示詞組合順序為:【角色特徵】+【風格】+【表情】+【服裝】+【相機與動作】+【背景】,根據需要調整。
若圖片模糊,於負面提示加入“thumbnail”並增加權重改善清晰度。
在負面提示中加入“3d”可能提升結果。
加上“realistic”或“realism”等標籤可強化人物特徵。
調整權重建議介於1.0至0.6間,以達理想角色外觀。
提升數據集質量並使用細緻標註有助訓練表現。
將品質較低的圖片標籤放負面提示,減少其生成影響。
此模型的訓練與其生成的圖像僅供學習用途。
我什麼都沒做,我只是搬運者。
這個模型更像是一個角色包,其副作用是它帶來的風格。
訓練花了超過30小時的反覆嘗試,期間我幾乎放棄,但最終達成了較平衡的效果。最重要的是,我的訓練假設得到了驗證。將來我可能會將這些經驗整理成文章。
但手部質量問題仍然存在。
觸發詞:vanillastyle
示例提示詞可從上方圖片中找到。
先前版本模型的提示詞大部分仍有效。
我的提示詞基本按照【角色特徵】+【風格】+【表情】+【服裝】+【相機與動作】+【背景】的順序組成,您可以根據需要刪除或修改。
如果出現特別模糊的情況,可以考慮在負面提示中加入“thumbnail”並增加其權重直到圖像清晰。
在負面提示中加入“3d”可能帶來更好結果,加入像是“realistic”、“realism”標籤則可增強人物特徵。
推薦權重:1.0~0.6,根據需要調整,直到角色外觀符合要求。
推薦升級值約為 1.2~2.0,去噪強度設為 0.2。
數據集主要集中於 George Kamitani 的作品。
20240907v0.2
此版本中,我標註了更多圖片,其他則移除標籤,只保留觸發詞以避免與精心標註產生衝突。(此方法可能有誤。)
在訓練過程中,數據集中多次出現圖片未被提示詞準確呈現的情況。我嘗試更改不同標籤並重訓,結果相同。數據集中這些圖片的重複性不高,缺乏連貫性。
最後我閱讀到一篇文章提到,對某些角色增加訓練重複次數可防止模型未充分學習這些圖片。
因此,我將數據集中所有單次出現的圖片放入子資料夾,設定訓練重複次數為 2,對已充分學習的圖片則保持不變。
但由於這些不連續的圖片存在不少品質問題,且暫未修復,所以增加訓練次數對整體風格產生了一定影響。
下一版本改進的根本方法,是提升數據集品質,同時善用標註技術,對品質略低的圖片加標相同標籤,並在運行模型時將其放入負面提示詞中。
20240715v0.1
此模型目前只能算作 v0.1,正常使用並不太容易,我認為最好對數據集中更多圖片做詳細標註以獲得更好效果。未來我可能會逐步完成本模型的訓練。
此版本的性能並不理想,生成的圖片常常顯得混亂。
我收集了超過100張圖片作為數據集,但數量太多不便人工標註。起初我用 wd1.4 進行全部圖片標註,但標註質量仍不佳,(可能是我使用不夠正確,也歡迎大家給建議)。
因為想快速看到結果,對此數據集我只人工標註了一些符合個人偏好的圖片,因此模型對這些圖片的輸出效果會較好。






