DPO(直接偏好優化)LoRA 用於 XL 和 1.5 - OpenRail++ - SDXL - V1.0
推薦提示詞
RAW photo, a close-up picture of a cat, a close-up picture of a dog, orange eyes, blue eyes, reflection in it's eyes
推薦參數
samplers
steps
cfg
創作者贊助
什麼是 DPO?
DPO 是 Direct Preference Optimization,意指基於人類選擇的圖像來微調擴散模型的過程。Meihua Dang 等人使用此方法和 Pick-a-Pic v2 數據集訓練了 Stable Diffusion 1.5 和 Stable Diffusion XL,該數據集可在 https://huggingface.co/datasets/yuvalkirstain/pickapic_v2 找到,相關論文刊載於 https://huggingface.co/papers/2311.12908。
它有什麼效果?
訓練後的 DPO 模型被觀察到能產生比未調整模型更高質量的圖像,並且顯著提升了模型對提示詞的遵從度。這些 LoRA 可將此提示詞遵從度改進帶到其他微調過的 Stable Diffusion 模型中。
是誰訓練的?
這些 LoRA 基於 Meihua Dang(https://huggingface.co/mhdang)的研究成果,相關模型位於
https://huggingface.co/mhdang/dpo-sdxl-text2image-v1 及 https://huggingface.co/mhdang/dpo-sd1.5-text2image-v1,採用 OpenRail++ 授權。
這些 LoRA 是如何製作的?
它們使用 Kohya SS,從 CivitAI 和 HuggingFace 上其他 OpenRail++ 授權的檢查點中提取而成。
1.5: https://civitai.com/models/240850/sd15-direct-preference-optimization-dpo,提取自 https://huggingface.co/fp16-guy/Stable-Diffusion-v1-5_fp16_cleaned/blob/main/sd_1.5.safetensors。
XL: https://civitai.com/models/238319/sd-xl-dpo-finetune-direct-preference-optimization,提取自 https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0/blob/main/sd_xl_base_1.0_0.9vae.safetensors
這些模型亦在 HuggingFace 上托管,地址為 https://huggingface.co/benjamin-paine/sd-dpo-offsets/


















