DPO (Direct Preference Optimization) LoRA dla XL i 1.5 - OpenRail++ - SDXL - V1.0
Zalecane podpowiedzi
RAW photo, a close-up picture of a cat, a close-up picture of a dog, orange eyes, blue eyes, reflection in it's eyes
Zalecane parametry
samplers
steps
cfg
Sponsorzy twórcy
Czym jest DPO?
DPO to Direct Preference Optimization, nazwa procesu, w którym model dyfuzji jest dostrajany na podstawie obrazów wybranych przez ludzi. Meihua Dang i zespół przetrenowali Stable Diffusion 1.5 oraz Stable Diffusion XL używając tej metody i zbioru danych Pick-a-Pic v2, który można znaleźć pod adresem https://huggingface.co/datasets/yuvalkirstain/pickapic_v2, a na ten temat napisali artykuł dostępny pod https://huggingface.co/papers/2311.12908.
Co to robi?
Zaobserwowano, że wytrenowane modele DPO generują obrazy wyższej jakości niż ich nieodstrojone odpowiedniki, z znaczącym naciskiem na zgodność modelu z Twoim promptem. Te LoRA mogą przenieść tę zgodność promptu do innych dostrojonych modeli Stable Diffusion.
Kto to trenował?
Te LoRA bazują na pracach Meihua Danga (https://huggingface.co/mhdang) dostępnych pod
https://huggingface.co/mhdang/dpo-sdxl-text2image-v1 oraz https://huggingface.co/mhdang/dpo-sd1.5-text2image-v1, licencjonowanych pod OpenRail++.
Jak powstały te LoRA?
Zostały stworzone za pomocą Kohya SS przez wyodrębnienie ich z innych punktów kontrolnych licencjonowanych OpenRail++ dostępnych na CivitAI oraz HuggingFace.
1.5: https://civitai.com/models/240850/sd15-direct-preference-optimization-dpo wyodrębnione z https://huggingface.co/fp16-guy/Stable-Diffusion-v1-5_fp16_cleaned/blob/main/sd_1.5.safetensors.
XL: https://civitai.com/models/238319/sd-xl-dpo-finetune-direct-preference-optimization wyodrębnione z https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0/blob/main/sd_xl_base_1.0_0.9vae.safetensors
Te modele są również hostowane na HuggingFace pod adresem https://huggingface.co/benjamin-paine/sd-dpo-offsets/
Szczegóły modelu
Dyskusja
Proszę się log in, aby dodać komentarz.


















