SPO-SDXL_4k-p_10ep_LoRA_webui - v1.0
提示
此模型為 LoRA 微調檢查點。
訓練使用了 4,000 個提示,共訓練 10 個世代。
逐步偏好優化允許在每個步驟進行細緻視覺改進,有效提升美學。
基於通用偏好逐步偏好優化的美學後訓練擴散模型
摘要
生成視覺吸引力強的圖像是現代文本生成圖像模型的基本任務。一種提升美學的潛在方案是直接偏好優化(DPO),已應用於擴散模型以提升整體圖像質量,包括提示對齊和美學。常見的 DPO 方法會將偏好標籤從乾淨的圖像對傳播至沿兩條生成軌跡的所有中間步驟。然而,現有數據集中提供的偏好標籤混合了布局和美學觀點,與純粹的美學偏好不符。即便提供了美學標籤(成本高昂),兩軌跡方法也難以捕捉各步驟中細微的視覺差異。
為經濟有效地提升美學,本文利用現有的通用偏好數據,並引入逐步偏好優化(SPO),摒棄了傳播策略,允許對細緻的圖像細節進行評估。具體來說,在每個去噪步驟中,我們1)通過去噪共享噪聲潛碼樣本池,2)使用逐步感知的偏好模型尋找合適的勝敗對以監督擴散模型,3)從樣本池中隨機選擇一個初始化下一步去噪。該策略確保擴散模型關注微妙的細節差異,而非布局方面。我們發現通過累積這些微小的改進差異可以顯著提升美學。
微調 Stable Diffusion v1.5 和 SDXL 時,SPO 在不犧牲圖像-文本對齊度的前提下,相較現有 DPO 方法顯著提升了美學表現。此外,因為對細節的逐步對齊,SPO 收斂速度遠快於 DPO 方法。代碼與模型:https://rockeycoss.github.io/spo.github.io/
模型描述
該模型基於stable-diffusion-xl-base-1.0微調而成。訓練數據包含 4,000 個提示,訓練了 10 個世代。此檢查點為 LoRA 檢查點。詳情請訪問此處
引用
如果您覺得我們的工作有用,請考慮給我們點贊並引用本論文。
@article{liang2024step,
title={基於逐步偏好優化的通用偏好美學後訓練擴散模型},
author={Liang, Zhanhao and Yuan, Yuhui and Gu, Shuyang and Chen, Bohan and Hang, Tiankai and Cheng, Mingxi and Li, Ji and Zheng, Liang},
journal={arXiv preprint arXiv:2406.04314},
year={2024}
}