悶悶不樂的白鴨子,帶橙色喙,站在身高圖前,置於戲劇性聚光燈下,手持黑色頭像名牌。
一個暴躁的擬人化西蘭花角色,站立在雨中草地下方,腳下是濕亮的表面,頭頂有厚重雨雲並伴有體積光效。
一位擁有飄逸多彩髮色和藍色眼睛的女孩,穿著黑色蕾絲裙和金色王冠,四周環繞著充滿活力的盛開花朵,室內有體積光照。
一位賽博藝伎妖魔擁有發光骷髏面孔,穿著血紅盔甲與金色披風,單膝跪地,周圍是神秘城堡花園中的骷髏。
一位灰髮單翼天使俯身閱讀打開的書本,頭頂有滴落的紅色光環和漫畫風格的威脅氣場。
消瘦女孩特寫肖像,狂野凌亂的頭髮覆蓋暗色眼睛,帶有血跡的寬大陰險微笑,帶刺項圈,以及線稿風格中可見的骨骼胸部細節。
一個動漫少女的特寫肖像,短棕色頭髮與雀斑,穿著綠色裙子及仙子翅膀,背景是細緻柔和的夜晚場景,有光線束和粒子效果。
一位嬌小的女孩,金色短髮配圓形眼鏡,穿著黃色連帽衫和條紋襪,坐在被枕頭和蕨類植物包圍的地板上,在舒適的臥室裡閱讀一本綠色書籍,臥室有質樸的窗戶和書架。
鮮明印象派油畫,藍色與橙色狼剪影映襯對比背景並帶有光暈效果
一位穿著粉紅軍裝和紅色靴子的金髮動漫風少女,站在高科技太空船走廊內,擺出動態戰鬥姿勢並瞄準槍械,場景光線鮮明並帶有復古未來主義細節。
一位擁有紫色眼睛的年輕女子,身穿華麗的黑色雞尾酒禮服,在昏暗的經典爵士俱樂部舞台上熱情演唱,使用復古麥克風,背景有溫暖的體積光和樂器。
動漫風格女孩,黑色中長髮及黃色眼睛,穿著藍色夾克、紅色格子裙及藍色手套,於有破裂窗戶房間內射擊AR-15步槍,並攜帶裝滿現金的行李袋。

提示

此模型為 LoRA 微調檢查點。

訓練使用了 4,000 個提示,共訓練 10 個世代。

逐步偏好優化允許在每個步驟進行細緻視覺改進,有效提升美學。

基於通用偏好逐步偏好優化的美學後訓練擴散模型

Arxiv 論文

Github 代碼

項目頁面

摘要

生成視覺吸引力強的圖像是現代文本生成圖像模型的基本任務。一種提升美學的潛在方案是直接偏好優化(DPO),已應用於擴散模型以提升整體圖像質量,包括提示對齊和美學。常見的 DPO 方法會將偏好標籤從乾淨的圖像對傳播至沿兩條生成軌跡的所有中間步驟。然而,現有數據集中提供的偏好標籤混合了布局和美學觀點,與純粹的美學偏好不符。即便提供了美學標籤(成本高昂),兩軌跡方法也難以捕捉各步驟中細微的視覺差異。

為經濟有效地提升美學,本文利用現有的通用偏好數據,並引入逐步偏好優化(SPO),摒棄了傳播策略,允許對細緻的圖像細節進行評估。具體來說,在每個去噪步驟中,我們1)通過去噪共享噪聲潛碼樣本池,2)使用逐步感知的偏好模型尋找合適的勝敗對以監督擴散模型,3)從樣本池中隨機選擇一個初始化下一步去噪。該策略確保擴散模型關注微妙的細節差異,而非布局方面。我們發現通過累積這些微小的改進差異可以顯著提升美學。

微調 Stable Diffusion v1.5 和 SDXL 時,SPO 在不犧牲圖像-文本對齊度的前提下,相較現有 DPO 方法顯著提升了美學表現。此外,因為對細節的逐步對齊,SPO 收斂速度遠快於 DPO 方法。代碼與模型:https://rockeycoss.github.io/spo.github.io/

模型描述

該模型基於stable-diffusion-xl-base-1.0微調而成。訓練數據包含 4,000 個提示,訓練了 10 個世代。此檢查點為 LoRA 檢查點。詳情請訪問此處

引用

如果您覺得我們的工作有用,請考慮給我們點贊並引用本論文。

@article{liang2024step,
  title={基於逐步偏好優化的通用偏好美學後訓練擴散模型},
  author={Liang, Zhanhao and Yuan, Yuhui and Gu, Shuyang and Chen, Bohan and Hang, Tiankai and Cheng, Mingxi and Li, Ji and Zheng, Liang},
  journal={arXiv preprint arXiv:2406.04314},
  year={2024}
}
上一個
RealCartoon-XL - V7
下一個
Artsy Vibe - v1 - FP8

模型詳情

模型類型

LORA

基礎模型

SDXL 1.0

模型版本

v1.0

模型雜湊值

b6c2c16f3e

創作者

討論

log in以發表評論。

SPO-SDXL_4k-p_10ep_LoRA_webui - v1.0 的圖片

基礎模型 圖片