劇的なスポットライトの下、高さのチャートの前に立つオレンジのくちばしを持つ不機嫌な白いアヒルが、黒いマグショットの名札を持っている。
ボリューメトリックライティングと濡れて光沢のある表面のある重い雨雲の下で雨の草原に立っている、怒った表情の擬人化された不機嫌なブロッコリーキャラクター。
流れるような多色の髪と青い目を持ち、黒のレースドレスと金の冠をつけた少女が、鮮やかに咲く花々に囲まれ、ボリューメトリックライティングの室内にいる。
発光する骸骨の顔を持つサイボーグ芸者悪魔が、血まみれの赤い鎧と黄金のマントを身に着け、謎めいた城の庭で骸骨に囲まれて片膝をついている姿。
灰色の髪と片翼を持つ天使が開いた本に寄りかかり、頭上には滴る赤い後光とマンガスタイルの不気味なオーラが描かれたイラスト。
暗い目を覆う荒れた乱れ髪、血まみれの口をした不気味な笑み、トゲ付き首輪、骨格が見える胸部のディテールを線画スタイルで描いた痩せこけた少女のクローズアップポートレート。
短い茶色の髪とそばかすを持つアニメ少女のクローズアップポートレートで、緑のドレスと妖精の翼を着ており、光の線や粒子が漂う詳細で柔らかく照らされた夜の背景に囲まれている。
黄色のパーカーとストライプの靴下を着て短いブロンドの髪と丸い眼鏡をかけた小柄な女の子が、枕とシダ植物に囲まれた床に座り、素朴な窓と本棚のある居心地の良い寝室で緑色の本を読んでいる。
発光効果のある対照的な背景を背にした青とオレンジのオオカミのシルエットを描いた鮮やかな印象派油絵
ピンクの軍服と赤いブーツを履いた金髪のアニメスタイルの少女が、鮮やかな照明とレトロ未来的なディテールがあるハイテク宇宙船の通路内で銃を狙い、ダイナミックな戦闘姿勢にある。
紫色の目を持ち、黒い華やかなカクテルドレスを着た若い女性が、薄暗いクラシックなジャズクラブのステージで暖かいボリュームライティングの中、ヴィンテージマイクに情熱的に歌いかけている。背景には楽器が見える。
アニメ風の少女、黒いミディアムヘアで黄色い目。青いジャケット、赤いチェックのスカート、青い手袋を着用し、割れた窓のある部屋の中でAR-15ライフルを発砲し、現金の詰まったダッフルバッグを持つ。

ヒント

このモデルはLoRAで微調整されたチェックポイントです。

訓練では4,000のプロンプトを10エポック使用しました。

Step-by-step Preference Optimizationにより各ステップでの細かな視覚的改善が可能となり、美的感覚を効果的に向上させます。

Step-by-step Preferenceによる一般的な好みからの美的ポストトレーニングDiffusionモデル

Arxiv論文

Githubコード

プロジェクトページ

概要

視覚的に魅力的な画像の生成は現代のテキストから画像への生成モデルの基本です。美的感覚を向上させる潜在的な解決策は直接的好み最適化(DPO)であり、これはプロンプトの整合性や美的感覚を含む一般的な画像品質を改善するためにDiffusionモデルに適用されています。一般的なDPO手法は、きれいな画像ペアからの好みラベルを2つの生成経路のすべての中間ステップに伝播させます。しかし、既存のデータセットで提供される好みラベルはレイアウトや美的意見と混ざり合っており、美的好みと矛盾する場合があります。たとえ美的ラベルが提供されていても(かなりのコストをかけて)、2経路手法では異なるステップでの微妙な視覚差異を捉えることは困難です。

美的感覚を経済的に改善するために、本論文では既存の一般的な好みデータを使用し、伝播戦略を廃止して詳細な画像ディテールを評価可能にするStep-by-step Preference Optimization(SPO)を導入します。具体的には、各ノイズ除去ステップで1)共有ノイズ潜在変数から複数の候補をサンプリングし、2)ステップ対応の好みモデルを用いて適切な勝敗ペアを見つけてDiffusionモデルの監督を行い、3)次のノイズ除去ステップの初期化に候補プールからランダムに1つ選びます。この戦略により、Diffusionモデルはレイアウトの側面ではなく、微細な視覚差異に集中できます。これらの改良された小さな差異を積み重ねることで美的感覚は大きく向上します。

Stable Diffusion v1.5およびSDXLを微調整した際、SPOは既存のDPO手法と比べて美的感覚を大幅に改善し、バニラモデルに比べて画像とテキストの整合性を損ないません。さらに、SPOは細かな視覚差異のステップごとの整合によりDPOよりもはるかに速く収束します。コードとモデルはこちら:https://rockeycoss.github.io/spo.github.io/

モデル説明

このモデルはstable-diffusion-xl-base-1.0から微調整されています。4,000のプロンプトで10エポックの訓練を行っています。このチェックポイントはLoRAチェックポイントです。詳細はこちらをご覧ください。

引用

本研究が有用だと感じたら、スターを付けて引用していただけると幸いです。

@article{liang2024step,
  title={Step-by-step Preference Optimizationによる一般的な好みからの美的ポストトレーニングDiffusionモデル},
  author={Liang, Zhanhao and Yuan, Yuhui and Gu, Shuyang and Chen, Bohan and Hang, Tiankai and Cheng, Mingxi and Li, Ji and Zheng, Liang},
  journal={arXiv preprint arXiv:2406.04314},
  year={2024}
}
前の画像
RealCartoon-XL - V7
次の画像
Artsy Vibe - v1 - FP8

モデル詳細

モデルタイプ

LORA

ベースモデル

SDXL 1.0

モデルバージョン

v1.0

モデルハッシュ

b6c2c16f3e

作成者

ディスカッション

コメントを残すには log in してください。

モデルコレクション - SPO-SDXL_4k-p_10ep_LoRA_webui

「SPO-SDXL_4k-p_10ep_LoRA_webui - v1.0」による画像

基本モデル画像