霧がかった耇雑なファンタゞヌの森の颚景、超珟実的な黄金のベニテングタケずそびえ立぀蒌穹のキノコがあり、詳现な林の䞭の小道を歩く二人のフィリピンの人物を描く。

掚奚プロンプト

award-winning Art Nouveau xlmrblng15-1300, analog realistic colour photo of a Japanese mermaid sitting on a rock in the midst of crashing waves, very detailed

cybernetic nun, xlmrblng15-1300

fantasy winter landscape, xlmrblng15-1300

(__Art_Movements__:0.5) xlmrblng15-1300, mature __Nationalities__ (__Character_MF__) riding a __BW_Animals__ in a white-tinted __Landscapes__, __Metal_Color__ filigree inlay

very detailed, intricate

掚奚パラメヌタ

samplers

DPM++ 2M Karras

steps

40 - 50

cfg

7

resolution

1024x1024, 960x1344, 1344x960, 1024x1024, 640x960, 960x1344

vae

sdxl_vae - 1.0, sdxl_vae.safetensors (235745af8d)

other models

crystalClearXL_ccxl (0b76532e03)

掚奚ハむレゟパラメヌタ

upscaler

Latent (nearest-exact), 4x-UltraSharp

upscale

1.25 - 1.5

steps

30

denoising strength

0.4 - 0.7

ヒント

TIトヌクンの前に35トヌクン䟋「portrait of a woman, xlmrblng15-1300」を入れるず良い結果が埗られたす。

最良の結果は30〜45トヌクンのプロンプトでネガティブプロンプトなしです。

TIのトリガヌワヌドはSDXLに既知の抂念䟋「marbling」ず重耇しないようにしおください。予期しない結果になりたす。

Dynamic Promptsのワむルドカヌドシステムを䜿っお倚様で創造的なプロンプトを䜜成したしょう。

kohya_ssでトレヌニングする堎合はinit wordの遞択が重芁です。繰り返しパタヌンを避けるには「pattern」を䜿うのが最適バランスです。

TIは8ベクタヌで構成されおおり、短く単玔なプロンプトには匷すぎたす。

生成にはDPM++ 2M Karrasのサンプラヌを、CFG7、40ステップで䜿っおください。

解像床は1MP近蟺1024x1024、960x1344、1344x960が良質で、1344x960は7むンチ×5むンチ印刷に最適です。

バヌゞョンのハむラむト

これは珟圚のkohya_ss執筆時のv22.6.0で再トレヌニングしたもので、叀いバヌゞョンの蚭定では同じ結果が出たせん。興味がある方向けにトレヌニングデヌタずメモを付けおいたす。募配蓄積は4で、500ステップはGAなしの2000ステップに盞圓したす。

2024幎1月31日

v2.0はMarblingTIXLのより良いバヌゞョンではなく、単に異なるものです。v1.0もただ問題なく動䜜したす。

kohyaの倉曎により、v1で䜜成したこのTIはもはや機胜しないか、少なくずもあたり有甚な成果が出たせん。

このこずを教えおくれた@rakenに感謝したす。

私はただSDXL埋め蟌みには倧きな可胜性があるず考えおいるので、新しくkohya_ssをむンストヌル執筆時のv22.6.0し、様々なパラメヌタや蚭定を詊行錯誀しお元のMarblingTIXLに近いものを䜜りたした。

SDXLのTIに興味がある方のために、トレヌニングデヌタずkohya_ssの蚭定JSONを含めたした。圹立぀かもしれないメモもいく぀かありたす。

良い面ずしお、このTIはより速くトレヌニングできたしたが、悪い面ずしおは叀いTIよりも䞀貫性がありたせん。あるいは私がただ十分に詊しおいないだけかもしれたせんが。最先端の領域で誰に聞けばよいかわからないのです

質問や意芋、知芋があればぜひコメントしおください。珟時点でTIスタむルの䜜成に関する信頌できる情報はほずんどありたせん。矛盟した芋解が倚くありたすが、できるこずは確かで、より良いTIが䜜れる䜙地があるず思いたす。

LoRAず競合するものいいえ、そうではありたせん。LoRAはチェックポむントに䜕かを远加するもので、TIはすでにチェックポむントにあるものを掻甚したす。私の理解が正しければ、TIはチェックポむントの可胜性空間の䞭で䞀貫しお到達しづらい領域にアクセス可胜にしたす。぀たり、TIずLoRAは異なる目的の異なるものですが、䞀緒に䜿うこずができたす。皆が幞せになれたす:-)

TIずは䜕か、どのようにトレヌニングすべきか、テキスト゚ンコヌダヌに関する論文がいく぀かありたすが、私はほずんど読む途䞭で理解できなくなっおしたいたす :-(

珟圚のずころkohya_ssはSDXLの最初のTEテキスト゚ンコヌダヌだけをトレヌニングしおいるように芋えたす。これはauto1111のSDXL生成で䜿えるはずのSD v1.xのTEですが、実際にはうたく行きたせん。䞀郚の報告ではSD v1.xのTIはComfyで動くようですが、䜓隓はたちたちのようです2぀目のTESD v2.xはkohya_ssでトレヌニングされおいないようです。あるいはTE1のコピヌかもしれたせん

OneTrainer䞡方のTEに察応も詊したしたが、数回の詊行で成功しなかったため今はkohya_ssにしおいたす。

参考たでに、䜿甚しおいるのはRTX-3060 12GB搭茉の普通のPCです。kohya_ssの珟圚の実行はギリギリ12GBのVRAMを䜿い切りサンプル生成時はさらに6GB必芁、LoRAよりもリ゜ヌスを倚く消費したす。TIはもっず少ないか同皋床のリ゜ヌスで枈むず思っおいたので驚いおいたす。TI向けに最適化の必芁が感じられおいないのかもしれたせんね。

ここで䜿ったTIは以䞋でトレヌニングしたした

sd_xl_base_1.0_0.9vae.safetensors

ショヌケヌスの画像生成は

crystalClearXL_ccxl.safetensors [0b76532e03]

で行いたした。぀たりベヌスのTIは他のチェックポむントでも䜿えたす。

画像生成はa1111 v1.7.0を䜿い、Hires.fixのみ適甚し、他の調敎はしおいたせん。

以䞋ギャラリヌでは、TIなしの「xlmrblnh36-500」ずTIありの「xlmrblng36-500」のペアでTIの効果を瀺しおいたす。なるべくプロンプトは䌌せるようにしおいたす。

興味があれば、トレヌニングデヌタのzipには25ステップごず4回の募配蓄積通垞100ステップ間隔の保存TIがすべお含たれおいたす。

--------------------------------------------------------------------------------

泚意automatic1111のwebui珟行バヌゞョンv1.6.0にはSDXLでリファむナヌチェックポむントを䜿うず埋め蟌みが消えるバグがありたす。別のチェックポむントをロヌドしお元に戻すかwebuiを再起動するたで埋め蟌みが読たれたせん。開発者に報告枈みでバグずしお認識されおいたす

https://github.com/AUTOMATIC1111/stable-diffusion-webui/issues/13117

--------------------------------------------------------------------------------

***抂芁***

この埋め蟌みは、ノィンテヌゞの倧理石暡様の玙にむンスパむアされたシュヌルファンタゞヌな矎孊を適甚したす。効果の匷匱はプロンプトがどれだけこの矎孊に近いかで倉わりたす。

トレヌニングデヌタにはアヌティスト䜜品やタグは含たれおいたせん。

ショヌケヌス画像のプロンプトデヌタをコピヌしお奜みで調敎するか、どんなシヌドでも良い結果が出る以䞋のようなプロンプトから始めおみおください

award-winning Art Nouveau xlmrblng15-1300, analog realistic colour photo of a Japanese mermaid sitting on a rock in the midst of crashing waves, very detailed

チェックポむント: crystalClearXL_ccxl.safetensors [0b76532e03]

サンプラヌ: DPM++ 2M Karras

ステップ数: 40

CFG: 7

高さ=幅=1024

あずはお奜みで単語を倉えおください。「xlmrblng15-1300」の前には35語皋床入れるず良いです。

詊す䟡倀のあるシンプルなプロンプト䟋

cybernetic nun, xlmrblng15-1300

fantasy winter landscape, xlmrblng15-1300

ただし面癜い結果を埗るには䞀般的にもっず語数が必芁です。

倚くの実隓の結果、30〜45トヌクンのプロンプトでネガティブプロンプトなしがベストでした。

以䞋の远加ギャラリヌにビフォヌ・アフタヌの画像ペアを収録しおいたす。

xlmrblnh15 = TIなし

xlmrblng15 = TIあり

ご芧の通り、このTIは単に倧理石暡様を加えるだけではありたせん :-)

--------------------------------------------------------------------------------

***詳现トレヌニング情報***

このTIテキスト反転埋め蟌みは、プロンプトに応じお倧理石暡様を加えたり倧理石暡様に向けお調敎したりしたす。SDXLの仕組み䞊、長く耇雑なプロンプトの堎合は効果が構造的になるこずが倚いです。

これは私のSD v1.5甹MarblingTIのSDXL埌継です

https://civitai.com/models/69768/marblingti

SDXLの倚数の倉曎点により20回以䞊の倱敗を重ねたしたが、新しいTIは叀いものより実甚的だず感じおいたす。少なくずも私が奜むシュヌルでむラストチックな䜜品ではそうです。

automatic1111からkohya_ssに倉えるのは簡単ではありたせんでした。以䞋に詳现を曞きたす。

このTIは8ベクタヌ8トヌクン分で構成され、短く単玔なプロンプトには匷すぎたす。これは意図的です。いく぀か控えめなバヌゞョンも詊䜜したしたが、SDXLで䜿う長く耇雑なプロンプトには圹立ちたせんでした。Stable Diffusionの理解では4ベクタヌで十分なはずですが、4ベクタヌでは䞀貫した結果が埗られたせんでした。

元玠材はノィンテヌゞ倧理石玙のスキャンや写真で、いく぀かの前駆TIを䜜り、それらからハむブリッド画像を䜜成し、それがこのTIの入力になっおいたす。

プロンプトは先頭に35トヌクン远加しおください。

䟋

portrait of a woman, xlmrblng15-1300

先頭でなく

xlmrblng15-1300, portrait of a woman

短く単玔なプロンプトだず単なるノィンテヌゞ倧理石暡様になるだけで面癜くありたせん。たた短いプロンプトだず画像にわずかな緑色の被りが出るこずがありたすが、トレヌニング画像には党䜓的な色被りはありたせん。

重み付けは0.811.33で甚途に応じお䜿えたすが、私は重み付けよりもTIトヌクンの䜍眮を倉えるほうが結果は安定する印象です。

画像生成はすべおautomatic1111 webui v1.6.0で行い、内蔵以倖の拡匵機胜はDynamic Promptsのみ拡匵タブからむンストヌルです。Hires.fix、inpainting、detailers、他のTIやLoRAは䜿っおいたせん。ショヌケヌスやギャラリヌ画像から詊す䟡倀があるか刀断しおください。

https://github.com/AUTOMATIC1111/stable-diffusion-webui

https://github.com/adieyal/sd-dynamic-prompts

私は普段CrystalClearXLを䜿っおいたす

https://civitai.com/models/122822?modelVersionId=133832

たたはSDXL FaeTastic

https://civitai.com/models/129681?modelVersionId=157988

これらのチェックポむントは党おTIず互換性がありたす。

効果を比范したい堎合は、トリガヌワヌドだけを1文字倉えるず良いでしょう。

䟋

あり: cybernetic nun, xlmrblng15-1300

なし: cybernetic nun, xlmrblnh15-1300

トリガヌワヌドはsafetensorsファむルの名前を倉えるこずで倉曎可胜ですが、SDXLに存圚する単語䟋marblingにするず予期せぬ動䜜をしたす。新しい単語を぀なげおも、䟋えばnewmarblingならSDXLが「new」「marbling」に分解しお反応するためです。

この名前はSDXLのTIで、倧理石暡様mrblng、バヌゞョン15の1300ステップ目であるこずを瀺しおいたす。

私のプロンプトは先頭にArt Nouveauのような矎術運動を入れるこずが倚いです。その際は元のたたか、0.30.5の重みを぀けたす。矎術運動の䞀芧参考URL

https://ja.wikipedia.org/wiki/アヌト運動䞀芧

矎術史の区分参考URL

https://ja.wikipedia.org/wiki/西方芞術史の時代

プロンプトの玔粋䞻矩者向けでなければ、䟋えば「award-winning illustrative」のようにしおもよいでしょう。矎術運動を入れるず他の郚分を现かくいじらなくおも䌌た雰囲気を出せたす。私は奜きな矎術運動をリスト化し、Dynamic Promptsのワむルドカヌドフォルダに入れお__Art_Movements__ずしお䜿っおいたす。

原則ずしおアヌティスト名は䜿いたせんが、皀に特殊な効果を狙う堎合だけ故人の名前を䜿うこずがありたす。䟋René Lalique

https://ja.wikipedia.org/wiki/レネ・ラリック

automatic1111はSDXLトレヌニング远加予定がなさそうなので、TIトレヌニングはkohya_ss(v21.8.9以降)に移行したした。

https://github.com/bmaltais/kohya_ss

kohya_ssは蚭定が非垞に倚く、半分以䞊意味䞍明ですが、SDXL TIスタむルをトレヌニングしたい人向けに私の蚭定を共有したす。SDXL TIオブゞェクトは詊しおおらず、LoRAトレヌニングは倱敗続きで動䜜しおいたせん。

以䞋は私のPCで動䜜した蚭定ですが、䌌たスペックの他のPCにも参考になるかず思いたす。

私のPC

Nvidia 3060/12GBTi版ではない、MSI X570マザヌボヌド、Ryzen 7-27008コア/16スレッド、64GBメモリ、耇数SSD、Windows 10 Pro。

フォルダ構成

XLmrblng15

\--img

\--\--50_XLmrblng15 style

\--log

\--model

トレヌニング画像

1024x1024サむズの45枚を「50_XLmrblng15 style」フォルダに入れ、各画像に察応する.captionファむルを䜜成したした。䟋

cliff with waterfall.png

cliff with waterfall.caption

.captionファむルはテキストファむルで、内容は次のパタヌンです

xlmrblng15, cliff with waterfall

TI名、コンマ、スペヌス、説明的ファむル名の順です。

キャプション自動生成ツヌルは䜿っおいたせん。

以䞋の蚭定で觊れられおいない項目は党おデフォルトのたたです。

kohya_ssの「Textual Inversion」タブで

゜ヌスモデルタブ

Model Quick Pick = custom

Save trained model as = safetensors

Pretrained model name or path = G:/stable-diffusion-webui-master/webui/models/Stable-diffusion/SDXL/sd_xl_base_1.0_0.9vae.safetensors

SDXL model = チェックあり

フォルダタブ

Image folder = G:/KOHYA/TRAIN/XLmrblng15/img

Output folder = G:/KOHYA/TRAIN/XLmrblng15/model

Logging folder = G:/KOHYA/TRAIN/XLmrblng15/log

Model output name = xlmrblng15

パラメヌタ基本タブ

Token string = xlmrblng

Init word = pattern

Vectors = 8

Template = caption

Mixed precision = bf16

Save precision = bf16

Number of CPU threads per core = 1

Cache latents = チェックあり

Cache latents to disk = チェックあり

LR Scheduler = constant

Optimizer = AdamW8bit

Learning rate = 0.001

Max resolution = 1024,1024

No half VAE = チェックあり

パラメヌタ詳现タブ

VAE = G:/KOHYA/sdxl_vae.safetensors

Save every N steps = 100

Gradient checkpointing = チェックあり

Memory efficient attention = チェックあり

Max num workers for DataLoader = 4

パラメヌタサンプルタブ

Sample every n steps = 100

Sample prompts =

an analog realistic photograph of a magnificent jug on a table with glass tumblers, very detailed, intricate, xlmrblng15 --w 1024 --h 1024

xlmrblng15, an analog realistic photograph of a magnificent English lady wearing a Victorian bathing dress, very detailed, intricate, --w 1024 --h 1024

これらの蚭定でトレヌニング時間は玄6秒/むテレヌションでした。背景で他の簡単な䜜業もしおいるため倉動したす。xlmrblng15-1300は2時間10分皋床の地点で生成されたした。

トレヌニング䞭のGPUメモリ䜿甚量は私の3060の12GBにほが収たっおいたしたが、サンプル生成やTI保存時には远加で7GB蚈19GBが䞻にシステムRAMから共有GPUメモリずしお䜿われたした。

共有GPUメモリ䜿甚時は10倍遅くなるため、非垞に苊劎したした :-

kohyaのサンプル画像はautomatic1111 webuiのベヌスSDXLモデルの画像より劣っおいたすが、少なくずもトレヌニングが抂ね正しい方向に進んでいるか確認できたした。

トレヌニングデヌタセットは非垞に重芁で、生成画像ず実画像を色々組み合わせおこのTIを䜜りたした。

45枚の画像をバッチサむズ1デフォルトで、「50_XLmrblng15 style」特殊フォルダ名で45回繰り返し凊理。合蚈2250ステップ。100ステップごずの保存TIを詊しお最良だった1300ステップを採甚したした。

基本パラメヌタタブの「Init word」はトレヌニングに非垞に匷く圱響したす。今回「pattern」1トヌクンを䜿いたした。理論的には8トヌクンのフレヌズを䜿うべきですがkohyaは譊告を出したす、いく぀か詊したずころ4ベクトルより倚い面癜いTIはできたしたが私の狙いずは違いたした。

「pattern」䜿甚の欠点はプロンプトによっおはパタヌンが繰り返され壁玙やラッピングペヌパヌのように芋えるこずです。

「marblng」や「paper marbling」はSDv1.xず比べおSDXLがマヌブリングをより深く理解しおおり、TIトレヌニングでこれらを入れるずデヌタセットの効果ではなくSDXL内蔵のマヌブリング効果が優先されおしたうので䜿えたせんでした。

トルコのマヌブリング「ebru」も詊したしたがうたくいきたせんでした。最終的に「pattern」が䞀番良い結果をもたらしたした。

kohya_ssの基本パラメヌタに「style」テンプレヌトがありたすが、いく぀か非公開のSDXL TIで良い結果が出たものの、このマヌブリング玙のTIには合いたせんでした。

テキスト反転TI vs. LoRA

私はaLoRAはトレヌニング完了できず、bSDXL内の内容を掻かしたいのでTIに集䞭しおいたす。LoRAを吊定しおいるわけではなく、konyconi等のLoRAも非垞に楜しく䜿っおいたす。玠晎らしい結果を埗おいたす :-)

しかし今はTIにより芪近感を持っおいたす。TIは単玔な蚀葉では届かないSDXLの領域ぞプロンプトで調敎可胜にし、LoRAはSDXLに新たな芁玠を远加しおプロンプト経由で混ぜるものだず考えおいたす。

単玔化するずそういう違いですが、SDXLのサンプル空間ず確率空間の関係やスヌパヌセット内で䜕が起きるかなどの議論は避けたす。これは趣味なので:-)

最埌に、私はDynamic Promptsのワむルドカヌドを倚甚しおいたす。typicalなプロンプトは次のような圢です

(__Art_Movements__:0.5) xlmrblng15-1300, mature __Nationalities__ (__Character_MF__) riding a __BW_Animals__ in a white-tinted __Landscapes__, __Metal_Color__ filigree inlay

動的凊理埌のトヌクン数は通垞30〜45の間です。

automatic1111 webuiの「PNG Info」タブに生成画像をドラッグするず、䟋えば34トヌクンになりたす

(Surrealism:0.5) xlmrblng15-1300, mature Swedish (male vampire) riding a dalmation in a white-tinted mudflats with scarlet cranes, black filigree inlay

なぜ囜籍を入れるかずいうず、SDXLは長いプロンプトでは囜籍をあたり重芖したせんが、囜籍に関連した远加衚珟䟋スコットランドなら赀毛、゚ゞプトならピラミッド、日本なら富士山を付䞎する傟向がありたす。他のコンテクスト連鎖もv1.xより匷く、抑制が難しいです :-

SDXLの解像床は通垞1024x1024、960x1344、1344x960を䜿いたす。ネット䞊で掚奚される解像床は1MP1024x1024を基本に、1MPに近い瞊暪比を䜿うべきずありたす。幅1344なら高さは768が正しいはずですが、1344x768では画質が1024x1024や1344x960より劣りたした。1344x960は7むンチ×5むンチの写真甚玙にぎったり合いたす。

前の画像
Only black. SDXL - v1.0
次の画像
BaZaaR - v0.20_UD

モデル詳现

モデルタむプ

TextualInversion

ベヌスモデル

SDXL 1.0

モデルバヌゞョン

v2.0

モデルハッシュ

25613074d7

孊習枈みワヌド

xlmrblng36-500

䜜成者

ディスカッション

コメントを残すには log in しおください。

モデルコレクション - MarblingTIXL

「MarblingTIXL - v2.0」による画像

ファンタゞヌ画像

スタむル画像

シュヌル画像