SDXL / Flux.1 D - マット(ヴァンタ)ブラック - 実験 - Flux.1 D v1.0
推奨パラメータ
samplers
steps
cfg
resolution
other models
ヒント
Flux.1 Dは色やスタイルを加える他のLoRAモデルと組み合わせると最適です。
モデルは訓練データを強く再現する傾向があり、過学習するとほぼ純黒の画像になることがあります。
ろうそくなどの光源を追加すると、Fluxは光が目立つように自然に暗い環境を加えます。
ほぼ黒の画像での訓練は難しく、データセットの準備に細心の画像編集が必要です。
生成画像をControlNet IP-Adapterで処理すると効果が強化されランダムな結果も出ます。
このモデルは4060 TI(16GB)で効率的に訓練され、VRAM使用量は14.4~15.2GBでした。
バージョンのハイライト
Flux バージョン
Flux.1 D - V2.0
Fluxで動作させる最後の試み... ここで言う動作とは、できるだけ問題を引き起こすことを意味します。SDXLバージョンと同じことを二度としない可能性が高いです。6000ステップの後でも観察だけでそれが明らかでした。SDXLは「学習するけど自分のテイストを加える」感じなのに対し、Fluxは何をすべきかわからないものに対して激しく抗い/補償しようとします。一方、長時間の訓練後には画像を完璧に生成し、訓練データを完全コピーしてほぼ純黒に近くなることもあります。Fluxは少数ステップでも写真のように画像を正確にコピーできます。
前のFluxバージョンで言ったように、主に色が豊かなLoRAや特定のスタイルを持つものと混ぜて使いたいモデルです。
SDXL v3.0と同じ画像が多く使われ、Fluxバージョン用にさらにいくつか追加(ランドスケープフォーマットも一部)しました。ただし、私や他の多くの人が投稿した画像の80%以上に影響していたであろう3枚は削除しました。SDXLバージョンではやめましたが、今回は意図的に削除しました。これらの画像が支配的すぎて奇妙な動作や特定画像への偏りを引き起こしていたためです。Flux v1.0バージョンで問題を確認し、今ではそれらはありません。人気は減るかもしれませんが気にしません。
多くの人は単に「パイプライン」にある特定のLoRAを使っているだけのように感じます。場合によってはLoRAなしの画像のほうが良いのに気づかないこともあります。スタイルLoRAは生成中に明らかなスタイルを追加するため異なりますが、このモデルはあらゆるものを悪化させる可能性があり、だからこそ投稿した画像は選り好みせず、言いたいことを示しています。強い光やろうそくのような光源を追加すると、Flux(といくつかのSDXLモデル)は自然と暗い環境を加えます。光源は目立つために必ず何らかの暗さが必要だからです(晴れた日の車のヘッドライトはあまり効果がありません)。
NF4やQQUFUFバージョン5.64.3255 K4 2などで動作するかは聞かないでください。ファイルは大きくないので自分で試せます。普通のFP8/16 Devバージョン以上の利点がなく、ただメモリ消費量が減るかわずかな速度増加(または速度減少)しかない限り、そういったモデルからは距離を置きます。
短期間に新バージョンが出て慣れたものが変わるのは面倒なのはわかっています。このモデルに関してはこれ以上追求せず、私や他の誰かが何か有益なものを得られるか様子を見るつもりです。
また、Photoshopで画像準備にかかる労力は割に合いません。何も変わらないのがわかっているなら尚更です。新しいこと、あるいは愚かなことをして興味深い効果やランダムな効果を作るか、古いモデルをFlux化して何が起きるか試すほうが良いでしょう。
Flux.1 D - V1.0
Kohyaや他のツールで少し試した後、Flux向けのかなり変わったコンセプトLoRAで成功したのを見て試してみました。Fluxバージョンを作るのが目的ではなく、Fluxは大部分のコントラスト調整をうまく行うからです。主な目的は人工的/偽造風の見た目をなくすことで、そのため定義が曖昧なデータセットを使いました。時々効果がありますが、悪化することもあります。
SDXLバージョンと同様、他の特に色を多く加えるLoRAと組み合わせて使うべきものです。
プロンプトや画像準備が手抜きで申し訳ありません。V3.0で使ったものをほぼ流用していますが、現時点のショーケースとしては問題ありません。時々ディテールを殺し、特に興味深い効果を追加しないことがあります(例:クラゲやオウムの画像)。
対応する画像は同じシードを使用
最初の2枚はLoRAなしあり、その後逆で最初なしで次にあり(強度は異なる場合あり)
最初にトリガーワードがある画像もありますが、Fluxでは不要かもしれません
新しいデータセットではなくV1.0データセットに基づく(画像数の削減が目的)
Flux用のLoRAをさらに作るかは未定ですが、多くテストする予定です。様々なバージョンが混在していて混乱しており、10時間後には陳腐化しているかもしれないものに多くの時間をかける価値は感じられていません。
ちなみに、4060 TI(16GB)で訓練しました。最大VRAM使用量は14.4〜15.2GB、1イテレーションあたり3.95〜5.15秒、512×、Rank4 です。4090は不要です。もちろん高速ですが、待機して他のことができるなら問題ありません。何かを試したい場合は別ですが。
いつも通り、時々使って何か意味のあるものが得られるか見ますが、好奇心を満たす程度でしょう。
V.3.0
v2.0での失敗の後、今回はマージなどなしの正真正銘のバージョンにしました。最初は追加画像数の多さから初期版から大きく逸れるのではと懸念しましたが、幸いそうはなりませんでした。
多くの人がこのLoRAを使って多くの画像を作成してくれて本当に嬉しいです。本来の意図とは異なる使われ方をしていますが、別の用途として使える(すべてのLoRAがそうであるように)ことが分かるのは良いことです。
これがかなり長期間の最終バージョンになる可能性が高いです。単に画像を追加するだけでは基本効果は変わらないためです。むしろ、異なるモデル、LoRAの組み合わせやプロンプトでの利用がほとんどです。
私は新しい画像作成に注力して、さらに多くの組み合わせを探したり、奇妙なLoRAを作ったり、古いLoRAを修正したりします。また、人からダウンロードしたものも多々あるので使えていません。
これまで投稿されたすべての画像に感謝し、もっと投稿されることを期待しています。ただし、この急速に変化するAI分野ではすべてのLoRAに寿命があり、魅力的な要素はやがて終わります。 :)
V2.0
V2.0に関する小さな発表(国によっては02.04または04.02)
正直、自分は馬鹿でした。
別のLoRAを訓練し始めたとき、2000ステップ経ってもサンプル画像に変化が全くなく、ほぼ不可能な状況に気づきました。原因を探したところ、LRウォームアップ設定を戻していなかった(正しい設定にしていなかった)ことが判明しました。通常ウォームアップステップは使いませんが、以前のテストで効果を試したことがあります。その時は4枚程度の画像データセットでした。いつもは100エポック設定で、500ステップごとにモデルが出力される設定にしています。ウォームアップは32%で、4枚×10繰り返し×100エポック=4000ステップの32%である1280ステップ間はほとんど変化がありません。
今回のLoRAは同じ設定でしたが、60枚の画像で(60×10×100=60000、32%ウォームアップ=19200ステップ)です。つまり12000ステップ時点でもほとんど開始されておらず、ほぼ無為な訓練に終わっていました。理由の説明になります。寝落ちしていたため気づきませんでしたが、効果が出るまで時間がかかりすぎた原因は画像自体ではありませんでした。
つまりこのLoRAはハズレで、動作の多くはV1.0とのマージによるものです。
週末に仕事から戻ったら正しい設定で再訓練します。
ご迷惑をおかけして申し訳ありません。単なる意図しないエイプリルフールの冗談だったかもしれません。 :) .... :(
最近多用していて新しいLoRAをしばらくアップロードしていなかったためいくつか画像を追加しました。仕事が忙しく複雑で神経を消耗するテーマばかり選んだのが理由です...他はつまらなく感じます。
また、Ponyを解析に多くの時間を費やし、驚いています。Furry、アニメ、一般的なポルノ要素を除けば、Base XLモデルより基本的と言える部分も多く、LoRA訓練によるコンセプトやスタイル追加に適していますが、ポジショニング、感情、奇妙なアングルなど複雑な要素も理解しています…しかしそれは全く別の話です。
今年はどれだけ訓練できるか不明です。途中で簡単なものを作るかもしれませんが、AIは急速に進化しているので1か月あるいは1週間後には新しい何かが出ているかもしれません。
同じシードと同じモデルで以前生成した画像を再テストしました。変化は微妙なものから大きなものまであります。(発表で理由がわかりました)
またショーケース画像のバリエーションが少なくてすみません。画像準備に時間がかかることが訓練より長い場合もありますが、このケースではあまり関係ありません。今後自然に増えるでしょう。
V1.0
ほぼ真っ黒でかすかな形しかない訓練画像をAIに学習させるとどうなるか試しました。
Photoshopでデータセットを準備するのはほぼ不可能でした。ほとんど何も見えなかったからです。もちろん人によってモニター設定は異なるため画像が本当にこれほど暗いかは不明ですが、目への負担は大きかったです。生成画像は訓練画像ほど暗くありませんが、見るのはやはり難しいです。
モデルが何かを学習したことに驚きました。しばらく置いて、どう扱うか考えます。変なことをすることは確かです。生成画像をControlNet IP-Adapterに入れると効果が強調され、ランダムな結果も生成されます。
生成のヒント:
わかりません…がんばってください。
モデル詳細
ディスカッション
コメントを残すには log in してください。





