モデル/RouWei - v0.7 vpred

RouWei - v0.7 vpred

沢岡美纪子

9/24/2025

1:09:15 AM

| Discussion|

推奨プロンプト

masterpiece, best quality, 1girl

推奨ネガティブプロンプト

worst quality,low quality,watermark

worst quality, low quality

推奨パラメータ

samplers

Euler_a, CFG++, Euler Ancestral CFG++, Euler CFG++, Euler a

steps

20 - 28

cfg

1.4 - 9

resolution

1024x1024, 1216x832, 832x1216, 1344x800, 1216x832, 896x1152, 800x1280

vae

sdxl_vae.safetensors

推奨ハイレゾパラメータ

upscaler

Latent

upscale

1.5

steps

15 - 22

denoising strength

0.6 - 0.7

ヒント

アーティスト/スタイルタグは必ず別のCLIPチャンクにするかプロンプトの末尾に配置し、A1111ではBREAKで区切り、Comfyではconcat conditioningを使い、大幅な性能低下を防ぐ。

品質タグは4つのみ使用：masterpiece、best quality（ポジティブ）とlow quality、worst quality（ネガティブ）。lowres等の他のメタタグは避ける。

vpred版ではCFGを3〜5の低めに設定することが最適。

明るさや色彩、ガンマ、コントラストの調整にメタタグを活用して色再現率を向上させる。

アーティストスタイルを混ぜる際は"by "プレフィックスを使ってスタイル混合の問題を防ぐ。

プロンプトは簡潔に、長すぎたり冗長な自然言語記述は避けること。

バージョンのハイライト

vpredバージョン

クリエイタースポンサー

HuggingfaceでIllustrious v0.8をダウンロード

サポートやアップデート用のDiscordサーバーに参加

Illustriousの詳細な再トレーニングにより、最高のプロンプト順守、知識、最先端の性能を実現。

大きな夢が叶う

バージョン番号は現在の最終リリースのインデックスであり、計画されたトレーニングの一部ではありません。

HFリポジトリ

約1300万枚の画像（約400万枚は自然文キャプション付き）を用いたGPUクラスタによる大規模ファインチューニング

キャラクター、コンセプト、スタイル、文化などに関する新鮮かつ豊富な知識
リリース時点でSDXLアニメモデルの中で最高のプロンプト順守率
Illustrious、NoobAi、他のチェックポイントで一般的だったタグの漏れやバイアスの主な問題を解決
幅広いスタイルにわたる優れた美学と知識（5万以上のアーティスト（例）を含み、プライベートギャラリーからの数百の厳選された独自データセットも含む）
安定性を犠牲にしない高い柔軟性と多様性
クリーンなデータセットにより人気スタイルの面倒な透かしが消滅
焼け跡なしの鮮やかな色彩と滑らかなグラデーション、イプシロンでも全色域対応
サードパーティのチェックポイント、Lora、Tweaker等を使わず、Illustrious v0.1から純粋にトレーニング

前バージョンとの比較でいくつかの問題点と変更点がありますので、必ずマニュアルを参照してください。

データセットカットオフ - 2025年4月末。

特徴とプロンプト：

重要な変更：

複数のアーティストスタイルを混ぜる際は、それぞれのタグを必ず別のCLIPチャンクに入れてください。A1111および派生ツールではその後にBREAKを追加、Comfyではconditioning concatノードを使うか、少なくともプロンプトの末尾にまとめて配置してください。そうしないと大幅に結果が悪化する可能性があります。

基本：

このチェックポイントは短い単純プロンプト、長く複雑なプロンプトの両方に対応します。ただし、矛盾や奇妙な記述があっても、他のモデルのように無視されず結果に影響します。安全ガードや制限はなく、自由な表現が可能です。

見たいものをプロンプトに入れ、画像に入れてほしくないものは入れないでください。上からの視点が欲しいなら天井は入れず、画面外に頭が出るクロップビューなら顔の詳細説明は控える、といったシンプルなルールです。意外と見落とされがちです。

バージョン0.8は自然文プロンプトの高度な理解を備えていますが、必ずしも使わなくてはいけないわけではありません。タグのみでも十分で、タグの組み合わせ理解も向上しています。

FluxやT5、LLMテキストエンコーダーベースのモデルほどの性能は期待しないでください。SDXLのチェックポイントサイズはそれらのテキストエンコーダー単体より小さく、またIllustrious-v0.1（ベース）はvanilla sdxl-baseから多くの一般知識を失っています。

とはいえ現状でも性能は大幅に向上し、外部ガイダンスなしに不可能だった新機能が使え、手動編集やインペイントも便利になっています。

最高の性能を出すにはCLIPチャンクの管理が重要です。SDXLではプロンプトは75トークン（BOS,EOS込みで77）単位で分割され、それぞれ別に処理されてからUNetへ条件として渡されます。

キャラクターやオブジェクトの特徴を指定し他の部分から分けたい場合は同じチャンク内に入れ、必要に応じてBREAKで区切ると良いです。完全には特性混合問題を解決しませんが、RouWeiのテキストエンコーダーは全シーケンス処理に長けているため理解度向上が見込めます。

データセットはbooru風タグと自然文表現のみを含みます。ファーリー、実写、欧米メディア等もありますが、すべてクラシックなbooruスタイルに統一されています。e621タグは正しく理解されません。

サンプリングパラメータ：

txt2imgは約1メガピクセル、解像度は32の倍数で任意のアスペクト比対応（例：1024x1024, 1056x, 1152x, 1216x832, ...）。Euler_a、ステップ数20〜28。
CFG値：イプシロン版は4〜9（7が最適）、vpred版は3〜5。
シグマ倍率調整で結果が少し改善する場合あり。CFG++サンプラーは問題なし。LCM/PCM/DMDなどのエキゾチックなサンプラーは未検証。
一部スケジューラは適切に動作しないことがあります。
Highresfixはx1.5の潜在空間とデノイズ0.6または任意のGAN+デノイズ0.3〜0.55推奨。
vpred版はCFG値を3〜5の低めに設定する必要があります！

vpred版はCFG値を3〜5の低めに設定してください！

品質分類：

ポジティブでは4種類の品質タグのみ使用：

masterpiece, best quality

ネガティブでは：

low quality, worst quality

これ以外のタグは不要です。場合によってはポジティブを省略し、ネガティブをlow qualityのみにしても基本のスタイルや構図には影響します。

lowresなどのメタタグは削除されており機能しないため、使用しない方が良いです。低解像度画像は重要度に応じて削除またはアップスケール＆DATでクリーンアップ済みです。

ネガティブプロンプト：

worst quality, low quality, watermark

以上で十分です。「rusty trombone」「farting on prey」などは不要です。グレースケールやモノクロームなどのタグをネガティブに使う場合は意味を理解してからにしてください。以下の明るさ・色彩・コントラスト関連タグは追加使用可。

アーティストスタイル：

例を含むグリッド、リスト・ワイルドカード（トレーニングデータにもあります）。

"by "付きで使用することが必須。これがないと正しく動作しません。

"by "はスタイルに関わるメタトークンで、類似名や近接名のタグ・キャラクターとの混同を防ぎます。これによりスタイル表現が安定し、他のチェックポイントで見られるランダムな揺らぎを回避できます。

複数の"by "は興味深い結果を生み、プロンプトの重み付けや呪文で制御可能です。

アーティスト/スタイルタグの後には必ず`BREAK`を入れる（A1111用）、またはconcat conditioning（Comfy用）、もしくはプロンプトの末尾に配置してください。

例：

by kantoku, by wlop, best quality, masterpiece BREAK 1girl, ...

一般的スタイル：

2.5d, アニメスクリーンキャプチャ, 太線, スケッチ, CGI, デジタルペインティング, フラットカラー, 滑らかなシェーディング, ミニマリズム, インクスタイル, 油彩スタイル, パステルスタイル

Booruタグスタイル：

1950年代（スタイル）、1960年代（スタイル）、1970年代（スタイル）、1980年代（スタイル）、1990年代（スタイル）、2000年代（スタイル）、アニミフィケーション、アール・ヌーヴォー、ピンナップ（スタイル）、トゥーン（スタイル）、西洋コミック（スタイル）、日本画、色紙、ミニマリズム、ファインアートパロディ

およびこちらのグループのすべて。

アーティストタグと組み合わせることもでき、ウェイトをつけて正負両方のプロンプトに使用可能です。

キャラクター：

フルネームのBooruタグと適切な書式を使用してください。例：karin_(blue_archive)はkarin \(blue archive\)のように、再現性向上のためにスキンタグも利用可能です。例：karin \(bunny\) \(blue archive\)。オートコンプリート拡張機能が非常に有用です。

大半のキャラクターはタグだけで認識されますが、基本特性を説明するとより正確になります。これにより典型的な特徴漏れを防ぎ、ワイフ・ハズバンド化が容易になります。

自然文：

Booruタグと組み合わせて使用すると効果的です。スタイルと品質タグの後に自然文のみ使用してください。タグだけ使っても問題ありません。最大性能を得るにはCLIPの75トークンチャンクの管理が重要です。

データセットの約400万枚の画像はClaude、GPT、Gemini、ToriiGateによるハイブリッド自然文キャプション付きで、その後リファクタリング、クリーニングされ、タグと組み合わせて増強。これらは典型的なキャプションとは異なり、キャラクター名が含まれているため非常に有用です。

短く簡潔で便利な説明を心がけ、長く冗長な自然文は避けてください。例：

確定的でないが若々しい本質を持つ神秘的に魅了する女性存在、千の死にゆく星の幽玄な輝きを放つ天上の顔立ち、古代神話の黄金の河のように流れる髪、多分現代ファッションに似ているが特定の美学範疇には属さず。目は深遠かつ鮮やかで、千年の知恵に輝きながら時間の制約を超えた無垢さを維持する...

キャプショニングにはToriiGateの短縮モードを利用してください。

Fluxなどのモデルほど高品質ではありませんが何度か試行することで望む結果が得られます。ただし安定性や詳細度はやや劣ります。

そうです

尻尾検閲、自身の尻尾を持つ、自身の尻尾を抱く、他人の尻尾を持つ、尻尾掴み、尻尾を上げる、尻尾を下げる、耳を下げる、自分の耳に手を置く、尻尾を自身の脚に巻く、尻尾を陰茎に巻く、尻尾ジョブ、衣服越しの尻尾、衣服の下の尻尾、尻尾で持ち上げる、尻尾噛み、尻尾挿入（膣・肛門を特定）、尻尾マスターベーション、尻尾で持つ、尻尾にパンティ、尻尾にブラ、尻尾にフォーカス、尻尾を差し出す...

（booruの意味、e621ではない）および多くの自然文表現。大部分は完璧に機能し、いくつかは多回試行が必要です。

明るさ/色彩/コントラスト：

以下のメタタグを使って制御可能：

low brightness, high brightness, low saturation, high saturation, low gamma, high gamma, sharp colors, soft colors, hdr, sdr

例

イプシロン版・vpred版の両方で効果的に動作します。

イプシロン版はメタタグに強く依存しており、低明度や低ガンマ、制限範囲（ネガティブ使用）がないと真の黒（0,0,0）を実現しにくく、白も同様の問題があります。

両バージョンとも真のZsnr的な振る舞いで、一般的に観察される欠点なしに広色域かつ明るさが実現されますが動作は異なります。ぜひ試してみてください。

vpredバージョン

最も重要なのはCFGを7から5以下に下げることだけです。その他の使い方はほぼ同様で利点もあります。

v0.7以降、vpredは完璧に動作しているようです。naiのように75トークンチャンク境界近辺のタグ無視問題がなくなりました。焼け画像が出にくく、通常cfg7では過飽和気味ですが滑らかなグラデーションとなり一部スタイルで有用です。0,0,0から255,255,255までの色が再現可能です。

明るさメタタグは上記の通り、自然文表現も有効でプロンプトを容易に作成できます。最も暗い画像を作るにはネガティブにhigh brightnessを入れるか、low brightness, low gammaタグを使ってください。暗い背景に非常に明るい肌が好みでない場合や、コントラスト強調・減少をしたい場合はネガティブ/ポジティブにhdr/sdrを使い分けてください。

まれに一部プロンプトでコントラスト低下報告がありますが、他のvpredモデルも同様で75トークンチャンク境界付近に区切りを入れることで解決します。v0.7では筆者は経験していません。

vpred版使用にはA1111の開発版、Comfy（特別なローダーノード付）、ForgeまたはReforgeが必要です。パラメータはイプシロン版と同じEuler a, CFG 3〜5, 20〜28ステップでOKです。Cfgリスケールは不要ですが試すのは自由、CFG++は好相性です。

ベースモデル：

本モデルはメイントレーニング後に小規模なUNetの微調整を施し細部の改良、解像度向上などを行っています。より複雑なプロンプトで時々小さなミスはあるものの性能が上回るRouWei-Baseもあり、FP32版もあります。ComfyでFP32テキストエンコーダーノードを使いたい場合やマージ・ファインチューニングに適しています。

Huggingfaceリポジトリにて入手可能。

既知の問題点：

もちろんあります：

アーティスト・スタイルタグはメインプロンプトと別のチャンクに分けるか、最後に配置してください。
稀に位置バイアスや組み合わせバイアスがある可能性がありますが未確定です。
いくつかの一般スタイルに不満があります。
イプシロン版は明るさメタタグに依存しすぎており、望む明るさ調節に必須となる場合があります。
新たに追加されたスタイル・キャラクターが期待ほど良くなく識別しにくい場合があります。
これから発見される課題もあるでしょう。

今後のモデルで追加希望のアーティスト・キャラクターは募集しています。性能が弱い、不正確、強い透かしがあるものは報告してください。明確に追加対応します。新バージョンのフォローをお願いします。

DISCORDサーバーに参加

ライセンス：

Illustriousと同じです。マージやファインチューニングで自由に使えますがリンクや言及を残すことが必須です。

制作経緯

後で詳細レポートを作成予定です。概要としては98%はデータセット準備に費やしました。naiペーパーのタグ頻度に基づく損失重み付けに頼るのではなく、カスタムガイド損失重み付けと非同期コラレーターを使用しバランスを取りました。Ztsnr（またはそれに近いもの）とEpsilon予測をノイズスケジューラ増強で達成しました。

計算時間は研究と失敗試行を除きH100で8,000時間超。

感謝：

まずオープンソースを支援し、コードを開発・改善するすべての方に感謝します。Illustriousの作者、NoobAIチームには大規模なオープンファインチューニングの先駆けとして、経験の共有や問題の発見・解決に感謝します。

個人的感謝：

プライベート作品を提供してくれた匿名アーティスト数名、匿名者による寄付、コード、キャプション提供、Soviet CatのGPU支援、Sv1.（llmアクセス、キャプション、コード）、K.（トレーニングコード）、Bakariso（データセット、テスト、助言）、NeuroSenko（寄付、テスト、コード）、LOL2024（多くのユニークデータセット）、T.,[]（データセット、テスト、助言）、rred, dga, Fi., ello（寄付）、TekeshiX（データセット）、その他支援してくれた兄弟たちに感謝。皆さん大好きです❤️。

もちろんフィードバックやリクエストをくれた全ての方も非常に感謝しています。

もし抜けがあればどうか知らせてください。