モデル/RouWei - v0.8.0 vpred

RouWei - v0.8.0 vpred

沢岡美纪子

10/16/2025

12:54:53 AM

| Discussion|

推奨プロンプト

masterpiece

推奨ネガティブプロンプト

worst quality,low quality,watermark

worst quality, low quality, watermark

推奨パラメータ

samplers

Euler_a, Euler a

steps

20 - 28

cfg

4 - 9

resolution

1024x1024, 1216x832, 1376x832, 1280x800, 1200x1920, 832x1216, 1216x832

vae

sdxl_vae.safetensors

推奨ハイレゾパラメータ

upscaler

Latent

upscale

1.5

steps

15 - 22

denoising strength

0.5 - 0.65

ヒント

アーティスト/スタイルタグは別のCLIPチャンクに分けるか、またはBREAKトークンを用いてプロンプト末尾に配置し、最高のプロンプト適合性を実現。

正のプロンプトは「masterpiece」と「best quality」、負のプロンプトは「low quality」と「worst quality」の4つの品質タグのみ使用。

「lowres」などのメタデータタグは削除されており、効果はありません。

vpred版では低いCFG値（3～5）を使用してください。

明るさ、コントラスト、色彩関連のメタタグ（例：「low brightness」「high saturation」）は出力品質を向上させ、epsilon版・vpred版双方で効果あり。

自然言語テキストとブールータグの組み合わせを利用し、プロンプトは短く分かりやすく保って最良の結果に。

複数のアーティストスタイルはプロンプトの重みや呪文を使って組み合わせ可能。

バージョンのハイライト

v0.8用vpred版

クリエイタースポンサー

Huggingfaceリポジトリを通じてモデルと作者を支援し、Discordサーバーに参加してください。寄付はBTC、ETH/USDT、XMR、GPU時間（A100+）で歓迎します。詳細はページをご覧ください。

最高のプロンプト適合性、知識、最先端性能を達成するためのIllustriousの徹底再トレーニング。

大きな夢が現実に

バージョン番号は現在の最終リリースのインデックスであり、計画されたトレーニングの断片ではありません。

HFリポジトリ

約1300万枚の画像（約400万枚は自然言語キャプション付き）を用いたGPUクラスタによる大規模ファインチューニング

キャラクター、コンセプト、スタイル、文化や関連事項に関する新鮮で豊富な知識
リリース時点でSDXLアニメモデル中最高のプロンプト適合性
Illustrious、NoobAiその他のチェックポイントで一般的だったタグの混入やバイアス問題を解決
幅広いスタイルにわたる優れた美学と知識（50,000人以上のアーティスト（例示）、プライベートギャラリーからの数百の厳選されたデータセットを含み、アーティスト本人から得たものも含む）
安定性のトレードオフなしに高い柔軟性と多様性
クリーンなデータセットにより人気スタイルでの煩わしいウォーターマークはなし
焼けた跡のない鮮やかな色彩と滑らかなグラデーション、epsilon版でも全色域対応
Illustrious v0.1から純粋にトレーニングされ、サードパーティのチェックポイント、Lora、ツイーカー等は使用していません

前バージョンと比較した問題点や変更点もあります。必ず取扱説明書をご確認ください。

データセットカットオフ - 2025年4月末。

特徴とプロンプティング：

重要な変更点：

特に複数のアーティストスタイルをプロンプトするときは、それらのタグは必ず別のCLIPチャンクに分けてください。A1111や派生版ならその後にBREAKを追加し、Comfyならコンディショニングコンカットノードを使う、または少なくともプロンプトの最後に置いてください。そうしないと結果が大幅に劣化する可能性があります。

基本：

このチェックポイントは短くシンプルなプロンプトにも長く複雑なプロンプトにも対応しています。しかし矛盾や妙な内容があれば、他のモデルのように無視されず結果に影響します。ガイドレールや安全装置はなく、リミットもありません。

見たいものをプロンプトし、絵に入れたくないものはプロンプトしないでください。上からの視点が欲しいなら天井をプラスに入れず、頭がフレーム外のクロップビューならキャラクターの顔の詳細な記述は避ける、など非常にシンプルですが見落とされがちです。

バージョン0.8は自然言語プロンプトの高度な理解を備えています。使用は強制ではなく、タグのみの利用も十分可能で、タグ組み合わせの理解も向上しています。

FluxやT5やLLMテキストエンコーダーベースの他モデルのような性能は期待しないでください。SDXLチェックポイント全体のサイズはそのテキストエンコーダー単体より小さく、基礎のillustrious-v0.1はvanilla sdxl-baseの多くの一般知識を忘れています。

それでも現状では更に良い動作をし、通常不可能な外部指導なしの新しい表現を可能にし、手動編集やインペインティングも便利になっています。

最高の性能を出すにはCLIPチャンクを意識してください。SDXLではプロンプトが75トークン（BOSとEOS含め77）ごとに区切られ、それぞれCLIPで別々に処理されてから連結されUNetの条件になります。

キャラクターやオブジェクトの特定の特徴を他と分けて指定したい場合は同じチャンクに入れ、場合によってはBREAKで区切ってください。完全な特徴混同の解決ではありませんが理解向上に役立ちます。RouWeiのテキストエンコーダーは全シークエンスをより良く処理できます。

データセットはブールースタイルタグと自然テキスト表現のみで構成されています。ファーリー、実写、欧米メディア等の割合はありますが全てクラシックなブールースタイルに変換し、異なるシステム混用による問題を回避しています。e621のタグは適切に理解されません。

サンプリングパラメータ：

txt2img約100万画素、解像度は32の倍数に対応（1024x1024、1056x、1152x、1216x832など）。Euler_a、20～28ステップ推奨。
CFGはepsilon版で4～9（7が最適）、vpred版で3～5。
Sigmaの乗算で結果が少し改善することもあり。CFG++サンプラーは問題なく動作。LCM/PCM/DMDなどの珍しいサンプラーは未検証。
一部のスケジューラーはうまく機能しません。
Highresfixは潜在空間x1.5とデノイズ0.6、またはGAN系+デノイズ0.3～0.55。
vpred版はCFGを3～5の低めに設定してください。

vpred版は低めのCFG（3～5）が必要です！

品質分類：

4つの品質タグのみ：

masterpiece, best quality

は肯定的、

low quality, worst quality

は否定的。

それだけです。実際にはpositiveは省略し、negativeをlow qualityのみにしてもスタイルや構図に影響します。

メタタグlowresは削除されており効果がないため使用しないでください。低解像度画像は重要度に応じて削除またはアップスケール・DATでクリーンアップされました。

ネガティブプロンプト：

worst quality, low quality, watermark

これだけで充分で、「rusty trombone」や「farting on prey」などは不要です。グレースケールやモノクロのタグは理解している場合以外はネガティブには入れないでください。以下の明るさ・色・コントラスト用の追加タグは使えます。

アーティストスタイル：

例示グリッド、リスト/ワイルドカード（「トレーニングデータ」にもあります）。

「by 」付きで使用することが必須。無いと正しく機能しません。

「by 」はタグや類似名のキャラクターと混同・誤解釈を避けるためのメタトークンで、スタイル結果の精度を向上させながら他のチェックポイントで起こるランダムなスタイル変動を防ぎます。

複数の組み合わせは興味深い結果を生み、プロンプトでの重み付けや呪文で制御可能です。

アーティスト/スタイルタグの後にA1111では`BREAK`、Comfyではコンカットコンディショニングを追加、またはプロンプトの最後に配置してください。

例：

by kantoku, by wlop, best quality, masterpiece BREAK 1girl, ...

一般的なスタイル：

2.5d, anime screencap, bold line, sketch, cgi, digital painting, flat colors, smooth shading, minimalistic, ink style, oil style, pastel style

ブールータグスタイル：

1950s (style), 1960s (style), 1970s (style), 1980s (style), 1990s (style), 2000s (style), animification, art nouveau, pinup (style), toon (style), western comics (style), nihonga, shikishi, minimalism, fine art parody

およびこちらのグループ全て。

アーティストと組み合わせて重み付け可能で、ポジティブ・ネガティブプロンプト両方に使えます。

キャラクター：

フルネームのブールータグと適切なフォーマットを使用、例としてkarin_(blue_archive)はkarin \(blue archive\)とし、スキンタグも活用してください。例：karin \(bunny\) \(blue archive\)。オートコンプリート拡張が非常に有用です。

多くのキャラクターはタグだけで認識されますが、基本特徴を記述するとより正確になります。お気に入りをプロンプトで簡単に着せ替え可能で、基本特徴の漏れに悩まされません。

自然言語テキスト：

ブールータグと組み合わせて使うと効果的です。スタイルや品質タグの後に自然言語のみを使ってください。タグだけを使うのも自由で、使い方はお好み次第です。より良い結果のためにはCLIPの75トークンチャンクを意識しましょう。

データセットの約400万枚はClaude、GPT、Gemini、ToriiGateによる自然言語キャプションを含み、その後にリファクタリング、クリーンアップ、タグと組み合わせて拡張されています。

通常のキャプションとは異なり、キャラクター名を含み非常に有用です。短く分かりやすい説明が最適で、長く冗長な説明は避けてください。

不特定かつ若々しい本質を持つ神秘的な女性的存在で、その天の顔は千の消えゆく星の幽玄な輝きを放ち、古代神話の金色の川のような髪を持ち、現代のファッション傾向を彷彿とさせるが特定の美学に必ずしも従わない…

短縮モードでのキャプション付けにはToriiGateが使えます。

Fluxなどほど良好ではありませんが、複数回の試行で望みの結果が得られ、多くの場合問題ありません。

はい、あります

尻尾検閲、自分の尻尾を握る、自分の尻尾を抱く、他者の尻尾を持つ、尻尾掴み、尻尾を上げる、尻尾を下げる、耳を下げる、自分の耳に手を置く、自分の脚に尻尾を巻く、ペニスに尻尾を巻く、尻尾のフェラ、服を通す尻尾、服の下の尻尾、尻尾による持ち上げ、尻尾を噛む、尻尾の挿入（膣/肛門の特定含む）、尻尾でのマスターベーション、尻尾で持つ、尻尾にパンティ、尻尾にブラ、尻尾に焦点、尻尾の提示…

（ブールーの意味、e621ではありません）その他多数の自然言語表現も。大半は完璧に機能し、一部は根気よく試行が必要です。

明るさ/色彩/コントラスト：

以下の追加メタタグで制御可能：

低明度, 高明度, 低彩度, 高彩度, 低ガンマ, 高ガンマ, 鮮明色, 柔らかい色, HDR, SDR

例示

epsilon版とvpred版の両方で良好に機能します。

epsilon版はこれらに依存しすぎているため、低明度や低ガンマ、限定された範囲（ネガティブ側）を使わないと真の黒（0,0,0）を出すのが難しいことがあります。白も同様です。

両バージョンとも真のzsnr、全色・明度範囲を持ち、一般的に観察される欠点はありませんが挙動は異なります。試してみてください。

vpredバージョン

主なポイントはCFGを7から5（またはそれ以下）に下げることです。それ以外は類似の使い方で利点があります。

v0.7以降ではvpredはほぼ完璧に動作します。naiのように75トークンチャンクの境界近くのタグ無視による問題はありません。burnedな画像は少なく、多くの場合CFG7でも過度に彩度が高いが滑らかなグラデーションです。これは一部スタイルで有用です。真黒から真白まで表現可能です。上述の明るさメタタグは見やすさや手抜きプロンプトに便利です。最も暗い画像を得たい場合はネガティブにhigh brightnessを入れ、またはlow brightness, low gammaを使ってください。暗い背景に明るい肌が気になるならネガティブ/ポジティブでhdr/sdrを調整してください。

極稀に一部プロンプトでコントラスト低下が報告されています。同様のvpredモデルで確認され、75トークンチャンクの境界に近い場所に「セパレーター」を追加すると改善されますが、0.7では自分の環境で遭遇していません。

vpred版を起動するにはA1111のdevビルド、Comfy(特殊ローダーノード付き)、Forge、Reforgeが必要です。パラメータはepsilonと同じ（Euler a、CFG 3～5、20～28ステップ）で使用してください。Cfg再スケールは不要ですが、試す価値はあります。CFG++は良好に動作します。

ベースモデル：

本モデルはメイントレーニング後に小規模なUNetの磨き上げを行い、細部改善や解像度向上を図っています。より複雑なプロンプトでより良い結果を出すこともあるが細部に小さな誤りがあるRouWei-Baseにも興味があるかもしれません。FP32版もあり、ComfyのFP32テキストエンコーダノード利用やマージ、ファインチューニングに適しています。

Huggingfaceリポジトリで見つけられます。

既知の問題：

もちろん存在します：

アーティストとスタイルタグはメインプロンプトと異なるチャンクに分けるか、プロンプトの最後に置く必要があります
稀に位置や組み合わせのバイアスがあるかもしれませんが未確定です
一部の一般的なスタイルに関して不満があります
epsilon版は明るさメタタグに依存しすぎていて、望む明るさ変化の際に使う必要があります
新たに追加されたスタイルやキャラクターは期待ほど明確でないことがあります
未発見の問題もあるかもしれません

今後のモデルへのアーティストやキャラクターのリクエストは受付中です。性能が悪かったり強いウォーターマークがある場合は報告してください。明確に追加します。新バージョンをフォローしてください。

DISCORDサーバーに参加

ライセンス：

Illustriousと同じです。マージやファインチューニング等に自由に使って構いませんが、リンクや言及は必須です。

制作経緯

後で報告の形でまとめる予定です。間違いなく。

要点はデータセット準備に98%の労力が割かれています。naiのタグ頻度に基づくロス重み付けの盲目的適用ではなく、カスタム案内付き重み付けと非同期コレータでバランスを取りました。Ztsnr（に近いもの）とEpsilon予測はノイズスケジューラー拡張で実現。

使用した計算資源はH100で8000時間超（研究や失敗試行除く）

謝辞：

まずオープンソースを支援し開発・改善に携わる皆さんに感謝。Illustriousの作者、NoobAIチームに感謝。彼らは大規模オープンファインチューニングの先駆者で、経験共有、問題発見・解決を行いました。

個人的に：

作品を匿名で提供してくれたアーティスト、小額寄付やコード・キャプション提供者、Soviet Cat（GPU協賛）、Sv1.（LLMアクセス、キャプション、コード）、K.（トレーニングコード）、Bakariso（データセット、テスト、助言）、NeuroSenko（寄付、テスト、コード）、LOL2024（多数のユニークデータセット）、T.,[]（データセット、テスト、助言）、rred、dga、Fi.、ello（寄付）、TekeshiX（データセット）、その他多くの仲間に心から感謝します。愛しています❤️。

もちろんフィードバックやリクエストをしてくれた全ての方々にも感謝。非常に重要です。

漏れている方がいたらお知らせください。