RouWei - v0.8.0 epsilon
推奨プロンプト
masterpiece
推奨ネガティブプロンプト
worst quality,low quality,watermark
worst quality, low quality, watermark
推奨パラメータ
samplers
steps
cfg
resolution
vae
推奨ハイレゾパラメータ
upscaler
upscale
steps
denoising strength
ヒント
アーティストスタイルをプロンプトする際は、タグを必ず別のCLIPチャンクに入れること。A1111系はBREAKを追加、Comfyはconditioning concatノードを使うか、プロンプトの末尾に置くことで品質劣化を防ぎます。
見たいものをプロンプトし、不要な要素は入れないこと。モデルは矛盾や複雑なプロンプトをガイドや安全装置なしで適切に扱います。
品質タグは4つのみ使用:ポジティブは「masterpiece, best quality」、ネガティブは「low quality, worst quality」。「lowres」などメタタグは削除され効果なし。
明るさや色彩の制御には、low/high brightness、saturation、gamma、sharp/soft colors、hdr、sdrなどのメタタグを使用してください。
vpred版ではCFGを3-5に下げ、同一のサンプリングパラメーターを使います。滑らかなグラデーションを作り、フルカラー範囲を再現します。
キャラクター指定には正式名称のbooruタグを適切にフォーマットして使用しましょう。精度が向上します。
長すぎる自然言語プロンプトは避け、短く簡潔な説明が自然文入力には最適です。
バージョンのハイライト
メジャーアップデート
クリエイタースポンサー
Illustriousの詳細な再訓練により最高のプロンプト遵守、知識、および最新のパフォーマンスを実現。
大きな夢が叶う
バージョン番号は現在の最終リリースのインデックスであり、計画されたトレーニングの一部ではありません。
約1300万枚(うち約400万枚は自然文キャプション付き)のデータセットを用いたGPUクラスターでの大規模ファインチューニング
キャラクター、コンセプト、スタイル、文化関連の新鮮かつ広範な知識
リリース時点でSDXLアニメモデルの中で最高のプロンプト遵守率
Illustrious、NoobAiなどのチェックポイントで一般的であったタグの混在やバイアスの主な問題を解決
幅広いスタイルにおける優れた美学と知識(5万以上のアーティスト(例)を含む、アーティスト自身から提供されたものを含む、数百の厳選されたプライベートギャラリー由来のユニークなデータセット)
安定性を損なわずに高い柔軟性と多様性
クリーンなデータセットにより人気スタイルの煩わしい透かしはなし
burningの痕跡がなく、鮮やかな色彩と滑らかなグラデーションを実現(epsilon版でも完全カバー)
他のサードパーティ製チェックポイント、Loras、チューンなどを使わず、Illustrious v0.1を純粋に基にしたトレーニング
前バージョンと比べていくつかの問題と変更が存在します。必ずマニュアルをお読みください。
データセットの切り捨ては2025年4月末まで。
特徴とプロンプティング:
重要な変更点:
アーティストスタイルをプロンプトに含める際、特に複数を混ぜる場合は、タグは必ず別のCLIPチャンクに入れる必要があります。A1111系ではタグの後にBREAKを入れ、Comfyではconditioning concatノードを使うか、最低でも文末に配置してください。そうしないと結果が著しく劣化する恐れがあります。
基本:
チェックポイントは短くシンプルなプロンプトから長く複雑なプロンプトまで対応します。ただし矛盾や奇妙な内容があっても他のモデルのように無視されず、出力に影響します。ガイドレールや安全装置、手術のような処理はありません。
見たいものをプロンプトし、見てはいけないものはプロンプトに入れないでください。上からの視点を得たいなら天井をポジティブに入れず、頭がフレーム外のクロップビューなら顔の詳細な説明を避けるなど、シンプルですが重要な注意点です。
バージョン0.8は自然言語プロンプトに高度な理解を持ちます。必ずしも使う必要はありません。タグのみの使用でも問題ありません。タグの組み合わせの理解も向上しています。
FluxやT5、LLMベースのモデルのような性能は期待しないでください。SDXLチェックポイント全体のサイズはそのテキストエンコーダー単体より小さく、Illustrious-v0.1をベースにしているためvanilla sdxl-baseの一般的な知識が忘れられています。
しかし現在の状態でもはるかに優れており、外部ガイダンスなしに不可能だったことが可能となり、マニュアル編集、画像修復も便利になっています。
最高の性能を得るためにはCLIPチャンクの管理が重要です。SDXLではプロンプトを75トークン(BOSとEOS込みで77)単位に分割し、CLIPが個別に処理した後、連結されてunetへの条件として使われます。
キャラクターやオブジェクトの特徴を指定して他と分けたい場合は、同一チャンク内に入れ、オプションでBREAKで区切るとよいでしょう。完全な特性混在回避はできませんが、理解は向上します。RouWeiのテキストエンコーダーはシーケンス全体を処理する能力が他より優れています。
データセットにはbooruスタイルのタグと自然文表現のみを含みます。ファーリー、実写、欧米メディアも一部ありますが、すべて古典的なbooruスタイルに変換され、異なるシステム混在による問題を回避しています。e621タグは正しく理解されません。
サンプリングパラメーター:
txt2img用に約1メガピクセル、解像度は32の倍数の任意のアスペクト比(1024x1024、1056x、1152x、1216x832など)。Euler_a、20~28ステップ。
CFG:epsilon版は4~9(7が最適)、vpred版は3~5。
シグマの乗算は多少結果を改善する場合あり。CFG++サンプラーは良好。LCM/PCM/DMD/...やエキゾチックなサンプラーは未検証。
一部のスケジューラーはうまく機能しません。
Highresfixは潜在空間を1.5倍、デノイズ0.6または任意のGAN+デノイズ0.3~0.55を推奨。
vpred版は低いCFG(3~5)が必要です!
vpred版はCFGを3~5に下げる必要あり!
品質分類:
品質タグは4つのみ:
masterpiece, best qualityはポジティブ用、
low quality, worst qualityはネガティブ用です。
他のタグは不要です。実際、ポジティブタグを省略し、ネガティブをlow qualityのみにしてもスタイルや構図に影響します。
lowresのようなメタタグは削除され、効果がなくなっています。低解像度画像は重要度に応じて削除またはDATでアップスケールおよびクリーン済みです。
ネガティブプロンプト:
worst quality, low quality, watermarkこれだけで十分です。「rusty trombone」や「farting on prey」などは不要です。グレースケールやモノクロなどは意味を理解した上で使ってください。明るさ・色彩・コントラストの追加タグは下記を参照。
アーティストスタイル:
例のグリッド、リスト/ワイルドカード(「training data」内にもあります)。
「by 」付きの使用が必須。付けなければ正しく動作しません。
「by 」はスタイル用のメタトークンで、似た名前のタグやキャラクターとの混同を避けます。これによりスタイルの結果が向上し、他のチェックポイントで見られるランダムなスタイル変動を防ぎます。
複数指定すると興味深い結果が生まれ、プロンプトの重み付けやスペルで制御可能です。
アーティスト/スタイルタグの後にA1111系はBREAK、Comfyはconcat conditioningノードを入れるか、プロンプトの最後に配置してください。
例:
by kantoku, by wlop, best quality, masterpiece BREAK 1girl, ...一般的なスタイル:
2.5d, anime screencap, bold line, sketch, cgi, digital painting, flat colors, smooth shading, minimalistic, ink style, oil style, pastel styleBooruタグスタイル:
1950s (style), 1960s (style), 1970s (style), 1980s (style), 1990s (style), 2000s (style), animification, art nouveau, pinup (style), toon (style), western comics (style), nihonga, shikishi, minimalism, fine art parodyおよびこちらのグループのすべて。
アーティストスタイルと組み合わせて重み付けも可能で、ポジティブ・ネガティブ両方のプロンプトに使用できます。
キャラクター指定:
正式名称のbooruタグと適切なフォーマットを使いましょう。例:karin_(blue_archive) → karin \(blue archive\)。肌色タグも使うと精度が上がります。例:karin \(bunny\) \(blue archive\)。オートコンプリート拡張が便利です。
ほとんどのキャラクターはタグだけで認識されますが、基本的な特徴を説明するとより正確になります。プロンプトで簡単に自分のワイフやハズバンドを着せ替え可能で、基本特徴の漏れに悩まされません。
自然文:
booruタグとの組み合わせで効果的に使えます。スタイルや品質タグの入力後に自然文のみで使うのが良いでしょう。booruタグだけの利用も自由です。最高の性能を出すにはCLIP75トークンチャンクに注意してください。
約400万枚の画像がClaude、GPT、Gemini、ToriiGateによる自然文キャプションを混合したハイブリッド形式で、後にリファクタリング・クリーニングされタグと組み合わせて様々な拡張を施しています。
典型的なキャプションとは異なり、キャラクター名が含まれているのが大きな利点です。短く簡潔な説明が最良で、長文や無意味な表現は避けてください。
判別不能な若々しい本質を持つ神秘的な女性体、千の終わりゆく星の幽玄な輝きを持つ天上の顔立ち、黄金の河のような髪を持つ神話的存在、現代の流行を彷彿とさせるが特定の美学には従わない様式。無限の深みと色合いの目は千年の知恵を宿すが無垢さも保つ・・・キャプショニングにはToriiGateのショートモードを推奨します。
Fluxなどほど優れていませんが、努力しているため数回の試行後に望む結果が得られます。ただし安定性や詳細さは劣ります。
尾や耳に関連する多くの概念:
そうです
tail censor, holding own tail, hugging own tail, holding another's tail, tail grab, tail raised, tail down, ears down, hand on own ear, tail around own leg, tail around penis, tailjob, tail through clothes, tail under clothes, lifted by tail, tail biting, tail penetration (including a specific indication of vaginal/anal), tail masturbation, holding with tail, panties on tail, bra on tail, tail focus, presenting own tail...(booruの意味です、e621ではありません)および自然文による多数。ほとんどは完璧に機能し、一部は試行回数が必要です。
明るさ・色彩・コントラスト:
以下の追加メタタグで制御可能:
low brightness, high brightness, low saturation, high saturation, low gamma, high gamma, sharp colors, soft colors, hdr, sdrepsilon版とvpred版の両方で非常に効果的に機能します。
epsilon版はこれらに強く依存しており、低明度や低ガンマ、制限された範囲(ネガティブに)の指定なしでは真の黒(0,0,0)や白を再現しにくい場合があります。
どちらのバージョンも本物のzsnrのように欠点がなく、色と明るさのフルレンジを持ちますが、挙動は異なります。試してみてください。
vpred版
主な注意点はCFGを7から5以下に下げること。その他の使用法は類似し利点があります。
v0.7以降vpredはほぼ完璧に動作し、naiのようにチャンク境界付近のタグ無視を起こしません。焼け画像問題も減り、cfg7でも過飽和だが滑らかなグラデーションとなり、特定スタイルに有用です。任意の色(0,0,0~255,255,255)を生成可能です。上述の明るさメタタグにより簡単に制御でき、自然文表現も有効です。もっと暗い画像にはネガティブにhigh brightness、またはlow brightness, low gammaを入れます。暗背景で肌が明るすぎる場合やコントラスト調整にはhdr/sdrをネガティブかポジティブに使います。
稀にコントラスト低下の報告がありますが、75トークンチャンク境界に「区切り」を入れると直るようです。v0.7では自身は遭遇していません。
vpred版はA1111のdevビルド、Comfy(特別なローダーノード付き)、ForgeまたはReforgeが必要です。パラメーターはepsilon版と同じ(Euler a, cfg 3..5, 20..28ステップ)を使用。Cfg rescaleは不要ですが試す価値あり。cfg++も良好。
ベースモデル:
このモデルは主トレーニング後に小さいunetの詳細調整を行い、小さいディテールや解像度向上を図っています。しかし複雑なプロンプトで小さいディテールに微妙なミスがあっても、RouWei-Baseの方が時に良好な結果を出す場合もあります。FP32版もあり、Comfyのfp32テキストエンコーダーノードやマージ、ファインチューニングに向きます。
Huggingfaceリポジトリで入手可能です。
既知の問題点:
もちろん存在します:
アーティストやスタイルタグはメインプロンプトとは別チャンクに分けるか、最後に配置必須
稀に位置や組み合わせにバイアスがある可能性ありが詳細不明
いくつかの一般的スタイルに関して不満の声あり
epsilon版は明るさメタタグに依存しすぎで、望む明度変化に必須の場合あり
新規追加のスタイルやキャラクターは期待ほどよくなく区別がつきにくい場合あり
今後発見される可能性あり
今後のモデルに追加するアーティストやキャラクターのリクエストを受け付けています。性能が弱い、不正確、強い透かしがある場合は報告してください。明示的に追加します。新バージョンのフォローもぜひ。
Discordサーバーに参加
ライセンス:
Illustriousと同じです。マージ、ファインチューニングに自由に使って構いませんが、リンクか言及を必ずお願いします。
制作過程:
後で報告を作成するかもしれません。確実に。
簡単に言うと作業の98%はデータセット準備に関連しています。nai論文由来のタグ頻度に基づく重み付けに盲目的に頼る代わりに、カスタムガイド付き重み付けと非同期コレーターを使い均衡を取りました。ztsnr(またはそれに近い)とEpsilon予測はノイズスケジューラー拡張により達成。
計算時間はH100で8000時間超(研究や失敗試行を除く)
感謝:
まずオープンソースを支援し、コードを開発・改善するすべての方々に感謝します。Illustriousの作者にはモデルリリースを、NoobAIチームには大規模オープンファインチューニングの先駆者として経験共有や問題解決を感謝。
個人的には:
プライベート作品を共有するアーティストの多くは匿名を希望。匿名の寄付者、コード提供者、キャプション提供者多数。Soviet CatはGPUスポンサー。Sv1.はLLMアクセス、キャプション、コード。K.はトレーニングコード。Bakarisoはデータセット、テスト、アドバイス、内部情報。NeuroSenkoは寄付やテスト、コード。LOL2024は多くのユニークデータセット。T.,[]はデータセット、テスト、助言。rred、dga、Fi.、elloは寄付。TekeshiXはデータセット。他にも多くの仲間が協力。皆さん愛しています❤️。
もちろんフィードバックやリクエストをくれたすべての方にも感謝しています。
もし名前を漏らしていたら教えてください。
寄付について
支援したい方はモデルの共有、フィードバック、ケモノ耳の女の子のかわいい画像を作成してください。そしてもちろん元のアーティストをサポートしてください。
AIは趣味であり、自分のお金でやっていて寄付を請うつもりはありません。しかし大規模でコストもかかる取り組みになっています。新たなトレーニングや研究を加速させるために支援を検討してください。
(ただし使い道が飲酒やコスプレ女子に浪費される可能性もあります)
BTC: bc1qwv83ggq8rvv07uk6dv4njs0j3yygj3aax4wg6c
ETH/USDT(e): 0x04C8a749F49aE8a56CB84cF0C99CD9E92eDB17db
XMR: 47F7JAyKP8tMBtzwxpoZsUVB8wzg2VrbtDKBice9FAS1FikbHEXXPof4PAb42CQ5ch8p8Hs4RvJuzPHDtaVSdQzD6ZbA5TZ
もしGPU時間(A100以上)を提供できるならPMしてください。
モデル詳細
ディスカッション
コメントを残すには log in してください。








