Stable Diffusion 3.5 Large - Large
推奨プロンプト
a detailed illustration of a cute rainbow colorful boba tea sitting in a window sill, tiki bar looking out onto a tropical oceanfront background, shallow depth of field, cinematic lighting, dappled sunlight, lens flare bokeh
推奨パラメータ
samplers
steps
cfg
クリエイタースポンサー
最新情報は Stable Diffusion 3.5 クイックスタートガイド をご覧ください!
最新情報は Stable Diffusion 3.5 クイックスタートガイド をご覧ください!
Stable Diffusion 3.5 Large は、画像品質、タイポグラフィ、複雑なプロンプト理解、リソース効率で性能が向上したマルチモーダル拡散トランスフォーマー(MMDiT)テキストから画像生成モデルです。
ご注意:このモデルは Stability Community License の下でリリースされています。詳しくは Stability AI をご覧いただくか、商用ライセンスの詳細については お問い合わせください。
モデルの説明
開発元: Stability AI
モデルタイプ: MMDiTテキストから画像生成モデル
モデル概要: 本モデルはテキストプロンプトに基づいて画像を生成します。3つの固定された事前学習済みテキストエンコーダーを使用し、QK正規化によりトレーニングの安定性を向上させたマルチモーダル拡散トランスフォーマーです。
ライセンス
コミュニティライセンス: 総年間収益が100万ドル未満の組織または個人による研究、非商用、商用利用が無料です。詳細はコミュニティライセンス契約をご参照ください。詳細はhttps://stability.ai/licenseでご確認いただけます。
年間収益が100万ドルを超える個人および組織の場合: お問い合わせのうえ、エンタープライズライセンスをご取得ください。
実装の詳細
QK正規化: トレーニングの安定性向上のためのQK正規化技術を実装。
テキストエンコーダー:
CLIP:OpenCLIP-ViT/G、CLIP-ViT/L、コンテキスト長77トークン
T5:T5-xxl、トレーニングの異なる段階でコンテキスト長77/256トークン
トレーニングデータおよび戦略:
本モデルは合成データやフィルタリングされた公開データを含む多様なデータでトレーニングされています。
元のMMDiTアーキテクチャの詳細については、リサーチペーパーをご覧ください。








