Stable Diffusion 3.5 Large Turbo - Large Turbo
推奨パラメータ
steps
クリエイタースポンサー
最新情報は Stable Diffusion 3.5クイックスタートガイド をご覧ください!
最新情報は Stable Diffusion 3.5クイックスタートガイド をご覧ください!
Stable Diffusion 3.5 Large Turboは、Adversarial Diffusion Distillation (ADD)を搭載したMultimodal Diffusion Transformer(MMDiT)のテキストから画像へのモデルで、画質、タイポグラフィ、複雑なプロンプトの理解、リソース効率の向上を特徴としており、推論ステップ数を減らすことに重点を置いています。
ご注意:このモデルはStability Community Licenseの下でリリースされています。商用ライセンスの詳細についてはStability AIのウェブサイトを訪問いただくか、お問い合わせください。
モデルの説明
開発元:Stability AI
モデルタイプ: MMDiTテキストから画像への生成モデル
モデルの説明: このモデルはテキストプロンプトに基づいて画像を生成します。ADDで蒸留されたMultimodal Diffusion Transformerで、3つの固定された事前学習済みテキストエンコーダーを使用し、QK正規化を搭載しています。
ライセンス
コミュニティライセンス:研究、非商用利用、および年間総収益が100万ドル未満の組織や個人による商用利用は無料です。詳細はコミュニティライセンス契約をご覧ください。詳しくはhttps://stability.ai/licenseを参照してください。
年間収益が100万ドルを超える個人または組織の場合: お問い合わせいただき、エンタープライズライセンスを取得してください。
モデルの入手先
ローカルまたはセルフホスト環境での利用には、ノードベースUI推論用のComfyUIや、プログラムでの利用にはdiffusersまたはGitHubを推奨します。
実装の詳細
QK正規化: トレーニングの安定性を向上させるためにQK正規化技術を実装しています。
Adversarial Diffusion Distillation (ADD)(技術レポート参照)を利用し、4ステップで高画質のサンプリングが可能です。
テキストエンコーダー:
CLIPs: OpenCLIP-ViT/G, CLIP-ViT/L, コンテキスト長77トークン
T5: T5-xxl, トレーニングの異なる段階でコンテキスト長77/256トークン
トレーニングデータと戦略:
このモデルは合成データやフィルタリングされた公開データを含む多様なデータで訓練されました。
元のMMDiTアーキテクチャの詳細については、研究論文をご参照ください。