繊細なメイクと伝統的な髪飾りを身に着けた抽象的な美しい女性の横顔。背景には山々と大きな月がある夜の街並みが広がっている。
印象的な赤い髪とそばかすを持ち、暗い服を着た女性の抽象的なイラスト。星や天体模様が描かれた詳細な夜空を背景にしています。

推奨パラメータ

steps

4 - null

クリエイタースポンサー

最新情報は Stable Diffusion 3.5クイックスタートガイド をご覧ください!

最新情報は Stable Diffusion 3.5クイックスタートガイド をご覧ください!

Stable Diffusion 3.5 Large Turboは、Adversarial Diffusion Distillation (ADD)を搭載したMultimodal Diffusion Transformer(MMDiT)のテキストから画像へのモデルで、画質、タイポグラフィ、複雑なプロンプトの理解、リソース効率の向上を特徴としており、推論ステップ数を減らすことに重点を置いています。

ご注意:このモデルはStability Community Licenseの下でリリースされています。商用ライセンスの詳細についてはStability AIのウェブサイトを訪問いただくか、お問い合わせください。

モデルの説明

  • 開発元:Stability AI

  • モデルタイプ: MMDiTテキストから画像への生成モデル

  • モデルの説明: このモデルはテキストプロンプトに基づいて画像を生成します。ADDで蒸留されたMultimodal Diffusion Transformerで、3つの固定された事前学習済みテキストエンコーダーを使用し、QK正規化を搭載しています。

ライセンス

  • コミュニティライセンス:研究、非商用利用、および年間総収益が100万ドル未満の組織や個人による商用利用は無料です。詳細はコミュニティライセンス契約をご覧ください。詳しくはhttps://stability.ai/licenseを参照してください。

  • 年間収益が100万ドルを超える個人または組織の場合: お問い合わせいただき、エンタープライズライセンスを取得してください。

モデルの入手先

ローカルまたはセルフホスト環境での利用には、ノードベースUI推論用のComfyUIや、プログラムでの利用にはdiffusersまたはGitHubを推奨します。

実装の詳細

  • QK正規化: トレーニングの安定性を向上させるためにQK正規化技術を実装しています。

  • Adversarial Diffusion Distillation (ADD)技術レポート参照)を利用し、4ステップで高画質のサンプリングが可能です。

  • テキストエンコーダー:

    • CLIPs: OpenCLIP-ViT/G, CLIP-ViT/L, コンテキスト長77トークン

    • T5: T5-xxl, トレーニングの異なる段階でコンテキスト長77/256トークン

  • トレーニングデータと戦略:

    このモデルは合成データやフィルタリングされた公開データを含む多様なデータで訓練されました。

元のMMDiTアーキテクチャの詳細については、研究論文をご参照ください。

前の画像
Pikuson | Shiiro's Styles - v1.0
次の画像
Dragonhead - v1.0

モデル詳細

モデルタイプ

Checkpoint

ベースモデル

SD 3.5 Large Turbo

モデルバージョン

Large Turbo

モデルハッシュ

fb64610bf8

作成者

ディスカッション

コメントを残すには log in してください。

「Stable Diffusion 3.5 Large Turbo - Large Turbo」による画像

基本モデル画像

stability ai画像