モデル/Stable Diffusion 3.5 Large Turbo - Large Turbo

Stable Diffusion 3.5 Large Turbo - Large Turbo

沢岡美纪子

8/31/2025

12:36:01 AM

| Discussion|

推奨パラメータ

steps

4 - null

クリエイタースポンサー

最新情報は Stable Diffusion 3.5クイックスタートガイドをご覧ください！

Stable Diffusion 3.5 Large Turboは、Adversarial Diffusion Distillation (ADD)を搭載したMultimodal Diffusion Transformer（MMDiT）のテキストから画像へのモデルで、画質、タイポグラフィ、複雑なプロンプトの理解、リソース効率の向上を特徴としており、推論ステップ数を減らすことに重点を置いています。

ご注意：このモデルはStability Community Licenseの下でリリースされています。商用ライセンスの詳細についてはStability AIのウェブサイトを訪問いただくか、お問い合わせください。

モデルの説明

開発元：Stability AI
モデルタイプ： MMDiTテキストから画像への生成モデル
モデルの説明： このモデルはテキストプロンプトに基づいて画像を生成します。ADDで蒸留されたMultimodal Diffusion Transformerで、3つの固定された事前学習済みテキストエンコーダーを使用し、QK正規化を搭載しています。

ライセンス

コミュニティライセンス：研究、非商用利用、および年間総収益が100万ドル未満の組織や個人による商用利用は無料です。詳細はコミュニティライセンス契約をご覧ください。詳しくはhttps://stability.ai/licenseを参照してください。
年間収益が100万ドルを超える個人または組織の場合： お問い合わせいただき、エンタープライズライセンスを取得してください。

モデルの入手先

ローカルまたはセルフホスト環境での利用には、ノードベースUI推論用のComfyUIや、プログラムでの利用にはdiffusersまたはGitHubを推奨します。

ComfyUI： GitHub、使用例ワークフロー
Huggingface Space： Space
Diffusers： 下記参照
GitHub： GitHub
APIエンドポイント：
- Stability AI API
- Deepinfra

実装の詳細

QK正規化： トレーニングの安定性を向上させるためにQK正規化技術を実装しています。
Adversarial Diffusion Distillation (ADD)（技術レポート参照）を利用し、4ステップで高画質のサンプリングが可能です。
テキストエンコーダー：
- CLIPs: OpenCLIP-ViT/G, CLIP-ViT/L, コンテキスト長77トークン
- T5: T5-xxl, トレーニングの異なる段階でコンテキスト長77/256トークン
トレーニングデータと戦略：
このモデルは合成データやフィルタリングされた公開データを含む多様なデータで訓練されました。