Stable Diffusion 3.5 Large Turbo - Large Turbo
推薦參數
steps
創作者贊助
請參閱我們的 Stable Diffusion 3.5 快速入門指南 以獲取所有最新資訊!
請參閱我們的 Stable Diffusion 3.5 快速入門指南 以獲取所有最新資訊!
Stable Diffusion 3.5 Large Turbo 是一款配備 對抗擴散蒸餾 (ADD) 的多模態 Diffusion Transformer (MMDiT) 文本轉圖像模型,提升圖像質量、字體排印、複雜提示理解及資源效率,重點在於更少推理步驟。
請注意:此模型在 Stability Community License 授權下發布。請訪問 Stability AI 了解更多或 聯絡我們 以洽商商業許可詳情。
模型描述
開發者: Stability AI
模型類型: MMDiT 文本轉圖像生成模型
模型說明: 此模型基於文本提示生成圖像。它是利用三個固定且預訓練的文本編碼器並採用 QK 正規化的 ADD 蒸餾 多模態 Diffusion Transformer。
授權條款
社群授權: 對於年收入低於100萬美金的組織或個人,允許免費用於研究、非商業及商業用途。詳細資料見 社群授權協議。詳情請見 https://stability.ai/license。
年收入超過100萬美金的個人或組織: 請聯絡我們申請企業許可。
模型資源
對於本地或自架服務,推薦使用基於節點的介面推理工具 ComfyUI,或程式使用者可採用 diffusers 或 GitHub 資源。
實作細節
QK 正規化: 實施 QK 正規化技術以提升訓練穩定性。
對抗擴散蒸餾 (ADD)(詳見技術報告),可在只用4步驟的情況下達成高圖像質量採樣。
文本編碼器:
CLIPs:OpenCLIP-ViT/G、CLIP-ViT/L,上下文長度 77 個標記
T5:T5-xxl,訓練不同階段上下文長度分別為 77/256 個標記
訓練數據與策略:
本模型以多樣化資料訓練,包括合成資料及已過濾的公開數據。
如需原始 MMDiT 架構的更多技術細節,請參考 研究論文。
