Stable Diffusion 3.5 Large - 大型
推薦提示詞
a detailed illustration of a cute rainbow colorful boba tea sitting in a window sill, tiki bar looking out onto a tropical oceanfront background, shallow depth of field, cinematic lighting, dappled sunlight, lens flare bokeh
推薦參數
samplers
steps
cfg
創作者贊助
請參閱我們的 Stable Diffusion 3.5 快速入門指南 以獲取所有最新資訊!
請參閱我們的 Stable Diffusion 3.5 快速入門指南 以獲取所有最新資訊!
Stable Diffusion 3.5 Large 是一款多模態擴散轉換器 (MMDiT) 的文字到圖像模型,在圖像質量、字體排版、複雜提示理解和資源效率方面表現更佳。
請注意:此模型根據 Stability 社區許可證 發布。請訪問 Stability AI 了解或 聯絡我們 索取商業許可詳情。
模型描述
開發者:Stability AI
模型類型:多模態擴散轉換器 (MMDiT) 文字到圖像生成模型
模型說明:此模型基於文字提示生成圖像。它是一個多模態擴散轉換器,使用了三個固定的預訓練文字編碼器,並採用 QK 正規化以提升訓練穩定性。
許可證
社區許可證:免費供研究、非商業及營業額低於 100 萬美元的組織或個人商業用途。詳情請參閱 社區許可協議。詳見 https://stability.ai/license。
年營收超過 100 萬美元的個人和組織:請聯絡我們以獲取企業許可證。
實施細節
QK 正規化:實現 QK 正規化技術以提升訓練穩定性。
文字編碼器:
CLIPs: OpenCLIP-ViT/G、CLIP-ViT/L,上下文長度 77 字元
T5: T5-xxl,在不同訓練階段上下文長度為 77/256 字元
訓練資料和策略:
此模型訓練使用多樣資料,包括合成資料和過濾過的公開資料。
如需原始 MMDiT 架構的更多技術細節,請參考研究論文。









