SD XL - v1.0 VAE 修正
推薦反向提示詞
(deformed iris, deformed pupils), text, worst quality, low quality, jpeg artifacts, ugly, duplicate, morbid, mutilated, (extra fingers), (mutated hands), poorly drawn hands, poorly drawn face, mutation, deformed, blurry, dehydrated, bad anatomy, bad proportions, extra limbs, cloned face, disfigured, gross proportions, malformed limbs, missing arms, missing legs, extra arms, extra legs, (fused fingers), (too many fingers), long neck, camera
推薦參數
samplers
steps
cfg
resolution
提示
此模型旨在用於研究用途,包括藝術創作、教育工具及安全部署。
不適用於生成真實或事實的人物或事件描繪。
限制包括不完美的真實照片感、無法生成可讀文字、複合提示處理困難以及可能不完整的人臉生成。
模型使用兩個預訓練文字編碼器:OpenCLIP-ViT/G 和 CLIP-ViT/L。
兩步流程包含基底潛層生成及使用 SDEdit(img2img)進行高解析度精煉。
創作者贊助
最初發佈於 Hugging Face,經 Stability AI 許可在此分享。
最初發佈於 Hugging Face,經 Stability AI 許可在此分享。

SDXL 採用兩步驟潛變擴散流程:首先使用基底模型生成目標尺寸的潛層。第二步使用專門的高解析度模型,並對第一步生成的潛層應用稱為 SDEdit (https://arxiv.org/abs/2108.01073,又稱 "img2img") 的技術,使用相同提示進行精煉。
模型描述
開發者: Stability AI
模型類型: 基於擴散的文字轉圖像生成模型
模型說明: 此模型可根據文字提示生成及修改圖像。它是一款潛變擴散模型,使用兩個固定的預訓練文字編碼器(OpenCLIP-ViT/G及CLIP-ViT/L)。
更多資訊資源: GitHub 資料庫。
模型來源
用途
直接使用
此模型僅供研究用途。可能的研究領域及任務包括
藝術創作及用於設計及其他藝術流程。
教育或創意工具的應用。
生成模型的研究。
安全部署有潛在生成有害內容風險的模型。
探究及理解生成模型的限制與偏見。
不當使用範圍見下文說明。
非適用範圍使用
此模型未接受訓練以準確或真實地表示人物或事件,因此使用該模型生成此類內容超出模型能力範圍。
限制與偏見
限制
模型無法達到完美的真實照片感
無法生成清晰可讀的文字
在處理組合性較高的指令(如“紅色立方體置於藍色球體上”)時表現較差
人臉及人物通常可能無法正確生成。
模型的自編碼部分具有信息損失。
偏見
儘管圖像生成模型能耐令人印象深刻,但同時亦可能強化或加劇社會偏見。

上圖評估用戶對 SDXL(含及不含精煉)相較於 Stable Diffusion 1.5 及 2.1 的偏好。SDXL 基底模型表現明顯優於前述版本,且結合精煉模組後達成最佳整體表現。
