模型/ThinkDiffusionXL - v1.0

ThinkDiffusionXL - v1.0

5/26/2025

11:05:35 AM

提示

考慮在需要高細節和高質量的項目中使用TDXL，它在這些方面表現卓越。

該模型在生成圖像時不帶固有偏見，靈活適用於任何風格或主題。

如果您使用愉快，請留下評論，這將鼓勵我們創作更多並進行改進。

ThinkDiffusionXL 是我們致力構建一款既能展現驚人寫實效果，又足夠多變，能在不同風格和主題中生成高質量圖片，且無需命令天才的通用模型的成果。

如果您使用愉快，請留下評論，這將鼓勵我們創作更多並進行改進。

資料來源：TDXL經過超過10,000張多樣化圖片的訓練，涵蓋寫實、數字藝術、動漫等風格。我們數據集中最小解析度為1365x2048，多數圖片解析度甚至高達4622x6753。整體數據集大小約42GB。
訓練：訓練步數達180萬步，我們付出了大量努力。比較之下，Juggernaut為60萬步，RealVisXL為34.8萬步。
手動標註圖片：每張圖片均由人工精心標註，提升模型從簡短提示生成準確且高品質結果的能力。
NSFW 功能：模型包含超過1,000張精心挑選的適度NSFW圖片。

細節與質量：大多數寫實類XL模型在細節表現上不足，尤其是背景與基本特徵如眼睛、牙齒和皮膚。我們相信TDXL在這些方面表現優越，原因是其大型且高質量數據集。對比之下，Juggernaut的圖像資料量約為一半，RealVisXL僅約1,700張圖片。總之，TDXL具備更多的「知識」。
減少偏見：我們確保每種風格、性別等使用的圖片數量均等。過去幾個月我們測試過的其他模型存在某種偏見，有時偏向肖像、性別或特定族群。例如Juggernaut在近距離鏡頭上存在偏見，該模型中的電影光線也較為突出。RealVisXL偏向肖像鏡頭。另一方面，TDXL能滿足您各類需求：風景、中景、全身、近距離、肖像、側面、背面、動作鏡頭、電影風光…隨您所想，不會因偏見推向特定方向。
多功能基礎：憑藉其大型且均衡的高品質數據集，TDXL是未來訓練的多功能基礎模型。您可以在完全不同方向上創建新的精調，加入LoRA補足缺失概念，或利用更多均衡高質量數據進行額外訓練。