Stable Diffusion 3.5 Large Turbo - Large Turbo
추천 매개변수
steps
크리에이터 스폰서
최신 정보를 위해 Stable Diffusion 3.5 빠른 시작 가이드 를 참고하세요!
최신 정보를 위해 Stable Diffusion 3.5 빠른 시작 가이드 를 참고하세요!
Stable Diffusion 3.5 Large Turbo는 이미지 품질, 타이포그래피, 복잡한 프롬프트 이해 및 자원 효율성에서 성능이 개선된 Adversarial Diffusion Distillation (ADD)가 적용된 Multimodal Diffusion Transformer (MMDiT) 텍스트-이미지 모델로, 적은 추론 단계에 초점을 맞추고 있습니다.
참고: 이 모델은 Stability Community License하에 배포됩니다. 상업적 라이선스 관련 세부사항은 Stability AI에서 확인하거나 문의하시기 바랍니다.
모델 설명
개발자: Stability AI
모델 유형: MMDiT 텍스트-이미지 생성 모델
모델 설명: 이 모델은 텍스트 프롬프트를 기반으로 이미지를 생성합니다. 세 가지 고정된 사전학습된 텍스트 인코더와 QK 정규화를 사용하는 ADD 증류된 Multimodal Diffusion Transformer입니다.
라이선스
커뮤니티 라이선스: 연간 총 수익이 100만 달러 미만인 조직 또는 개인은 연구, 비상업적 및 상업적 용도로 무료 이용이 가능합니다. 자세한 내용은 커뮤니티 라이선스 계약서에서 확인할 수 있습니다. 추가 정보는 https://stability.ai/license를 참조하세요.
연간 수익이 100만 달러 이상인 개인 및 조직: 기업 라이선스를 받으려면 문의해 주세요.
모델 소스
로컬 또는 자체 호스팅용 사용 시, 노드 기반 UI 추론을 위한 ComfyUI 또는 프로그래밍적 사용을 위한 diffusers 혹은 GitHub를 추천합니다.
구현 세부사항
QK 정규화: 학습 안정성을 개선하기 위해 QK 정규화 기법을 구현하였습니다.
Adversarial Diffusion Distillation (ADD)는 기술 보고서를 참조하며, 4단계로 고품질 샘플링이 가능합니다.
텍스트 인코더:
CLIPs: OpenCLIP-ViT/G, CLIP-ViT/L, 컨텍스트 길이 77 토큰
T5: T5-xxl, 학습 단계에 따라 77/256 토큰 컨텍스트 길이
학습 데이터 및 전략:
이 모델은 합성 데이터 및 필터링된 공개 데이터 등 다양한 데이터를 기반으로 학습되었습니다.
원본 MMDiT 아키텍처의 기술적인 세부사항은 연구 논문을 참조하십시오.
