Stable Diffusion 3.5 Large - Large
추천 프롬프트
a detailed illustration of a cute rainbow colorful boba tea sitting in a window sill, tiki bar looking out onto a tropical oceanfront background, shallow depth of field, cinematic lighting, dappled sunlight, lens flare bokeh
추천 매개변수
samplers
steps
cfg
크리에이터 스폰서
최신 정보를 위해 Stable Diffusion 3.5 빠른 시작 가이드 를 확인하세요!
최신 정보를 위해 Stable Diffusion 3.5 빠른 시작 가이드 를 확인하세요!
Stable Diffusion 3.5 Large는 이미지 품질, 타이포그래피, 복잡한 프롬프트 이해력, 자원 효율성이 향상된 멀티모달 디퓨전 트랜스포머(MMDiT) 텍스트-투-이미지 모델입니다.
참고: 이 모델은 Stability Community License 하에 배포됩니다. 상업적 라이선스 관련 정보는 Stability AI에서 확인하거나 문의해 주세요.
모델 설명
개발: Stability AI
모델 유형: MMDiT 텍스트-투-이미지 생성 모델
모델 설명: 이 모델은 텍스트 프롬프트를 기반으로 이미지를 생성합니다. 세 가지 고정된 사전 학습된 텍스트 인코더를 사용하며, 훈련 안정성 향상을 위해 QK 정규화를 적용한 멀티모달 디퓨전 트랜스포머입니다.
라이선스
커뮤니티 라이선스: 총 연간 수익이 100만 달러 미만인 조직 및 개인을 위한 연구, 비상업적 및 상업적 사용 무료입니다. 자세한 내용은 커뮤니티 라이선스 계약에서 확인하세요. 추가 정보는 https://stability.ai/license에서 확인 가능합니다.
연간 수익이 100만 달러를 초과하는 개인 및 조직: 엔터프라이즈 라이선스 문의는 문의하기를 통해 진행해 주세요.
구현 세부사항
QK 정규화: 훈련 안정성 향상을 위한 QK 정규화 기법을 구현했습니다.
텍스트 인코더:
CLIPs: OpenCLIP-ViT/G, CLIP-ViT/L, 문맥 길이 77 토큰
T5: T5-xxl, 훈련 단계별 문맥 길이 77/256 토큰
학습 데이터 및 전략:
이 모델은 합성 데이터와 필터링된 공개 데이터를 포함한 다양한 데이터를 사용하여 훈련되었습니다.
원본 MMDiT 아키텍처에 대한 기술적 세부사항은 연구 논문을 참조하세요.









