따뜻한 천장 조명 아래 아늑한 카페 부스에 앉아 있는 남성에게 커피 한 잔을 서빙하는 날렵한 흰색 로봇, 자연스러운 스마트폰 사진으로 촬영됨.
그린 벽지와 카펫 바닥이 있는 기숙사 방에서 책상 램프로 빛나는 빈티지 90년대 컴퓨터에 코드를 타이핑하는 대학생의 향수를 자아내는 1990년대 사진.
전신 검은 망토를 입은 신비한 인물이 어두운 조명 아래 뒷골목에 서 있고, 주변은 파이프, 증기 누출, 전기 배선이 보이는 높은 건물로 둘러싸여 있어 사이버펑크와 약간 음산한 분위기를 자아냅니다.
비 오는 낮 시간에 도로 양쪽에 야자수가 늘어선 젖은 열대 고속도로를 주행하는 차량 내부에서 본 전망.
비 오고 바람 부는 날 미국 스타일 주택들이 늘어선 교외 주택가를 자동차 내부에서 바라본 모습.
현대적인 마이애미 고층 빌딩을 배경으로 야자수 근처에 서 있는 흰색 핀스트라이프 정장과 선글라스를 쓴 남성, 낮은 카메라 앵글에서 촬영됨.
아프로 헤어와 선글라스를 착용한 핑크 수트의 아프리카계 미국인 남성이 밤의 마이애미 거리에서 야자수와 네온 불빛의 고층 빌딩을 배경으로 낮은 각도에서 바라본 모습.
데님 반바지와 크롭탑을 입은 젊은 여성들이 야자수 근처에서 네온빛과 현대적 마천루로 밝혀진 마이애미에서 밤 외출을 즐기는 모습

추천 매개변수

resolution

1280x720, 854x480

vae

Wan2.2-VAE - advanced

Wan2.2는 Mixture-of-Experts (MoE) 아키텍처를 도입하여 시간 단계별 디노이징을 분리함으로써 계산 부하를 늘리지 않고 용량을 향상시킵니다.

학습 데이터는 이미지가 +65.6%, 비디오가 +83.2% 확대되어 움직임, 의미론, 미학에서 일반화 능력이 향상되었습니다.

세밀한 라벨이 포함된 특별히 선별된 미학 데이터를 통해 정밀하고 제어 가능한 시네마틱 스타일 생성을 지원합니다.

Wan2.2-VAE는 16×16×4 압축률을 달성해 Nvidia 4090과 같은 소비자용 GPU에서 720P@24fps의 효율적인 비디오 생성을 가능하게 합니다.

버전 하이라이트

현장 생성용 텍스트-투-비디오 Wan 2.2 14B

Wan Video

참고: Civitai에 호스팅된 다른 Wan Video 파일이 있을 수 있으며, 이는 중복일 수 있지만 이 모델 카드는 주로 Civitai Generator에서 Wan Video가 사용하는 파일을 호스팅하기 위한 것입니다.

이 파일들은 ComfyUI 리팩이며, 원본 파일은 Diffusers/멀티파트 safetensors 형식 여기에서 확인할 수 있습니다.

Wan2.2는 시각 생성 모델의 주요 업그레이드로, 이제 오픈소스로 공개되어 더 강력한 기능, 향상된 성능, 그리고 뛰어난 시각 품질을 제공합니다. Wan2.2에서는 다음과 같은 기술 혁신에 중점을 두었습니다:

👍 MoE 아키텍처: Wan2.2는 비디오 확산 모델에 Mixture-of-Experts (MoE) 아키텍처를 도입했습니다. 시간 단계별로 디노이징 과정을 전문화된 강력한 전문가 모델로 분리하여 동일한 계산 비용으로 전체 모델 용량을 확장합니다.

💪🏻 데이터 확장: Wan2.1과 비교하여 Wan2.2는 이미지가 +65.6%, 비디오가 +83.2% 더 많은 대규모 데이터로 학습되었습니다. 이 확장은 움직임, 의미론, 미학 등 여러 차원에서 모델의 일반화 능력을 크게 향상시켜 모든 오픈소스 및 클로즈드소스 모델 중 TOP 성능을 달성합니다.

🎬 시네마틱 미학: Wan2.2는 조명, 구도, 색상에 대한 세밀한 라벨이 달린 특별히 선별된 미학 데이터를 도입했습니다. 이를 통해 더욱 정밀하고 제어 가능한 시네마틱 스타일 생성을 가능하게 하여 맞춤형 미학 선호도가 반영된 비디오 제작을 지원합니다.

🚀 효율적인 고해상도 하이브리드 TI2V: Wan2.2는 16×16×4의 압축률을 달성한 고급 Wan2.2-VAE로 구축된 5B 모델을 오픈소스로 공개합니다. 이 모델은 720P 해상도, 24fps에서 텍스트-투-비디오 및 이미지-투-비디오 생성을 지원하며, 4090과 같은 소비자용 그래픽 카드에서도 실행 가능합니다. 현재 사용 가능한 가장 빠른 720P@24fps 중 하나로 산업 및 학계 양쪽에서 활용될 수 있습니다.

Wan2.2-T2V-A14B

T2V-A14B 모델은 480P와 720P 해상도에서 5초짜리 비디오 생성이 가능합니다. Mixture-of-Experts (MoE) 아키텍처로 구축되어 뛰어난 비디오 생성 품질을 제공합니다. 새로운 벤치마크 Wan-Bench 2.0에서 이 모델은 주요 평가 지표 대부분에서 상업용 선도 모델을 능가합니다.

Wan2.2-I2V-A14B

I2V-A14B 모델은 이미지-투-비디오 생성을 위해 설계되었으며 480P와 720P 해상도를 지원합니다. Mixture-of-Experts (MoE) 아키텍처로 구축되어 비현실적 카메라 움직임이 줄어든 보다 안정적인 비디오 합성을 제공하고, 다양한 스타일화된 장면에 대한 지원이 향상되었습니다.

Wan2.2-TI2V-5B

TI2V-5B 모델은 16×16×4 압축률을 달성한 고급 Wan2.2-VAE로 구축되었습니다. 이 모델은 720P 해상도 24fps에서 텍스트-투-비디오 및 이미지-투-비디오 생성을 지원하며, 4090과 같은 단일 소비자용 GPU에서 실행됩니다. 산업용 및 학술 연구용으로 필요한 요구를 충족하는 가장 빠른 720P@24fps 모델 중 하나입니다.

GitHub: https://github.com/Wan-Video/Wan2.2

원본 HuggingFace 저장소: https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/tree/main/split_files/diffusion_models

이전
Konya Karasue | TIA V7 | Illustrious XL - v1.0
다음
Niji 세미 리얼리즘 - v3.0 - Flux

모델 세부사항

모델 유형

Checkpoint

기본 모델

Wan Video 2.2 T2V-A14B

모델 버전

14B Text-to-Video

모델 해시

33fc2f5384

제작자

토론

댓글을 남기려면 log in하세요.