모델/Wan Video 2.2 - 14B 텍스트-투-비디오

Wan Video 2.2 - 14B 텍스트-투-비디오

김지훈 (Kim Ji-hoon)

8/23/2025

1:11:18 PM

| Discussion|

팁

Wan2.2는 Mixture-of-Experts (MoE) 아키텍처를 도입하여 시간 단계별 디노이징을 분리함으로써 계산 부하를 늘리지 않고 용량을 향상시킵니다.

학습 데이터는 이미지가 +65.6%, 비디오가 +83.2% 확대되어 움직임, 의미론, 미학에서 일반화 능력이 향상되었습니다.

세밀한 라벨이 포함된 특별히 선별된 미학 데이터를 통해 정밀하고 제어 가능한 시네마틱 스타일 생성을 지원합니다.

Wan2.2-VAE는 16×16×4 압축률을 달성해 Nvidia 4090과 같은 소비자용 GPU에서 720P@24fps의 효율적인 비디오 생성을 가능하게 합니다.

버전 하이라이트

현장 생성용 텍스트-투-비디오 Wan 2.2 14B

Wan Video

참고: Civitai에 호스팅된 다른 Wan Video 파일이 있을 수 있으며, 이는 중복일 수 있지만 이 모델 카드는 주로 Civitai Generator에서 Wan Video가 사용하는 파일을 호스팅하기 위한 것입니다.

이 파일들은 ComfyUI 리팩이며, 원본 파일은 Diffusers/멀티파트 safetensors 형식 여기에서 확인할 수 있습니다.

Wan2.2는 시각 생성 모델의 주요 업그레이드로, 이제 오픈소스로 공개되어 더 강력한 기능, 향상된 성능, 그리고 뛰어난 시각 품질을 제공합니다. Wan2.2에서는 다음과 같은 기술 혁신에 중점을 두었습니다:

👍 MoE 아키텍처: Wan2.2는 비디오 확산 모델에 Mixture-of-Experts (MoE) 아키텍처를 도입했습니다. 시간 단계별로 디노이징 과정을 전문화된 강력한 전문가 모델로 분리하여 동일한 계산 비용으로 전체 모델 용량을 확장합니다.

💪🏻 데이터 확장: Wan2.1과 비교하여 Wan2.2는 이미지가 +65.6%, 비디오가 +83.2% 더 많은 대규모 데이터로 학습되었습니다. 이 확장은 움직임, 의미론, 미학 등 여러 차원에서 모델의 일반화 능력을 크게 향상시켜 모든 오픈소스 및 클로즈드소스 모델 중 TOP 성능을 달성합니다.

🎬 시네마틱 미학: Wan2.2는 조명, 구도, 색상에 대한 세밀한 라벨이 달린 특별히 선별된 미학 데이터를 도입했습니다. 이를 통해 더욱 정밀하고 제어 가능한 시네마틱 스타일 생성을 가능하게 하여 맞춤형 미학 선호도가 반영된 비디오 제작을 지원합니다.

🚀 효율적인 고해상도 하이브리드 TI2V: Wan2.2는 16×16×4의 압축률을 달성한 고급 Wan2.2-VAE로 구축된 5B 모델을 오픈소스로 공개합니다. 이 모델은 720P 해상도, 24fps에서 텍스트-투-비디오 및 이미지-투-비디오 생성을 지원하며, 4090과 같은 소비자용 그래픽 카드에서도 실행 가능합니다. 현재 사용 가능한 가장 빠른 720P@24fps 중 하나로 산업 및 학계 양쪽에서 활용될 수 있습니다.

Wan2.2-T2V-A14B

T2V-A14B 모델은 480P와 720P 해상도에서 5초짜리 비디오 생성이 가능합니다. Mixture-of-Experts (MoE) 아키텍처로 구축되어 뛰어난 비디오 생성 품질을 제공합니다. 새로운 벤치마크 Wan-Bench 2.0에서 이 모델은 주요 평가 지표 대부분에서 상업용 선도 모델을 능가합니다.

Wan2.2-I2V-A14B

I2V-A14B 모델은 이미지-투-비디오 생성을 위해 설계되었으며 480P와 720P 해상도를 지원합니다. Mixture-of-Experts (MoE) 아키텍처로 구축되어 비현실적 카메라 움직임이 줄어든 보다 안정적인 비디오 합성을 제공하고, 다양한 스타일화된 장면에 대한 지원이 향상되었습니다.

Wan2.2-TI2V-5B

TI2V-5B 모델은 16×16×4 압축률을 달성한 고급 Wan2.2-VAE로 구축되었습니다. 이 모델은 720P 해상도 24fps에서 텍스트-투-비디오 및 이미지-투-비디오 생성을 지원하며, 4090과 같은 단일 소비자용 GPU에서 실행됩니다. 산업용 및 학술 연구용으로 필요한 요구를 충족하는 가장 빠른 720P@24fps 모델 중 하나입니다.

GitHub: https://github.com/Wan-Video/Wan2.2

원본 HuggingFace 저장소: https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/tree/main/split_files/diffusion_models