modelos/Wan Video 2.2 - Texto-Imagen-a-Video 5B

Wan Video 2.2 - Texto-Imagen-a-Video 5B

8/25/2025

1:16:44 AM

Palabras Clave y Etiquetas Relacionadas

5b texto-imagen-a-video,modelo base,punto de control,generación de imagen a video,mezcla de expertos,de texto a video,theally,modelo de difusión de video,wan video,wan video 2.2,wan video 2.2 ti2v-5b,wan2.2

Un robot blanco y elegante sirviendo una taza de café a un hombre sentado en un cómodo asiento de cabina en un café bajo luces colgantes cálidas, capturado con fotografía natural de smartphone.

Fotografía nostálgica de los 1990s de un estudiante universitario escribiendo código en una computadora vintage de los 90 en una habitación de dormitorio con papel tapiz verde y piso alfombrado, iluminada por una lámpara de escritorio.

Una figura misteriosa vestida con una capa negra completa está en un callejón poco iluminado rodeado de edificios altos con tuberías visibles, fuga de vapor y cableado eléctrico, evocando una atmósfera cyberpunk y ligeramente inquietante.

Vista desde el interior de un coche conduciendo por una carretera tropical mojada con palmeras que bordean la carretera durante un día lluvioso.

Vista desde dentro de un auto conduciendo por un vecindario suburbano en un día lluvioso y ventoso con casas de estilo americano a lo largo de la calle.

Hombre vistiendo un traje blanco a rayas y gafas de sol parado cerca de palmeras con un rascacielos moderno de Miami al fondo, tomado desde un ángulo de cámara bajo.

Hombre afroamericano con afro y gafas de sol, vestido con traje rosa, de pie en una calle de Miami de noche con palmeras y rascacielos iluminados con neón al fondo, visto desde un ángulo bajo.

Grupo de jóvenes vestidas con shorts de mezclilla y crop tops disfrutando una noche cerca de palmeras, iluminadas por luces de neón y rascacielos modernos en Miami

Parámetros Recomendados

resolution

1280x720, 854x480

vae

Wan2.2-VAE - advanced

Consejos

Wan2.2 incorpora una arquitectura Mixture-of-Experts (MoE) para separar la eliminación de ruido a través de pasos temporales, aumentando la capacidad sin incrementar la carga computacional.

Los datos de entrenamiento se han ampliado en +65.6% en imágenes y +83.2% en videos, mejorando la generalización en movimiento, semántica y estética.

Datos estéticos especialmente seleccionados con etiquetas detalladas permiten una generación precisa y controlable de estilo cinematográfico.

Wan2.2-VAE alcanza una tasa de compresión de 16×16×4, soportando generación eficiente de video a 720P@24fps en GPUs de consumo como la Nvidia 4090.

Aspectos Destacados de la Versión

Wan 2.2 5B para generación en sitio

Wan Video

Nota: Hay otros archivos de Wan Video alojados en Civitai - estos pueden ser duplicados, pero esta ficha del modelo es principalmente para alojar los archivos usados por Wan Video en el Generador Civitai.

Estos archivos son el ComfyUI Repack - los archivos originales se pueden encontrar en Diffusers/formato safetensors multipart aquí.

Wan2.2, una gran mejora en nuestros modelos generativos visuales, ahora es de código abierto, ofreciendo capacidades más potentes, mejor rendimiento y calidad visual superior. Con Wan2.2, nos hemos centrado en incorporar las siguientes innovaciones técnicas:

👍 Arquitectura MoE: Wan2.2 introduce una arquitectura Mixture-of-Experts (MoE) en modelos de difusión de video. Al separar el proceso de eliminación de ruido entre pasos de tiempo con modelos expertos especializados y potentes, esto aumenta la capacidad total del modelo manteniendo el mismo costo computacional.

💪🏻 Escalado de Datos: En comparación con Wan2.1, Wan2.2 se entrena con un dataset mucho más grande, con +65.6% más imágenes y +83.2% más videos. Esta expansión mejora notablemente la generalización del modelo en múltiples dimensiones como movimientos, semántica y estética, alcanzando un rendimiento TOP entre todos los modelos de código abierto y cerrado.

🎬 Estética Cinematográfica: Wan2.2 incorpora datos estéticos especialmente seleccionados con etiquetas detalladas para iluminación, composición y color. Esto permite una generación de estilo cinematográfico más precisa y controlable, facilitando la creación de videos con preferencias estéticas personalizables.

🚀 TI2V Híbrido Eficiente en Alta Definición: Wan2.2 open-source un modelo 5B construido con nuestro avanzado Wan2.2-VAE que logra una tasa de compresión de 16×16×4. Este modelo soporta tanto texto-a-video como imagen-a-video en resolución 720P a 24fps y puede correr en tarjetas gráficas de consumo como la 4090. Es uno de los modelos más rápidos a 720P@24fps disponibles, capaz de atender tanto al sector industrial como académico simultáneamente.

Wan2.2-T2V-A14B

El modelo T2V-A14B soporta generación de videos de 5 segundos en resoluciones 480P y 720P. Construido con arquitectura Mixture-of-Experts (MoE), ofrece una calidad sobresaliente en generación de video. En nuestro nuevo benchmark Wan-Bench 2.0, el modelo supera a los principales modelos comerciales en la mayoría de las dimensiones clave de evaluación.

Wan2.2-I2V-A14B

El modelo I2V-A14B, diseñado para generación de imagen-a-video, soporta resoluciones tanto de 480P como 720P. Construido con arquitectura Mixture-of-Experts (MoE), logra una síntesis de video más estable con movimientos de cámara menos irreales y ofrece mejor soporte para escenas estilizadas diversas.

Wan2.2-TI2V-5B

El modelo TI2V-5B está construido con el avanzado Wan2.2-VAE que alcanza una tasa de compresión de 16×16×4. Este modelo soporta tanto texto-a-video como imagen-a-video a resolución 720P con 24fps y puede correr en una sola GPU de consumo como la 4090. Es uno de los modelos más rápidos a 720P@24fps disponibles, satisfaciendo las necesidades tanto de aplicaciones industriales como de investigación académica.

GitHub: https://github.com/Wan-Video/Wan2.2

Repositorio original en HuggingFace: https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/tree/main/split_files/diffusion_models