modelos/Wan Video 2.2 - 14B Texto a Video

Wan Video 2.2 - 14B Texto a Video

8/23/2025

1:09:32 PM

Palabras Clave y Etiquetas Relacionadas

14b de texto a video,modelo base,punto de control,generación de imagen a video,mezcla de expertos,de texto a video,theally,modelo de difusión de video,wan video,wan video 2.2,wan video 2.2 t2v-a14b,wan2.2

Un robot blanco y elegante sirviendo una taza de café a un hombre sentado en un cómodo asiento de cabina en un café bajo luces colgantes cálidas, capturado con fotografía natural de smartphone.

Fotografía nostálgica de los 1990s de un estudiante universitario escribiendo código en una computadora vintage de los 90 en una habitación de dormitorio con papel tapiz verde y piso alfombrado, iluminada por una lámpara de escritorio.

Una figura misteriosa vestida con una capa negra completa está en un callejón poco iluminado rodeado de edificios altos con tuberías visibles, fuga de vapor y cableado eléctrico, evocando una atmósfera cyberpunk y ligeramente inquietante.

Vista desde el interior de un coche conduciendo por una carretera tropical mojada con palmeras que bordean la carretera durante un día lluvioso.

Vista desde dentro de un auto conduciendo por un vecindario suburbano en un día lluvioso y ventoso con casas de estilo americano a lo largo de la calle.

Hombre vistiendo un traje blanco a rayas y gafas de sol parado cerca de palmeras con un rascacielos moderno de Miami al fondo, tomado desde un ángulo de cámara bajo.

Hombre afroamericano con afro y gafas de sol, vestido con traje rosa, de pie en una calle de Miami de noche con palmeras y rascacielos iluminados con neón al fondo, visto desde un ángulo bajo.

Grupo de jóvenes vestidas con shorts de mezclilla y crop tops disfrutando una noche cerca de palmeras, iluminadas por luces de neón y rascacielos modernos en Miami

Parámetros Recomendados

resolution

1280x720, 854x480

vae

Wan2.2-VAE - advanced

Consejos

Wan2.2 incorpora una arquitectura de Mezcla de Expertos (MoE) para separar la eliminación de ruido a través de los pasos de tiempo, mejorando la capacidad sin aumentar la carga computacional.

Los datos de entrenamiento se han ampliado en +65.6% en imágenes y +83.2% en videos, mejorando la generalización en movimiento, semántica y estética.

Datos estéticos especialmente seleccionados con etiquetas detalladas permiten una generación precisa y controlable de estilos cinematográficos.

Wan2.2-VAE logra una tasa de compresión de 16×16×4, soportando generación eficiente de video a 720P@24fps en GPUs de consumo como la Nvidia 4090.

Aspectos Destacados de la Versión

Wan 2.2 14B para generación de Texto a Video en sitio

Wan Video

Nota: Hay otros archivos Wan Video alojados en Civitai - estos pueden ser duplicados, pero esta ficha del modelo es principalmente para alojar los archivos usados por Wan Video en el Generador Civitai.

Estos archivos son el ComfyUI Repack - los archivos originales se encuentran en Diffusers/formato safetensors multipartes aquí.

Wan2.2, una gran mejora de nuestros modelos generativos visuales, ahora es de código abierto, ofreciendo capacidades más poderosas, mejor rendimiento y calidad visual superior. Con Wan2.2, nos hemos enfocado en incorporar las siguientes innovaciones técnicas:

👍 Arquitectura MoE: Wan2.2 introduce una arquitectura de Mezcla de Expertos (MoE) en modelos de difusión de video. Al separar el proceso de eliminación de ruido a través de los pasos de tiempo con modelos expertos especializados y potentes, se aumenta la capacidad total del modelo manteniendo el mismo costo computacional.

💪🏻 Escalado de Datos: Comparado con Wan2.1, Wan2.2 se entrena con un conjunto de datos significativamente mayor, con +65.6% más imágenes y +83.2% más videos. Esta expansión mejora notablemente la generalización del modelo en múltiples dimensiones como movimientos, semántica y estética, logrando un rendimiento TOP entre todos los modelos abiertos y cerrados.

🎬 Estética Cinematográfica: Wan2.2 incorpora datos estéticos especialmente seleccionados con etiquetas detalladas para iluminación, composición y color. Esto permite una generación de estilo cinematográfico más precisa y controlable, facilitando la creación de videos con preferencias estéticas personalizables.

🚀 TI2V Híbrido en Alta Definición Eficiente: Wan2.2 libera un modelo de 5B construido con nuestro avanzado Wan2.2-VAE que logra una tasa de compresión de 16×16×4. Este modelo soporta generación tanto de texto a video como de imagen a video a resolución 720P con 24fps y puede correr en tarjetas gráficas de consumo como la 4090. Es uno de los modelos más rápidos disponibles en 720P@24fps, capaz de atender tanto al sector industrial como académico simultáneamente.

Wan2.2-T2V-A14B

El modelo T2V-A14B soporta la generación de videos de 5 segundos en resoluciones 480P y 720P. Construido con una arquitectura de Mezcla de Expertos (MoE), ofrece una calidad sobresaliente en la generación de videos. En nuestro nuevo benchmark Wan-Bench 2.0, el modelo supera a los principales modelos comerciales en la mayoría de las dimensiones clave de evaluación.

Wan2.2-I2V-A14B

El modelo I2V-A14B, diseñado para generación de imagen a video, soporta resoluciones de 480P y 720P. Construido con una arquitectura de Mezcla de Expertos (MoE), logra una síntesis de video más estable con movimientos de cámara menos irreales y ofrece un mejor soporte para escenas estilizadas diversas.

Wan2.2-TI2V-5B

El modelo TI2V-5B está construido con el avanzado Wan2.2-VAE que logra una tasa de compresión de 16×16×4. Este modelo soporta generación de texto a video e imagen a video a resolución 720P con 24fps y puede funcionar en una sola GPU de consumo como la 4090. Es uno de los modelos más rápidos disponibles en 720P@24fps, satisfaciendo las necesidades de aplicaciones industriales e investigaciones académicas.

GitHub: https://github.com/Wan-Video/Wan2.2

Repositorio original en HuggingFace: https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/tree/main/split_files/diffusion_models