modele/Wan Video 2.2 - 5B Tekst-Obraz do Wideo

Wan Video 2.2 - 5B Tekst-Obraz do Wideo

8/25/2025

1:10:14 AM

Powiązane słowa kluczowe i tagi

5b text-image-to-video,model bazowy,checkpoint,generowanie wideo z obrazu,mieszanka ekspertów,tekst na wideo,theally,model dyfuzji wideo,wan video,wan video 2.2,wan video 2.2 ti2v-5b,wan2.2

Smukły biały robot serwujący filiżankę kawy mężczyźnie siedzącemu w przytulnym kąciku kawiarni pod ciepłym, wiszącym oświetleniem sufitowym, uchwycony za pomocą naturalnej fotografii smartfonowej.

Nostalgiczne zdjęcie z lat 90. przedstawiające studenta piszącego kod na vintage'owym komputerze z lat 90. w pokoju akademickim z zielonymi tapetami i wykładziną, oświetlone lampką biurkową.

Tajemnicza postać ubrana w pełną czarną pelerynę stoi w słabo oświetlonej bocznej uliczce otoczonej wysokimi budynkami z widocznymi rurami, wyciekiem pary i instalacją elektryczną, wywołując atmosferę cyberpunku i lekkiego niepokoju.

Widok z wnętrza samochodu jadącego mokrą tropikalną autostradą, z palmami wzdłuż drogi podczas deszczowego dnia.

Widok z wnętrza samochodu jadącego przez przedmiejską dzielnicę w deszczowy, wietrzny dzień, z amerykańskimi domami przy ulicy.

Mężczyzna w białym garniturze w prążki i okularach przeciwsłonecznych stojący obok palm z nowoczesnym drapaczem chmur w Miami w tle, zdjęcie wykonane z niskiego kąta kamery.

Afroamerykanin z afro i okularami przeciwsłonecznymi w różowym garniturze stojący na ulicy Miami nocą, w tle palmy i neonowe drapacze chmur, widok z niskiego kąta.

Grupa młodych kobiet ubranych w jeansowe szorty i crop topy, bawiących się nocą w pobliżu palm, oświetlonych neonowymi światłami i nowoczesnymi drapaczami chmur w Miami

Zalecane parametry

resolution

1280x720, 854x480

vae

Wan2.2-VAE - advanced

Wskazówki

Wan2.2 wykorzystuje architekturę Mixture-of-Experts (MoE) do rozdzielenia procesu usuwania szumu na kroki czasowe, zwiększając pojemność bez zwiększenia obciążenia obliczeniowego.

Dane treningowe zostały rozszerzone o +65,6% więcej obrazów i +83,2% więcej wideo, poprawiając uogólnianie w zakresie ruchu, semantyki i estetyki.

Specjalnie dobrane dane estetyczne z precyzyjnymi etykietami umożliwiają precyzyjną i kontrolowaną generację stylu filmowego.

Wan2.2-VAE osiąga współczynnik kompresji 16×16×4, wspierając efektywne generowanie wideo w 720P@24fps na kartach konsumenckich takich jak Nvidia 4090.

Najważniejsze informacje o wersji

Wan 2.2 5B do generacji na miejscu

Wan Video

Uwaga: Istnieją inne pliki Wan Video hostowane na Civitai – mogą być duplikatami, ale ta karta modelu służy głównie do hostowania plików używanych przez Wan Video w generatorze Civitai.

Te pliki to ComfyUI Repack – oryginalne pliki można znaleźć w Diffusers/multi-part safetensors tutaj.

Wan2.2 to duża aktualizacja naszych wizualnych modeli generatywnych, która jest teraz otwartoźródłowa, oferując potężniejsze możliwości, lepszą wydajność i wyższą jakość wizualną. W Wan2.2 skupiliśmy się na wprowadzeniu następujących innowacji technicznych:

👍 Architektura MoE: Wan2.2 wprowadza architekturę Mixture-of-Experts (MoE) do modeli dyfuzji wideo. Poprzez rozdzielenie procesu usuwania szumów na poszczególne kroki czasowe z wykorzystaniem wyspecjalizowanych, potężnych modeli ekspertów, zwiększa to całkowitą pojemność modelu przy zachowaniu tego samego kosztu obliczeniowego.

💪🏻 Skalowanie danych: W porównaniu z Wan2.1, Wan2.2 był trenowany na znacznie większych danych, z +65,6% więcej obrazów i +83,2% więcej wideo. To rozszerzenie znacząco poprawia uogólnianie modelu w wielu wymiarach, takich jak ruch, semantyka i estetyka, osiągając najlepsze wyniki wśród wszystkich modeli otwarto i zamkniętoźródłowych.

🎬 Estetyka filmowa: Wan2.2 zawiera specjalnie dobrane dane estetyczne z precyzyjnymi etykietami dotyczącymi oświetlenia, kompozycji i koloru. Pozwala to na dokładniejsze i kontrolowane generowanie stylu filmowego, ułatwiając tworzenie wideo z konfigurowalnymi preferencjami estetycznymi.

🚀 Wydajny hybrydowy TI2V w wysokiej rozdzielczości: Wan2.2 udostępnia otwartoźródłowo model 5B zbudowany z użyciem zaawansowanego Wan2.2-VAE, który osiąga współczynnik kompresji 16×16×4. Model ten obsługuje zarówno generowanie tekst-do-wideo, jak i obraz-do-wideo w rozdzielczości 720P przy 24fps i może działać na kartach graficznych konsumenckich, takich jak 4090. Jest to jeden z najszybszych modeli 720P@24fps dostępnych obecnie, zdolny do obsługi zarówno sektora przemysłowego, jak i naukowego.

Wan2.2-T2V-A14B

Model T2V-A14B wspiera generowanie 5-sekundowych wideo w rozdzielczościach 480P i 720P. Zbudowany z architekturą Mixture-of-Experts (MoE), zapewnia doskonałą jakość generowania wideo. Na naszym nowym benchmarku Wan-Bench 2.0 model przewyższa wiodące modele komercyjne w większości kluczowych wymiarów oceny.

Wan2.2-I2V-A14B

Model I2V-A14B, zaprojektowany do generowania obraz-do-wideo, obsługuje rozdzielczości 480P i 720P. Zbudowany z architekturą Mixture-of-Experts (MoE), osiąga stabilniejszą syntezę wideo z redukcją nierealistycznych ruchów kamery i oferuje lepsze wsparcie dla różnorodnych stylizowanych scen.

Wan2.2-TI2V-5B

Model TI2V-5B zbudowany jest z zaawansowanym Wan2.2-VAE, który osiąga współczynnik kompresji 16×16×4. Model ten obsługuje generowanie tekst-do-wideo i obraz-do-wideo w rozdzielczości 720P przy 24fps i działa na pojedynczej karcie graficznej konsumenckiej, takiej jak 4090. Jest to jeden z najszybszych modeli 720P@24fps dostępnych, spełniający potrzeby zarówno zastosowań przemysłowych, jak i badań naukowych.

GitHub: https://github.com/Wan-Video/Wan2.2

Oryginalne repozytorium HuggingFace: https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/tree/main/split_files/diffusion_models

Współtwórca

Zofia Nowak

Cześć! Nazywam się Zofia Nowak. Łączę pasję do fotografii z technologią, by prezentować najbardziej inspirujące obrazy tworzone przez sztuczną inteligencję.

Poprzedni

Impresjonizm - Flux

Następny

Vibrantly Sharp style - Vibrantly Sharp style v.3

Użyj tego modelu

Szczegóły modelu

Typ modelu

Checkpoint

Model bazowy

Wan Video 2.2 TI2V-5B

Wersja modelu

5B Text-Image-to-Video

Hash modelu

33fc2f5384

Twórca

theally

Dyskusja

Proszę się log in, aby dodać komentarz.

Kolekcja modeli - Wan Video 2.2

Widok z lotu ptaka na nowoczesną przedmiejską dzielnicę Florydy z jasnymi dachami, palmowymi ulicami, basenami w podwórkach i kontrastującym dzikim bagnem z cyprysami i terenami podmokłymi.

CheckpointMODELE

Obrazy autorstwa Wan Video 2.2 - 5B Tekst-Obraz do Wideo

Obrazy z model bazowy

Fotorealistyczna scena postaci nieumarłych, w tym zombie i szkieletów, spacerujących przez upiorny cmentarz oświetlony świecącymi lampionami jack-o'-lantern pod ciemnym, złowrogim niebem.