modele/Wan Video 2.2 - 14B Tekst na Wideo

Wan Video 2.2 - 14B Tekst na Wideo

8/23/2025

1:06:15 PM

Powiązane słowa kluczowe i tagi

14b tekst na wideo,model bazowy,checkpoint,generowanie wideo z obrazu,mieszanka ekspertów,tekst na wideo,theally,model dyfuzji wideo,wan video,wan video 2.2,wan video 2.2 t2v-a14b,wan2.2

Smukły biały robot serwujący filiżankę kawy mężczyźnie siedzącemu w przytulnym kąciku kawiarni pod ciepłym, wiszącym oświetleniem sufitowym, uchwycony za pomocą naturalnej fotografii smartfonowej.

Nostalgiczne zdjęcie z lat 90. przedstawiające studenta piszącego kod na vintage'owym komputerze z lat 90. w pokoju akademickim z zielonymi tapetami i wykładziną, oświetlone lampką biurkową.

Tajemnicza postać ubrana w pełną czarną pelerynę stoi w słabo oświetlonej bocznej uliczce otoczonej wysokimi budynkami z widocznymi rurami, wyciekiem pary i instalacją elektryczną, wywołując atmosferę cyberpunku i lekkiego niepokoju.

Widok z wnętrza samochodu jadącego mokrą tropikalną autostradą, z palmami wzdłuż drogi podczas deszczowego dnia.

Widok z wnętrza samochodu jadącego przez przedmiejską dzielnicę w deszczowy, wietrzny dzień, z amerykańskimi domami przy ulicy.

Mężczyzna w białym garniturze w prążki i okularach przeciwsłonecznych stojący obok palm z nowoczesnym drapaczem chmur w Miami w tle, zdjęcie wykonane z niskiego kąta kamery.

Afroamerykanin z afro i okularami przeciwsłonecznymi w różowym garniturze stojący na ulicy Miami nocą, w tle palmy i neonowe drapacze chmur, widok z niskiego kąta.

Grupa młodych kobiet ubranych w jeansowe szorty i crop topy, bawiących się nocą w pobliżu palm, oświetlonych neonowymi światłami i nowoczesnymi drapaczami chmur w Miami

Zalecane parametry

resolution

1280x720, 854x480

vae

Wan2.2-VAE - advanced

Wskazówki

Wan2.2 wykorzystuje architekturę Mixture-of-Experts (MoE) do separacji usuwania szumu na różnych etapach, zwiększając pojemność bez zwiększania obciążenia obliczeniowego.

Dane treningowe zostały rozszerzone o +65.6% obrazów i +83.2% wideo, co poprawia uogólnianie w ruchu, semantyce i estetyce.

Specjalnie dobrane dane estetyczne z precyzyjnymi etykietami pozwalają na precyzyjną i kontrolowaną generację stylu filmowego.

Wan2.2-VAE osiąga współczynnik kompresji 16×16×4, obsługując efektywne generowanie wideo w 720P@24fps na komputerowych GPU takich jak Nvidia 4090.

Najważniejsze informacje o wersji

Wan 2.2 14B do generowania tekst-na-wideo na miejscu

Wan Video

Uwaga: Istnieją inne pliki Wan Video hostowane na Civitai - mogą to być duplikaty, ale ta karta modelu służy głównie do udostępniania plików używanych przez Wan Video w Generatorze Civitai.

Te pliki to ComfyUI Repack - oryginalne pliki można znaleźć w formacie Diffusers/multi-part safetensors tutaj.

Wan2.2 to duża aktualizacja naszych wizualnych modeli generatywnych, która jest teraz otwartoźródłowa, oferując potężniejsze możliwości, lepszą wydajność i wyższą jakość wizualną. W Wan2.2 skupiliśmy się na wdrożeniu następujących innowacji technicznych:

👍 Architektura MoE: Wan2.2 wprowadza architekturę Mixture-of-Experts (MoE) do modeli dyfuzji wideo. Poprzez separację procesu usuwania szumu na różnych etapach czasu za pomocą wyspecjalizowanych eksperckich modeli, powiększa to ogólną pojemność modelu przy zachowaniu tego samego kosztu obliczeniowego.

💪🏻 Skalowanie danych: W porównaniu z Wan2.1, Wan2.2 jest trenowany na znacznie większych danych, z +65.6% więcej obrazów i +83.2% więcej filmów. Ta rozbudowa znacząco poprawia uogólnianie modelu na wiele wymiarów, takich jak ruch, semantyka i estetyka, osiągając TOP wydajność wśród modeli otwartoźródłowych i zamkniętych.

🎬 Estetyka filmowa: Wan2.2 zawiera specjalnie dobrane dane estetyczne z precyzyjnymi etykietami dotyczącymi oświetlenia, kompozycji i koloru. Pozwala to na bardziej precyzyjną i kontrolowaną generację stylu filmowego, ułatwiając tworzenie wideo z dostosowanymi preferencjami estetycznymi.

🚀 Efektywne hybrydowe TI2V w wysokiej rozdzielczości: Wan2.2 otwartoźródłowo udostępnia model 5B zbudowany z użyciem zaawansowanego Wan2.2-VAE, osiągający współczynnik kompresji 16×16×4. Model ten wspiera generowanie tekst-na-wideo i obraz-na-wideo w rozdzielczości 720P przy 24fps i może działać na kartach konsumenckich, takich jak 4090. Jest to jeden z najszybszych modeli 720P@24fps dostępnych obecnie, zdolny do obsługi zarówno sektora przemysłowego, jak i akademickiego jednocześnie.

Wan2.2-T2V-A14B

Model T2V-A14B obsługuje generowanie 5-sekundowych filmów w rozdzielczościach 480P i 720P. Zbudowany na architekturze Mixture-of-Experts (MoE) zapewnia doskonałą jakość generowania wideo. Na naszym nowym benchmarku Wan-Bench 2.0 model przewyższa wiodące modele komercyjne w większości kluczowych wymiarów oceny.

Wan2.2-I2V-A14B

Model I2V-A14B, zaprojektowany do generacji obraz-na-wideo, obsługuje rozdzielczości 480P i 720P. Zbudowany na architekturze Mixture-of-Experts (MoE) umożliwia stabilniejszą syntezę wideo ze zmniejszonymi nierealistycznymi ruchami kamery oraz oferuje lepsze wsparcie dla różnorodnych stylizowanych scen.

Wan2.2-TI2V-5B

Model TI2V-5B zbudowany jest z wykorzystaniem zaawansowanego Wan2.2-VAE, który osiąga współczynnik kompresji 16×16×4. Model ten obsługuje generowanie tekst-na-wideo i obraz-na-wideo w rozdzielczości 720P przy 24fps i może działać na pojedynczej karcie GPU klasy konsumenckiej, takiej jak 4090. Jest to jeden z najszybszych dostępnych modeli 720P@24fps, spełniający potrzeby zarówno zastosowań przemysłowych, jak i badań naukowych.

GitHub: https://github.com/Wan-Video/Wan2.2

Oryginalne repozytorium HuggingFace: https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/tree/main/split_files/diffusion_models

Współtwórca

Zofia Nowak

Cześć! Nazywam się Zofia Nowak. Łączę pasję do fotografii z technologią, by prezentować najbardziej inspirujące obrazy tworzone przez sztuczną inteligencję.

Poprzedni

Konya Karasue | TIA V7 | Illustrious XL - v1.0

Następny

Niji semi realizm - v3.0 - Flux

Użyj tego modelu

Szczegóły modelu

Typ modelu

Checkpoint

Model bazowy

Wan Video 2.2 T2V-A14B

Wersja modelu

14B Text-to-Video

Hash modelu

33fc2f5384

Twórca

theally

Dyskusja

Proszę się log in, aby dodać komentarz.

Kolekcja modeli - Wan Video 2.2

Widok z lotu ptaka na nowoczesną przedmiejską dzielnicę Florydy z jasnymi dachami, palmowymi ulicami, basenami w podwórkach i kontrastującym dzikim bagnem z cyprysami i terenami podmokłymi.

CheckpointMODELE

Obrazy autorstwa Wan Video 2.2 - 14B Tekst na Wideo

Obrazy z model bazowy

Fotorealistyczna scena postaci nieumarłych, w tym zombie i szkieletów, spacerujących przez upiorny cmentarz oświetlony świecącymi lampionami jack-o'-lantern pod ciemnym, złowrogim niebem.