Wan Video 2.2 - 14B Tekst na Wideo
Zalecane parametry
resolution
vae
Wskazówki
Wan2.2 wykorzystuje architekturę Mixture-of-Experts (MoE) do separacji usuwania szumu na różnych etapach, zwiększając pojemność bez zwiększania obciążenia obliczeniowego.
Dane treningowe zostały rozszerzone o +65.6% obrazów i +83.2% wideo, co poprawia uogólnianie w ruchu, semantyce i estetyce.
Specjalnie dobrane dane estetyczne z precyzyjnymi etykietami pozwalają na precyzyjną i kontrolowaną generację stylu filmowego.
Wan2.2-VAE osiąga współczynnik kompresji 16×16×4, obsługując efektywne generowanie wideo w 720P@24fps na komputerowych GPU takich jak Nvidia 4090.
Najważniejsze informacje o wersji
Wan 2.2 14B do generowania tekst-na-wideo na miejscu
Wan Video
Uwaga: Istnieją inne pliki Wan Video hostowane na Civitai - mogą to być duplikaty, ale ta karta modelu służy głównie do udostępniania plików używanych przez Wan Video w Generatorze Civitai.
Te pliki to ComfyUI Repack - oryginalne pliki można znaleźć w formacie Diffusers/multi-part safetensors tutaj.
Wan2.2 to duża aktualizacja naszych wizualnych modeli generatywnych, która jest teraz otwartoźródłowa, oferując potężniejsze możliwości, lepszą wydajność i wyższą jakość wizualną. W Wan2.2 skupiliśmy się na wdrożeniu następujących innowacji technicznych:
👍 Architektura MoE: Wan2.2 wprowadza architekturę Mixture-of-Experts (MoE) do modeli dyfuzji wideo. Poprzez separację procesu usuwania szumu na różnych etapach czasu za pomocą wyspecjalizowanych eksperckich modeli, powiększa to ogólną pojemność modelu przy zachowaniu tego samego kosztu obliczeniowego.
💪🏻 Skalowanie danych: W porównaniu z Wan2.1, Wan2.2 jest trenowany na znacznie większych danych, z +65.6% więcej obrazów i +83.2% więcej filmów. Ta rozbudowa znacząco poprawia uogólnianie modelu na wiele wymiarów, takich jak ruch, semantyka i estetyka, osiągając TOP wydajność wśród modeli otwartoźródłowych i zamkniętych.
🎬 Estetyka filmowa: Wan2.2 zawiera specjalnie dobrane dane estetyczne z precyzyjnymi etykietami dotyczącymi oświetlenia, kompozycji i koloru. Pozwala to na bardziej precyzyjną i kontrolowaną generację stylu filmowego, ułatwiając tworzenie wideo z dostosowanymi preferencjami estetycznymi.
🚀 Efektywne hybrydowe TI2V w wysokiej rozdzielczości: Wan2.2 otwartoźródłowo udostępnia model 5B zbudowany z użyciem zaawansowanego Wan2.2-VAE, osiągający współczynnik kompresji 16×16×4. Model ten wspiera generowanie tekst-na-wideo i obraz-na-wideo w rozdzielczości 720P przy 24fps i może działać na kartach konsumenckich, takich jak 4090. Jest to jeden z najszybszych modeli 720P@24fps dostępnych obecnie, zdolny do obsługi zarówno sektora przemysłowego, jak i akademickiego jednocześnie.
Wan2.2-T2V-A14B
Model T2V-A14B obsługuje generowanie 5-sekundowych filmów w rozdzielczościach 480P i 720P. Zbudowany na architekturze Mixture-of-Experts (MoE) zapewnia doskonałą jakość generowania wideo. Na naszym nowym benchmarku Wan-Bench 2.0 model przewyższa wiodące modele komercyjne w większości kluczowych wymiarów oceny.
Wan2.2-I2V-A14B
Model I2V-A14B, zaprojektowany do generacji obraz-na-wideo, obsługuje rozdzielczości 480P i 720P. Zbudowany na architekturze Mixture-of-Experts (MoE) umożliwia stabilniejszą syntezę wideo ze zmniejszonymi nierealistycznymi ruchami kamery oraz oferuje lepsze wsparcie dla różnorodnych stylizowanych scen.
Wan2.2-TI2V-5B
Model TI2V-5B zbudowany jest z wykorzystaniem zaawansowanego Wan2.2-VAE, który osiąga współczynnik kompresji 16×16×4. Model ten obsługuje generowanie tekst-na-wideo i obraz-na-wideo w rozdzielczości 720P przy 24fps i może działać na pojedynczej karcie GPU klasy konsumenckiej, takiej jak 4090. Jest to jeden z najszybszych dostępnych modeli 720P@24fps, spełniający potrzeby zarówno zastosowań przemysłowych, jak i badań naukowych.
GitHub: https://github.com/Wan-Video/Wan2.2
Oryginalne repozytorium HuggingFace: https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/tree/main/split_files/diffusion_models
Szczegóły modelu
Typ modelu
Model bazowy
Wersja modelu
Hash modelu
Twórca
Dyskusja
Proszę się log in, aby dodać komentarz.
