Strona główna » Ai e-book o sztucznej inteligencji » Animate Anyone – animacja postaci z obrazu

Animate Anyone – animacja postaci z obrazu

by kapdes
animate-anyone

Animate Anyone – nowa technologia od Alibaba Group animuje zdjęcia w realistyczne filmy wideo

Zespół Alibaba opracował metodę animowania postaci ze zdjęć do filmów. Technologia ta wyróżnia się zachowaniem szczegółów wyglądu postaci przez cały czas trwania animacji.

a

Animate Anyone

Alibaba Group’s Institute for Intelligent Computing zaprezentował metodę ożywiania nieruchomych obrazów. Ich podejście, nazwane „Animate Anyone”, przekształca postacie ze zdjęć w animowane filmy wideo, wyznaczając nowe standardy w cyfrowej animacji.

Zespół kierowany przez Li Hu, Xin Gao, Peng Zhang, Ke Sun, Bang Zhang i Liefeng Bo opracował sposób animowania dowolnej postaci na zdjęciu, tworząc wysokiej jakości, wyraźne i stabilne wyniki wideo. Jest to szczególnie godne uwagi ze względu na zdolność do zachowania szczegółów wyglądu postaci konsekwentnie podczas całej animacji.

Modele dyfuzyjne

U podstaw tej technologii leżą zaawansowane modele komputerowe znane jako modele dyfuzyjne, które ostatnio stały się metodą generowania cyfrowych obrazów i filmów. Zespół Alibaba wykorzystał te modele, aby sprostać wyzwaniu animowania postaci z nieruchomych obrazów, co tradycyjnie było obarczone takimi problemami, jak zniekształcenia i niespójność.

Ich metoda wyróżnia się zdolnością do obsługi szczegółowych cech postaci. Osiąga się to dzięki specjalnemu komponentowi o nazwie ReferenceNet, który przechwytuje i integruje skomplikowane szczegóły wyglądu z obrazu referencyjnego w procesie animacji. Kolejnym kluczowym elementem jest Pose Guider, który kieruje ruchami postaci w filmie, zapewniając, że są one realistyczne i płynne.

Podejście zespołu może animować różne postacie, w tym postacie ludzkie, kreskówki i postacie humanoidalne. Powstałe w ten sposób filmy są oszałamiające wizualnie i wykazują niezwykłą spójność czasową, co oznacza, że animacja płynie płynnie w czasie bez żadnych irytujących przejść lub migotania.

Technologia ta ma ogromny potencjał zastosowań, od handlu detalicznego online po rozrywkę i twórczość artystyczną. Stanowi ona znaczący krok naprzód w dziedzinie animacji postaci, otwierając nowe możliwości dla twórców i deweloperów z różnych branż.

Animate Anyone – testy

Testując swoją metodę, naukowcy z Alibaba skupili się na dwóch konkretnych obszarach: syntezie wideo mody i generowaniu ludzkiego tańca. W przypadku syntezy wideo mody, ich technologia przekształciła statyczne zdjęcia mody w realistyczne, animowane filmy. Wyniki były imponujące, zwłaszcza jeśli chodzi o zachowanie drobnych szczegółów odzieży, co ma kluczowe znaczenie w branży modowej.

Zespół wykorzystał swoją metodę do animowania pojedynczych postaci ludzkich w scenariuszach tanecznych do generowania ludzkiego tańca. Rezultaty ponownie wyróżniały się realizmem i płynnością, skutecznie oddając złożone ruchy taneczne.

Podejście Alibaba wykazuje doskonałe możliwości w utrzymywaniu szczegółów postaci i generowaniu płynnych, realistycznych ruchów w porównaniu z istniejącymi metodami i technologiami. Jest to znacząca zaleta w świecie cyfrowej animacji, gdzie realizm i spójność są kluczowe.

Zespół przeprowadził również kilka porównań z podobnymi podejściami, takimi jak DreamPose i BDMM, a jeśli powiększysz poniższy przykład – różnica w jakości jest niezrównana:

Animate Anyone – czy model jest dostępny?

Jest to niezwykle wysokiej jakości badanie i wiele osób będzie chciało zdobyć ten model; jednak zespół, który przygotował ten artykuł, nie opublikował jeszcze kodu (mimo że utworzył repozytorium GitHub) LINK.

Zalecam śledzenie tego repozytorium w celu uzyskania przyszłych aktualizacji (tak jak zrobiły to już tysiące osób). W rzeczywistości wiele osób już pyta o model w Issues, ale zespół jeszcze nie odpowiedział.

To powiedziawszy, myślę, że istnieje wyraźna obawa o potencjalne nadużycia. Możliwość tworzenia realistycznych filmów przedstawiających ludzi robiących rzeczy, których nigdy nie zrobili, rodzi pytania o autentyczność dowodów wideo i etyczne granice sztucznej inteligencji w tworzeniu mediów.

Wykorzystanie technologii w branżach takich jak pornografia i reklama może być również jednym z powodów, dla których model nie jest jeszcze dostępny, ponieważ zespół może chcieć ograniczyć ten aspekt. Nie mogę nawet zaprzeczyć, że jest to śmiesznie dobra metoda, którą znaleźli, ale naturalnie będzie nadużywana poza praktycznymi zastosowaniami.

Szczegóły techniczne Animate Anyone od Alibaba Group

U podstaw tej metody leży nowatorska struktura zaprojektowana specjalnie do animacji postaci, wykorzystująca następujące kluczowe komponenty:

ReferenceNet

Unikalna sieć jest sercem utrzymywania skomplikowanych szczegółów wyglądu postaci z obrazu referencyjnego. ReferenceNet przechwytuje szczegóły przestrzenne obrazu referencyjnego i integruje te cechy z procesem animacji. Jest zbudowany podobnie do denoisingowej struktury UNet używanej w modelach dyfuzyjnych, ale bez warstwy czasowej. Sieć wykorzystuje mechanizmy uwagi przestrzennej, które pomagają wyrównać i zintegrować cechy z obrazu referencyjnego z klatkami wideo, zapewniając, że wygląd postaci pozostaje spójny w całej animacji.

Pose Guider

Aby uzyskać kontrolowane i realistyczne ruchy postaci, Pose Guider koduje sygnały sterowania ruchem. Wykorzystuje on warstwy splotu do wyrównania obrazu pozy (reprezentującego pożądany ruch) z ukrytym szumem, podstawowym składnikiem procesu dyfuzji. To wyrównanie pomaga kierować ruchami postaci w animacji, zapewniając ich zgodność z pożądanymi pozami.

Temporal Layer

Aby zapewnić płynne przejścia i ciągłość klatek wideo, warstwa czasowa odgrywa kluczową rolę. Modeluje ona relacje między wieloma klatkami, dzięki czemu ruch wygląda płynnie i naturalnie. Warstwa ta jest częścią odszumiania UNet i działa w wymiarze czasowym, obsługując skomplikowane zadanie zachowania szczegółów o wysokiej rozdzielczości przy jednoczesnej symulacji płynnego procesu ruchu.

Proces rozpoczyna się od zakodowania sekwencji pozy przez Pose Guider, która jest następnie łączona z szumem wielu klatek. Ta kombinacja przechodzi przez Denoising UNet, który przeprowadza proces denoisingu niezbędny do generowania wideo. 

Integracja obrazu referencyjnego obejmuje dwa aspekty: po pierwsze, szczegółowe cechy wyodrębnione przez ReferenceNet są wykorzystywane do Spatial-Attention, a po drugie, cechy semantyczne wyodrębnione przez koder obrazu CLIP do Cross-Attention. To podwójne podejście pomaga zachować szczegółową i semantyczną integralność wyglądu postaci.

Model został wytrenowany w dwóch etapach. Początkowo trenowano go przy użyciu pojedynczych klatek wideo, z wyłączeniem warstwy czasowej i skupiając się na generowaniu wysokiej jakości animowanych obrazów. W drugim etapie wprowadzono warstwę czasową, a model został wytrenowany na 24-klatkowych klipach wideo. Takie etapowe podejście do szkolenia zapewnia, że model skutecznie uczy się obsługi poszczególnych klatek i ciągłości między nimi.
Model został wytrenowany na wewnętrznym zestawie danych zawierającym 5000 klipów wideo z postaciami, demonstrując jego zdolność do animowania różnych postaci z wysoką rozdzielczością i realistycznymi szczegółami.

Pozostałe artykuły