Strona główna » Ai e-book o sztucznej inteligencji » Google Lumiere – wideo AI bliższe rzeczywistości

Google Lumiere – wideo AI bliższe rzeczywistości

by kapdes
lumiere

Google Lumiere sprawia, że wideo AI jest bliższe rzeczywistości niż nierzeczywistości

Pięciosekundowe klipy wygenerowane za pomocą Lumiere pokazują, jak narzędzia sztucznej inteligencji mogą tworzyć wideo z podpowiedzi z realistycznym ruchem.

Nowy model sztucznej inteligencji Google Lumiere do generowania wideo wykorzystuje nowy model dyfuzji o nazwie Space-Time-U-Net (STUNet), który określa, gdzie znajdują się rzeczy w filmie (przestrzeń) oraz jak jednocześnie poruszają się i zmieniają (czas). Ars Technica donosi, że metoda ta pozwala Lumiere tworzyć wideo w jednym procesie, zamiast łączyć ze sobą mniejsze klatki.

Lumiere rozpoczyna od utworzenia klatki bazowej z podpowiedzi. Następnie używa frameworka STUNet, aby rozpocząć przybliżanie, gdzie obiekty w tej klatce będą się poruszać, aby utworzyć więcej klatek, które przepływają do siebie, tworząc wrażenie płynnego ruchu. Lumiere generuje również 80 klatek w porównaniu do 25 klatek ze Stable Video Diffusion.

Trzeba przyznać, że jestem bardziej reporterem tekstowym niż osobą zajmującą się wideo, ale skwiercząca rolka opublikowana przez Google, wraz z artykułem naukowym przed drukiem, pokazuje, że narzędzia do generowania i edycji wideo AI przeszły od niesamowitej doliny do niemal realistycznej w ciągu zaledwie kilku lat. Wprowadza również technologię Google w przestrzeń już zajmowaną przez konkurentów, takich jak Runway, Stable Video Diffusion czy Meta’s Emu. Runway, jedna z pierwszych masowych platform tekstowo-wideo, wydała Runway Gen-2 w marcu ubiegłego roku i zaczęła oferować bardziej realistycznie wyglądające filmy. Filmy Runway mają również trudności z przedstawieniem ruchu.

Google był na tyle uprzejmy, że umieścił klipy i podpowiedzi na stronie Lumiere, co pozwoliło mi umieścić te same podpowiedzi w Runway w celu porównania. Oto wyniki:

ebook

Jak Wykorzystać Sztuczną Inteligencję W Życiu Codziennym?

Owszem, niektóre z prezentowanych klipów mają w sobie nutkę sztuczności, zwłaszcza jeśli przyjrzeć się bliżej teksturze skóry lub gdy scena jest bardziej klimatyczna. Ale spójrzcie na tego żółwia! Porusza się jak prawdziwy żółw w wodzie! Wygląda jak prawdziwy żółw! Wysłałem film wprowadzający Lumiere do znajomej, która jest profesjonalnym montażystą wideo. Chociaż zauważyła, że „wyraźnie widać, że nie jest to do końca prawdziwe”, uznała to za imponujące, że gdybym nie powiedział jej, że to sztuczna inteligencja, pomyślałaby, że to CGI. (Powiedziała też: „To zabierze mi pracę, prawda?”).

Inne modele łączą filmy z wygenerowanych kluczowych klatek, w których ruch już się wydarzył (pomyśl o rysunkach we flipbooku), podczas gdy STUNet pozwala Lumiere skupić się na samym ruchu w oparciu o to, gdzie wygenerowana zawartość powinna znajdować się w danym momencie w filmie.

Google nie był dużym graczem w kategorii zamiany tekstu na wideo, ale powoli wypuszczał bardziej zaawansowane modele sztucznej inteligencji i skupiał się na bardziej multimodalnym podejściu. Jego duży model językowy Gemini ostatecznie wprowadzi generowanie obrazów do Barda. Lumiere nie jest jeszcze dostępny do testowania, ale pokazuje zdolność Google do opracowania platformy wideo AI, która jest porównywalna – i prawdopodobnie nieco lepsza niż – ogólnie dostępne generatory wideo AI, takie jak Runway i Pika. Przypominamy, że dwa lata temu Google znajdowało się właśnie w tym miejscu.

Pozostałe artykuły