Strona główna » Ai e-book o sztucznej inteligencji » Mirasol od Google przesuwa granice rozumienia wideo przez Ai

Mirasol od Google przesuwa granice rozumienia wideo przez Ai

by kapdes
mirasol

Google i Google Deepmind zaprezentowały Mirasol

Mały model sztucznej inteligencji, który może odpowiadać na pytania dotyczące wideo i ustanawiać nowe rekordy.

Aby zrozumieć wideo, modele sztucznej inteligencji muszą integrować informacje z różnych modalności, takich jak wideo, audio i tekst. Jednak dzisiejsze systemy sztucznej inteligencji mają trudności z przetwarzaniem różnorodnych strumieni danych i dużych ilości danych. W nowym badaniu naukowcy z Google i Google Deepmind przedstawiają podejście, które znacznie poprawia multimodalne zrozumienie długich filmów.

Mirasol opiera się na nowym module transformatora „Combiner”

Dzięki modelowi sztucznej inteligencji Mirasol zespół stara się sprostać dwóm kluczowym wyzwaniom: Po pierwsze, modalności takie jak wideo i audio są zsynchronizowane w czasie i występują z wysoką częstotliwością próbkowania, podczas gdy modalności takie jak tytuły i opisy są asynchroniczne z samą treścią. Po drugie, wideo i audio generują duże ilości danych, które obciążają możliwości modelu.

W przypadku Mirasol zespół wykorzystuje sumatory i modele transformacji autoregresywnej. Zsynchronizowane czasowo sygnały wideo i audio są przetwarzane przez komponent modelu, który dzieli wideo na poszczególne segmenty. Transformator przetwarza każdy segment i uczy się relacji między segmentami. Oddzielny transformator przetwarza następnie tekst kontekstowy. Oba komponenty wymieniają się informacjami o swoich wejściach.

W komponencie wideo-audio nowy moduł transformacji o nazwie Combiner wyodrębnia wspólne reprezentacje z każdego segmentu i kompresuje dane poprzez redukcję wymiaru. Każdy segment zawiera od 4 do 64 klatek; w sumie obecna wersja modelu, z 3 miliardami parametrów, może przetwarzać filmy zawierające od 128 do 512 klatek. Inne znacznie większe modele, oparte głównie na transformatorach tekstowych z dodatkowymi modalnościami, często mogą przetwarzać tylko od 32 do 64 klatek dla całego wideo.

Mirasol Google może być używany w YouTube

W testach Mirasol3B osiąga nowe benchmarki w analizie pytań wideo, jest znacznie mniejszy i może przetwarzać dłuższe filmy. Dzięki wariantowi sumatora, który zawiera pamięć, zespół może zmniejszyć wymaganą moc obliczeniową o kolejne 18 procent.

W przyszłości modele takie jak Mirasol mogą być wykorzystywane przez chatboty, takie jak niedawno uruchomiony asystent AI dla YouTube, do odpowiadania na pytania dotyczące filmów lub ulepszania funkcji, takich jak automatyczna kategoryzacja i oznaczanie rozdziałów filmów.

Pozostałe artykuły