Strona główna » Ai e-book o sztucznej inteligencji » Ego-Exo4D, Seamless Communication i Audiobox – nowe projekty Meta

Ego-Exo4D, Seamless Communication i Audiobox – nowe projekty Meta

by kapdes
fair-meta-ai

Z okazji 10-lecia zespołu Meta Fundamental AI Research (FAIR)

prezentuje trzy nowe projekty badawcze: Ego-Exo4D, Seamless Communication i Audiobox.

Ego-Exo4D to zbiór danych i zestaw porównawczy wspierający badania nad sztuczną inteligencją w zakresie uczenia się wideo i percepcji multimodalnej. Zbierany przez ponad dwa lata przez Metas FAIR, Project Aria i 15 partnerów uniwersyteckich z całego świata, Ego-Exo4D rejestruje zarówno „egocentryczne” widoki z kamery uczestnika noszącego zestaw słuchawkowy Project Aria, jak i „egzocentryczne” widoki z otaczających kamer.

Zbiór danych koncentruje się na złożonych czynnościach ludzkich, takich jak sport, muzyka, gotowanie, taniec i naprawa rowerów.

Meta widzi zastosowania w systemach rzeczywistości rozszerzonej (AR)

Gdzie osoba nosząca inteligentne zestawy słuchawkowe mogłaby szybko nauczyć się nowych umiejętności z pomocą wirtualnego trenera AI prowadzącego ją przez film instruktażowy; w uczeniu robotów, gdzie robot obserwujący ludzi wokół niego mógłby nauczyć się nowych umiejętności obsługi przy mniejszym doświadczeniu fizycznym; lub w sieciach społecznościowych, gdzie nowe społeczności mogłyby powstać w oparciu o ludzi dzielących się swoją wiedzą i uzupełniającymi się umiejętnościami w filmach wideo.

Zbiór danych obejmujący ponad 1400 godzin wideo zostanie udostępniony jako open source w grudniu, a na przyszły rok planowany jest publiczny konkurs porównawczy dla Ego-Exo4D.

Seamless Communication ma na celu umożliwienie ekspresyjnych i szybkich tłumaczeń AI
Po tym, jak projekt Seamless Communication zaprezentował w sierpniu multimodalny model tłumaczenia SeamlessM4T, FAIR przedstawia teraz rodzinę modeli badawczych AI, które opierają się na starym modelu, aby umożliwić bardziej naturalną i autentyczną komunikację ponad granicami językowymi.

Projekt składa się z czterech modeli

  • SeamlessExpressive: zachowuje ekspresję i niuanse mowy ponad granicami językowymi.
  • SeamlessStreaming: Dostarcza tłumaczenia mowy i tekstu z opóźnieniem około dwóch sekund.
  • SeamlessM4T v2: Wielojęzyczny i wielozadaniowy model do bezwysiłkowej komunikacji głosowej i tekstowej.
  • Seamless: Łączy możliwości SeamlessExpressive, SeamlessStreaming i SeamlessM4T v2 w jednym modelu.

Meta opublikowała również demo SeamlessExpressive, w którym można przetłumaczyć swój głos.

Audiobox to generatywny model sztucznej inteligencji dla audio

Audiobox to nowy model generowania dźwięku firmy Meta. Jest w stanie generować głosy i efekty dźwiękowe poprzez połączenie wprowadzania głosowego i podpowiedzi tekstowych w języku naturalnym, ułatwiając tworzenie niestandardowych plików audio dla różnych przypadków użycia.

W porównaniu do swojego bezpośredniego poprzednika, Voicebox, Audiobox oferuje lepszą kontrolę, umożliwiając użytkownikom korzystanie z podpowiedzi w języku naturalnym w celu stworzenia pożądanego dźwięku lub rodzaju mowy.

Źródło: seamless.metademolab.com/expressive
ai.meta.com/blog

Pozostałe artykuły