Strona główna » Ai e-book o sztucznej inteligencji » StripedHyena: Nowa architektura dla generatywnej Ai nowej generacji?

StripedHyena: Nowa architektura dla generatywnej Ai nowej generacji?

by kapdes
StripedHyena

StripedHyena

GPT-4 i inne modele opierają się na transformatorach. Dzięki StripedHyena naukowcy przedstawiają alternatywę dla powszechnie stosowanej architektury.

Dzięki StripedHyena zespół Together AI prezentuje rodzinę modeli językowych o 7 miliardach parametrów. Co czyni ją wyjątkową: StripedHyena wykorzystuje nowy zestaw architektur sztucznej inteligencji, które mają na celu poprawę wydajności szkolenia i wnioskowania w porównaniu z powszechnie stosowaną architekturą transformatorową, używaną na przykład w GPT-4.

Wydanie zawiera StripedHyena-Hessian-7B (SH 7B), model bazowy, oraz StripedHyena-Nous-7B (SH-N 7B), model czatu. Modele te zostały zaprojektowane tak, aby były szybsze, bardziej wydajne pod względem pamięci i zdolne do przetwarzania bardzo długich kontekstów do 128 000 tokenów. W projekt zaangażowani byli naukowcy z HazyResearch, hessian.AI, Nous Research, MILA, HuggingFace i Niemieckiego Centrum Badań nad Sztuczną Inteligencją (DFKI).

StripedHyena: wydajna alternatywa dla transformatorów

Według Together AI, StripedHyena jest pierwszym alternatywnym modelem, który może konkurować z najlepszymi transformatorami open-source. Podstawowy model osiąga porównywalną wydajność do Llama-2, Yi i Mistral 7B w zadaniach OpenLLM leaderboard i przewyższa je w podsumowywaniu długiego kontekstu.

Podstawowym elementem modeli StripedHyena jest warstwa modelu przestrzeni stanów (SSM). Tradycyjnie modele SSM były wykorzystywane do modelowania złożonych sekwencji i danych szeregów czasowych. Są one szczególnie przydatne w zadaniach, w których konieczne jest modelowanie zależności czasowych. W ciągu ostatnich dwóch lat naukowcy opracowali jednak coraz lepsze sposoby wykorzystania SSM w modelach sekwencji dla języka i innych dziedzin. Powód: wymagają one mniejszej mocy obliczeniowej.

Rezultat: StripedHyena jest o ponad 30 procent, 50 procent i 100 procent szybsza niż konwencjonalne transformatory w kompleksowym uczeniu sekwencji składających się z 32 000 tokenów, 64 000 tokenów i 128 000 tokenów.

Głównym celem modeli StripedHyena jest przesunięcie granic projektowania architektonicznego poza transformatory.

W przyszłości naukowcy planują zbadać większe modele z dłuższymi kontekstami, wsparciem multimodalnym, dalszymi optymalizacjami wydajności i integracją StripedHyena z potokami wyszukiwania, aby w pełni wykorzystać dłuższy kontekst.

Pozostałe artykuły