Strona główna » Ai e-book o sztucznej inteligencji » Evo – sztuczna inteligencja do badań biologicznych

Evo – sztuczna inteligencja do badań biologicznych

by kapdes
evo

Zespół TogtherAI i Arc Institute prezentuje Evo

Model sztucznej inteligencji do badań biologicznych, który może interpretować DNA, RNA i białka oraz umożliwiać generatywne projektowanie na poziomie molekularnym i genomicznym.

Opracowany przez zespół ekspertów składający się z Erica Nguyena, Michaela Poli, Matthew Durranta, Patricka Hsu i Briana Hie, model stanowi kamień milowy w przetwarzaniu i analizie danych biologicznych. Wykorzystując zmodyfikowaną wersję architektury StripedHyena, Evo jest unikalny w swojej zdolności do interpretowania podstawowych „języków” biologicznych – DNA, RNA i białek – w celu przewidywania i umożliwienia generatywnego projektowania od poziomu molekularnego do genomowego.

Nowa architektura umożliwia Evo modelowanie długich kontekstów i przetwarzanie ponad 650 000 tokenów.

Jest to szczególnie ważne dla biologicznych modeli sztucznej inteligencji, ponieważ sekwencje DNA mogą być niezwykle długie (do miliardów nukleotydów), a wysoka czułość jest wymagana do zrozumienia skutków ewolucji opartej na zmianach pojedynczych nukleotydów. Evo działa na poziomie nukleotydów, rozpoznając i interpretując najmniejsze bloki budulcowe DNA i RNA. Evo może przetwarzać sekwencje o długości do 131 kilobaz (131 000 zasad).

„Evo stara się wskazać drogę w kierunku ujednoliconego i fundamentalnego modelowania biologii”

– mówi Michael Poli, współautor Evo i StripedHyena. Podobnie jak modele językowe, Evo wykorzystuje predykcję następnego tokena, czyli przewidywanie następnego tokena podczas treningu – w tym przypadku na poziomie nukleotydów. „Problemem do tej pory, dlaczego tego nie zrobiono, jest to, że sekwencje są niezwykle długie, jeśli chcesz uchwycić znaczące właściwości DNA, a także uczenie się w wysokiej rozdzielczości jest dość trudne dla transformatorów” – mówi Poli. Nawiązuje on do tokenizerów, które konwertują tekst na tokeny w modelach językowych i są często odpowiedzialne za problemy z wydajnością LLM, ponieważ zwykle nie działają na poziomie znaków, ale raczej konwertują części słów lub wiele liczb na token.

ebook

Jak Wykorzystać Sztuczną Inteligencję W Życiu Codziennym?

Zespół był również w stanie odtworzyć to w swoich eksperymentach podczas szkolenia modeli Transfomer i innych architektur, takich jak Mamba. „Cóż, niesamowite jest to, że te architektury głębokiego przetwarzania sygnałów wydają się lepiej skalować” – mówi Poli. „Nie chodzi tylko o to, że mogą przetwarzać te dłuższe sekwencje, a następnie radzą sobie równie dobrze jak transformatory. To tak, jakby skalowały się lepiej na flop. Uważam, że są to po prostu lepsze architektury niż transformatory”.

Evo jest podstawowym modelem dla biologii

Evo został wytrenowany na dużej bazie danych zawierającej 2,7 miliona genomów prokariotycznych, co stanowi ułamek publicznie dostępnych danych genomicznych. Model był trenowany w dwóch etapach. W pierwszej fazie został wytrenowany z długością kontekstu wynoszącą 8 000 par zasad; w drugiej fazie długość kontekstu została zwiększona do 131 000 par zasad. Pozwala to modelowi rozpoznawać wzorce i przewidywać znacznie dłuższe sekwencje DNA niż poprzednie metody. Odpowiedni zbiór danych treningowych, OpenGenome, zostanie wkrótce udostępniony publicznie.

Wczesne eksperymenty z Evo wykazują potencjał dla kilku zastosowań, w tym przewidywania żywotnych genów organizmu na podstawie małych mutacji DNA. Zdolność ta mogłaby zastąpić tradycyjne eksperymenty laboratoryjne, które według zespołu mogą często trwać miesiącami.
W testach był w stanie konkurować z wiodącymi modelami językowymi specyficznymi dla białek, aby przewidzieć wpływ mutacji na funkcję białek E. coli. Evo może również przewidywać właściwości funkcjonalne niekodujących RNA (ncRNA) i wnioskować o ekspresji genów z regulacyjnego DNA.

Ponadto Evo może generować złożone systemy molekularne

Takie jak kompleksy CRISPR-Cas i elementy transpozycyjne. Evo może również generować sekwencje DNA dłuższe niż 650 kilobaz, o rząd wielkości większe niż poprzednie metody. Ponadto, podczas gdy poprzednie modele generatywne zazwyczaj koncentrują się na pojedynczej modalności, Evo jest w stanie zaprojektować duże funkcjonalne kompleksy białek i ncRNA.

Evo rodzi pytania etyczne, na które należy odpowiedzieć

Zespół Evo postrzega swój model jako potencjalny kamień milowy w modelowaniu sekwencji biologicznych, z potencjalnymi zastosowaniami w tak różnych dziedzinach, jak chemia, materiałoznawstwo, odkrywanie leków, rolnictwo i zrównoważony rozwój. Jednak według zespołu praktyczne zastosowanie wygenerowanych sekwencji będzie wymagało dalszej walidacji.

Evo jest pierwszym tego typu systemem, który może przewidywać i generować sekwencje DNA na poziomie całego genomu, z rozdzielczością pojedynczego nukleotydu. „Przyszłe możliwości, które wyłonią się z wielkoskalowych modeli DNA, takich jak Evo, również wymagają dodatkowej pracy, aby zapewnić, że możliwości te zostaną wdrożone bezpiecznie i z korzyścią dla ludzkości” – czytamy we wpisie na blogu.

Istnieją obawy dotyczące potencjalnego niewłaściwego wykorzystania, niesprawiedliwości społecznej i zdrowotnej oraz degradacji środowiska. Zespół sugeruje opracowanie kompleksowych wytycznych dotyczących praktyk etycznych, promowanie przejrzystości oraz wspieranie międzynarodowej współpracy i partnerstw, które mogłyby przyczynić się do odpowiedzialnego wykorzystania i rozwoju narzędzi takich jak Evo.

Pozostałe artykuły