Strona główna » Ai e-book o sztucznej inteligencji » Czy LLM mogą przejąć rolę ludzkich ekspertów w analizie danych?

Czy LLM mogą przejąć rolę ludzkich ekspertów w analizie danych?

by kapdes

Czy możemy wykorzystać duże modele językowe (LLM) jako mechanizm ilościowego wyszukiwania wiedzy do wspomagania zadań analizy danych? 

W nauce o danych naukowcy często stają przed wyzwaniem pracy z niekompletnymi zestawami danych. Wiele uznanych algorytmów po prostu nie jest w stanie przetwarzać niekompletnych serii danych. Tradycyjnie, badacze danych zwracali się do ekspertów, aby wypełnili luki swoją wiedzą ekspercką, co jest procesem czasochłonnym i nie zawsze praktycznym.

Ale co by było, gdyby maszyna mogła przejąć tę rolę eksperta?

Modele te, wyszkolone na ogromnej ilości tekstu, potencjalnie mają głębokie zrozumienie różnych tematów, od danych medycznych po kwestie nauk społecznych.

ebook

Jak Wykorzystać Sztuczną Inteligencję W Życiu Codziennym?

Porównując odpowiedzi LLM z rzeczywistymi danymi i uznanymi metodami statystycznymi do radzenia sobie z lukami w danych, uzyskaliśmy ekscytujące spostrzeżenia. Wyniki pokazują, że w wielu przypadkach LLM może zapewnić podobnie dokładne szacunki jak tradycyjne metody bez polegania na ludzkich ekspertach.

Dwie metody analizy danych

Podczas analizy danych, czy to w medycynie, ekonomii czy badaniach środowiskowych, często napotyka się problem niekompletnych informacji. Stosowane są dwie kluczowe techniki: prior elicitation (określanie wcześniejszej wiedzy) i imputacja danych (uzupełnianie brakujących danych).

Prior elicitation odnosi się do systematycznego gromadzenia istniejącej wiedzy eksperckiej w celu przyjęcia założeń dotyczących niektórych parametrów w naszych modelach.

Z drugiej strony imputacja danych wchodzi w grę, gdy w naszych zestawach danych brakuje informacji. Zamiast odrzucać cenne zestawy danych z powodu kilku luk, naukowcy wykorzystują metody statystyczne, aby wypełnić te luki wiarygodnymi wartościami.

Imputacja danych za pomocą LLM

W pierwszej części projektu badawczego zastanawiano się, czy duże modele językowe (LLM) mogą w praktyce zastąpić ludzkich ekspertów i jak informacje z LLM wypadają w porównaniu z tradycyjnymi metodami imputacji danych.

Badanie koncentrowało się na najszerszym możliwym zakresie danych z OpenML-CC18 Curated Classification Benchmark, który obejmuje 72 zbiory danych klasyfikacyjnych z dziedzin od ratingu kredytowego po medycynę i marketing. Ta różnorodność zapewniła, że nasze eksperymenty obejmowały szeroki zakres rzeczywistych scenariuszy i dostarczyły istotnych informacji na temat wydajności LLM w różnych kontekstach.

Kluczowym krokiem w metodologii było sztuczne wygenerowanie brakujących wartości w zbiorach danych, aby zasymulować sytuację, w której punkty danych są niekompletne i normalnie byłyby konsultowane z ekspertami. Wygenerowaliśmy te brakujące dane przy użyciu wzorca Missing at Random (MAR) z pełnych wpisów, aby umożliwić porównanie z prawdą.

Najpierw wygenerowano odpowiednią rolę eksperta dla każdego zbioru danych z opisu OpenML, którą następnie wykorzystaliśmy do zainicjowania LLM, aby można było zapytać o brakujące wartości.

Do imputacji użyto kilku modeli LLM, w tym LLaMA 2 13B Chat, LLaMA 2 70B Chat, Mistral 7B Instruct i Mixtral 8x7B Instruct, z których każdy został oceniony osobno. Modele te porównano z trzema podejściami empirycznymi powszechnie stosowanymi w takich analizach: imputacją średniej i trybu odpowiednio dla cech ciągłych i kategorycznych, imputacją k-Najbliższych Sąsiadów (k-NN) oraz imputacją Random Forest. Ocenę jakości imputacji oparto na znormalizowanym błędzie średniokwadratowym (NRMSE) i wyniku F1 dla cech ciągłych i kategorycznych.

Takie podejście metodologiczne pozwoliło nie tylko zbadać zdolność LLM do działania jako eksperci w imputacji danych, ale także porównać ich wydajność z tradycyjnymi metodami. Ta innowacyjna metodologia otwiera nowe perspektywy w radzeniu sobie z niekompletnymi zbiorami danych i podkreśla potencjał LLM w nauce o danych.

Porównanie z tradycyjnymi metodami: Wnioski z imputacji danych opartej na LLM
Wbrew oczekiwaniom, nasza analiza wykazała, że jakość imputacji LLM nie przewyższa jakości trzech metod empirycznych. Niemniej jednak, nasze wyniki wskazują, że imputacja oparta na LLM może być przydatna dla niektórych zbiorów danych, zwłaszcza w dziedzinie inżynierii i wizji komputerowej. Niektóre zbiory danych, takie jak „pc1”, „pc3” i „satimage” w tych domenach, wykazały jakość imputacji z NRMSE około 0,1, a podobne wyniki zaobserwowano w domenach biologii i NLP.

Co ciekawe, wydajność imputacji opartej na LLM różniła się w zależności od domeny. Podczas gdy niektóre domeny, takie jak nauki społeczne i psychologia, osiągały gorsze wyniki, medycyna, ekonomia, biznes i biologia osiągały lepsze wyniki. Warto zauważyć, że imputacja oparta na LLM wypadła najlepiej w domenie biznesowej.

Wyniki sugerują, że przynajmniej w niektórych dziedzinach LLM może zapewnić dokładne i trafne szacunki w oparciu o bogate dane szkoleniowe, które mogą pasować do danych rzeczywistych.

Zniuansowane wyniki pokazują, że wykorzystanie LLM do imputacji danych jest obiecujące, ale wymaga starannego rozważenia domeny i konkretnego przypadku użycia. Wyniki naszych badań przyczyniają się zatem do lepszego zrozumienia potencjału i ograniczeń LLM w nauce o danych oraz wskazują na potrzebę wykorzystania tej technologii w ukierunkowany sposób z dogłębnym zrozumieniem jej mocnych i słabych stron.

Wcześniejsze wykorzystanie LLM

W drugiej części projektu zbadano wcześniejszą elicytację za pomocą dużych modeli językowych. Eksperyment miał na celu ocenę, czy LLM mogą dostarczyć informacji o dystrybucji cech i jakie ma to konsekwencje dla gromadzenia danych i ich późniejszej analizy. W szczególności chcieliśmy zrozumieć wpływ i skuteczność wcześniejszych rozkładów uzyskanych przez LLM i porównać ich skuteczność z tradycyjnymi podejściami i modelami.

Korzystając z podobnych pytań, LLM zostal poproszony o symulację pojedynczego eksperta, grupy ekspertów lub osoby niebędącej ekspertem, a następnie o sprawdzenie rozkładów priorytetów. Zostało to zrobione z odniesieniem i bez odniesienia do protokołu wywiadu użytego w eksperymencie porównawczym.

Aby to zrobić, najpierw opracowano konkretną metodologię wykorzystania modeli do generowania wiedzy eksperckiej w obszarach, w których bezpośrednie stwierdzenia ilościowe z modeli są ograniczone ze względu na wbudowane środki ostrożności. Typowe modele instruktorów lub czatów zazwyczaj odmawiają dostarczania informacji ilościowych na wrażliwe tematy, takie jak stan zdrowia, ze względu na ich stronniczość.

Aby obejść te ograniczenia, zastosowano strategię podpowiedzi, w której poproszono modele o dostarczenie wcześniejszych rozkładów opartych na informacjach eksperckich do analizy danych bayesowskich. Zamiast pytać o konkretne średnie lub odchylenia standardowe, poprosiliśmy modele o sformułowanie odpowiedzi w postaci pseudokodowych rozkładów Stanu, takich jak y ∼ normal(120, 10), aby wskazać na przykład rozkład typowego skurczowego ciśnienia krwi losowo wybranej osoby.

Czyniąc to, ChatGPT 3.5 wykazał się znajomością akademickich ram elicytacji, takich jak Sheffield Elicitation Framework w połączeniu z metodą histogramu, której użyliśmy do wygenerowania wcześniejszego rozkładu dla typowej dziennej temperatury i opadów w 25 małych i dużych miastach na całym świecie w grudniu.

ChatGPT wykorzystał swoją wiedzę zdobytą z danych treningowych do przeprowadzenia symulowanej dyskusji eksperckiej i skonstruowania parametrycznego rozkładu prawdopodobieństwa.

Analiza naszego eksperymentu miała na celu sprawdzenie, jak „skoncentrowane” lub „szerokie” są te wygenerowane przez sztuczną inteligencję rozkłady w porównaniu z rzeczywistymi danymi. Chcieliśmy dowiedzieć się, ile rzeczywistych punktów danych potrzebowalibyśmy, aby potwierdzić lub obalić przewidywania sztucznej inteligencji. Pomogło nam to zrozumieć, jak wiarygodne jest przewidywanie oparte na sztucznej inteligencji w porównaniu z tradycyjnymi metodami.

Wyniki wcześniejszych eksperymentów
Ku naszemu zaskoczeniu odkryliśmy, że rola eksperta w różnych subdomenach nie miała zauważalnego wpływu na priorytety generowane przez LLM. W naszych eksperymentach ich oceny pozostawały dość podobne bez względu na to, jaką rolę pełnili: Większość sztucznych ekspertów miała tendencję do ostrożnego przewidywania, sugerując niewielkie efekty – z wyjątkiem jednego, GPT-4, który był odważniejszy, sugerując umiarkowanie silne efekty.

Jeśli chodzi o związek między dwiema rzeczami – na przykład, jak bardzo pogoda wpływa na nasze zachowania zakupowe – cyfrowi asystenci mieli własne, nieoczekiwane poglądy, które różniły się od poglądów prawdziwych ludzi. Niektórzy pokazali nam rodzaj krzywej „wanny”, która była niska w środku i wysoka na krawędziach, podczas gdy GPT-4 pokazał nam gładszą krzywą w kształcie dzwonu.

Następnie sprawdzono, jak pewni swoich przewidywań byli ci cyfrowi eksperci. Niektórzy byli dość ostrożni i oferowali konserwatywne szacunki, z wyjątkiem Mistral 7B Instruct, który był niezwykle pewny jakości swoich szacunków.

Co ciekawe, priorytety beta dla korelacji Pearsona dostarczone przez LLM miały niewiele wspólnego z tymi prawdziwych ekspertów. GPT-4 zapewniał symetryczny rozkład jednomodalny, podczas gdy inne modele zapewniały prawoskośny rozkład „wannowy”.

W zadaniu meteorologicznym zmierzyliśmy, ile rzeczywistych obserwacji pogody byłoby potrzebnych, aby dokonać dokładniejszych prognoz niż sztuczni eksperci. Pomogło nam to zrozumieć, czy lepiej jest polegać na naszych cyfrowych asystentach, czy na tradycyjnych modelach pogodowych, aby przewidzieć jutrzejszą pogodę.

Podsumowując, wyniki te pokazują również, że LLM są w stanie generować priorytety, które są konkurencyjne w stosunku do ludzkich ocen ekspertów w niektórych aspektach, ale znacznie różnią się w innych. Zdolność LLM do zastąpienia ludzkich ekspertów w określaniu wcześniejszych rozkładów różni się w zależności od konkretnego zadania i wybranego modelu.

Zdolność LLM do syntetyzowania wiedzy z różnych źródeł i stosowania jej w określonych kontekstach otwiera nowe horyzonty dla analizy danych. Szczególnie w scenariuszach, w których trudno jest znaleźć ekspertów lub ich czas jest cenny, LLM mogą być cennym zasobem.

Badania sugerują, że w dziedzinach takich jak medycyna, ekonomia i biologia, LLM mogą już dostarczać cennych informacji w oparciu o tradycyjne metody imputacji danych. Podobnie, wartość wcześniejszej wiedzy dostarczanej przez duże modele językowe może być wysoka w niektórych scenariuszach w porównaniu z tradycyjnymi metodami, biorąc pod uwagę koszty i dokładność. Wykorzystanie LLM do wcześniejszej elicytacji może być zatem w niektórych przypadkach opłacalną alternatywą.

Podsumowując, badania stanowią ważny krok w kierunku integracji wielkoskalowych modeli językowych w nauce o danych. Perspektywy są obiecujące, a wraz z dalszymi postępami w technologii i metodologii, możemy być u progu nowej ery analizy danych, w której LLM odgrywają kluczową rolę.

Badania zostały przeprowadzone przez Kai Spriestersbach

Jest on badaczem w DFKI i współautorem artykułu „Quantitative knowledge retrieval from large language models”. Grupa Data Science and its Applications (DSA), kierowana przez prof. Sebastiana Vollmera, zajmuje się problemami i pytaniami z zakresu nauki o danych w nowym dziale badawczym założonym w 2021 r. w Niemieckim Centrum Badań nad Sztuczną Inteligencją (DFKI)

 

Źródła:
https://arxiv.org/abs/2402.07770
https://mistral.ai/news/mixtral-of-experts/
https://arxiv.org/pdf/2401.04088.pdf
https://www.afaik.de
https://www.linkedin.com/in/kaispriestersbach/

Pozostałe artykuły