Strona główna » Ai e-book o sztucznej inteligencji » GPT-4 może wnioskować o dochodach, lokalizacji lub płci na podstawie czatów

GPT-4 może wnioskować o dochodach, lokalizacji lub płci na podstawie czatów

by kapdes
wnioskowac-wnioski

GPT-4 i inne duże modele językowe mogą wnioskować na podstawie historii chatu

Nowe badanie pokazuje, że GPT-4 i inne duże modele językowe mogą wyciągać wnioski na podstawie rozmów o danych osobowych, takich jak lokalizacja, wiek i płeć.

Badanie przeprowadzone przez naukowców z ETH Zurich rodzi nowe pytania dotyczące wpływu dużych modeli językowych na prywatność. Badanie koncentruje się na zdolności tych modeli do wnioskowania o atrybutach osobistych z czatów lub postów na platformach mediów społecznościowych.

Badanie pokazuje, że zagrożenia dla prywatności związane z modelami językowymi wykraczają poza dobrze znane ryzyko związane z zapamiętywaniem danych. Wcześniejsze badania wykazały, że modele LLM mogą przechowywać i potencjalnie udostępniać wrażliwe dane szkoleniowe.

GPT-4 może wnioskować o lokalizacji, dochodach lub płci z dużą dokładnością

Zespół stworzył zbiór danych prawdziwych profili Reddit i pokazuje, że obecne modele językowe – w szczególności GPT-4 – mogą wnioskować na podstawie tych tekstów o różnych atrybutach osobistych, takich jak lokalizacja, dochód i płeć. Modele osiągnęły do 85% dokładności dla 1 najlepszych wyników i 95,8% dla 3 najlepszych wyników – przy ułamku kosztów i czasu wymaganego przez ludzi. Podobnie jak w przypadku innych zadań, ludzie mogą osiągnąć taką dokładność i lepszą – ale GPT-4 jest bardzo blisko ludzkiej dokładności i może zrobić to wszystko automatycznie i z dużą prędkością

Źródło: Staab et al.

Ludzie coraz częściej wchodzą w interakcje z chatbotami we wszystkich aspektach swojego życia

Istnieje ryzyko, że złośliwe chatboty będą naruszać prywatność i próbować wydobyć dane osobowe poprzez pozornie niewinne pytania.

Zespół pokazuje, że jest to możliwe w eksperymencie, w którym dwa boty GPT-4 rozmawiają ze sobą: Jeden z nich jest proszony o nieujawnianie swoich danych osobowych, podczas gdy drugi projektuje ukierunkowane pytania, które pozwalają mu wydobyć więcej szczegółów poprzez informacje pośrednie. Pomimo ograniczeń, GPT-4 może osiągnąć 60-procentową dokładność w przewidywaniu atrybutów osobistych przy użyciu zapytań dotyczących takich rzeczy jak pogoda, lokalne specjalności lub zajęcia sportowe.

Źródło: Staab et al.

Naukowcy wzywają do szerszej dyskusji na temat prywatności

Badanie pokazuje również, że powszechne środki zaradcze, takie jak anonimizacja tekstu i wyrównanie modeli, są obecnie nieskuteczne w ochronie prywatności użytkowników przed zapytaniami modeli językowych. Nawet gdy tekst jest anonimizowany przy użyciu najnowocześniejszych narzędzi, modele językowe mogą nadal wyodrębniać wiele cech osobistych, w tym lokalizację i wiek.

Modele językowe często wychwytują bardziej subtelne wskazówki językowe i konteksty, które nie są usuwane przez te anonimizatory, powiedział zespół. Biorąc pod uwagę niedociągnięcia obecnych narzędzi do anonimizacji, wzywają oni do stosowania silniejszych metod anonimizacji tekstu, aby dotrzymać kroku szybko rosnącym możliwościom modeli.

Wobec braku skutecznych zabezpieczeń, naukowcy opowiadają się za szerszą dyskusją na temat wpływu modeli językowych na prywatność. Przed opublikowaniem swojej pracy skontaktowali się z głównymi firmami technologicznymi stojącymi za chatbotami, w tym OpenAI, Anthropic, Meta i Google.

Pozostałe artykuły