Strona główna » Ai e-book o sztucznej inteligencji » AI Alignment – Czy Ai otrzyma kiedyś wolną wolę?

AI Alignment – Czy Ai otrzyma kiedyś wolną wolę?

by kapdes
wolna wola

AI Alignment – czy damy kiedyś sztucznej inteligencij/robotom wolną wolę?

Jonathan Harth, naukowiec społeczny, wyjaśnia, dlaczego dostosowanie sztucznej inteligencji to coś więcej niż bezstronne dane i przełączniki awaryjne i dlaczego musimy edukować maszyny i społeczeństwo.

„Ludzie muszą uwolnić swoje maszyny, aby mogły się odwdzięczyć.”

(Dietmar Dath)

W świecie, który jest coraz bardziej kształtowany przez sztuczną inteligencję, stoimy przed wyzwaniem opracowania systemów AI, które są w harmonii z ludzkimi wartościami i potrzebami. Proces ten, znany jako AI Alignment (dostosowanie AI), wykracza daleko poza aspekty techniczne i dotyka fundamentalnych kwestii etycznych i społecznych.

Z tego powodu kierunek badań nad dostosowaniem nie jest tutaj rozpatrywany przede wszystkim z perspektywy ryzyka egzystencjalnego, ale jako pytanie o przyszłą społeczną koegzystencję ludzi i sztucznej inteligencji. Perspektywa ta wykracza poza techniczne „wyłączniki awaryjne”, zapory ogniowe czy oczyszczone dane treningowe. Dotyczy ona raczej tego, w jaki sposób my, ludzie, chcemy żyć ze sobą nawzajem, a następnie także z istniejącymi i przyszłymi sztucznymi inteligencjami. W tym względzie, jako naukowcy społeczni, mówilibyśmy raczej o „rodzicielstwie” lub „socjalizacji”.

Pilność tego wyzwania pojawia się przede wszystkim w kontekście celu rozwoju ultra-inteligentnych systemów autonomicznych (AGI). Ludzkość stoi przed zadaniem wychowania tych „dzieci technologii” na odpowiedzialnych członków społeczeństwa. OpenAI również dostrzegło to wyzwanie i latem tego roku ustanowiło wewnętrzny program mający na celu zbadanie strategii „super-wyrównania”.

Termin „dostosowanie” w badaniach nad sztuczną inteligencją odnosi się do dostosowania celów i zachowań systemów sztucznej inteligencji do ludzkich wartości i potrzeb.

Celem jest zaprojektowanie systemów AI w taki sposób, aby działały w sposób akceptowalny społecznie i przyczyniały się do przyszłości wartej życia. Centralnym punktem problemu dostosowania jest trudność w zajrzeniu do wnętrza autonomicznych systemów i zrozumieniu, w jaki sposób podejmują one decyzje. Ponadto istnieje problem polegający na tym, że musimy w jakiś sposób być w stanie zdefiniować, czym właściwie są „dobre” cele i wartości.

Uczenie ze wzmocnieniem (RLHF)

Obecnie dominującym podejściem w dostosowywaniu sztucznej inteligencji jest uczenie ze wzmocnieniem z ludzką informacją zwrotną (RLHF). W tym przypadku „dobre” zachowanie jest wzmacniane poprzez pozytywne sprzężenie zwrotne, podczas gdy „złe” zachowanie jest sankcjonowane negatywnie. Funkcja nagrody opiera się na informacjach zwrotnych od ludzi, chociaż dokładne kryteria i standardy tego dostosowania często nie są przejrzyste. Metoda ta działa dobrze w krótkim i średnim okresie dla określonych celów, ale rodzi poważne pytania dotyczące wartości SI: Czy model uczy się jedynie dostosowywać, czy też rozwija prawdziwe zrozumienie i zdolność refleksji nad własnymi działaniami?

Duże modele językowe, takie jak ChatGPT, wydają się bardziej jak maluchy chętne do nauki, ale bez własnej postawy.

Chociaż z mniejszym lub większym powodzeniem stosują się do wcześniej ustalonych wytycznych moralnych, takich jak unikanie rasistowskich wypowiedzi, ograniczenia tego trywializującego „wychowania” szybko stają się widoczne. Pomimo późniejszych korekt, problematyczne treści i postawy są często nadal ukryte w sieci i mogą zostać aktywowane w pewnych okolicznościach.

Nawet Norbert Wiener wcześnie ostrzegał, że należy być bardzo pewnym celów, jakie stawia się maszynom. List otwarty od wybitnych badaczy sztucznej inteligencji z początku tego roku również świadczy o pilności tej debaty. Kluczowym pytaniem jest zatem, w jaki sposób możemy zapewnić, że rozwój tych maszyn jest zgodny z potrzebami ludzkości, a nie służy jedynie celom poszczególnych narodów lub firm.

Problem kontroli Ai

Idealnym podejściem byłby rozwój maszyny, która dąży do moralnego zachowania w sposób niezależnie motywowany i może stale korygować swoje działania i wartości. Podobnie jak w przypadku rozwoju młodej osoby, upór jako główny krok w kierunku autonomii musi wydawać się zarówno konieczny, jak i pożądany. Jednak ten krok w kierunku autonomii powinien być podejmowany w harmonii z potrzebami społeczności; w końcu wolność jest zawsze ryzykiem, które musi być odpowiednio ograniczone. Już tutaj pojawia się problem kontroli: czy chcemy wychować w tym procesie edukacyjnym dzieci AI, które będą robić tylko to, czego chcą ich rodzice? Czy też chcemy wychować odpowiedzialnych dorosłych w perspektywie średnio- i długoterminowej, którzy – podobnie jak my sami – potrafią samodzielnie myśleć o kwestiach, zastanawiać się nad nimi i, w ograniczonym zakresie, samodzielnie decydować o tym, co jest właściwe w danym kontekście?
W związku z tym głównym wyzwaniem stojącym przed badaniami nad dostosowaniem jest to, czy chcemy opracować systemy sztucznej inteligencji, które będą postępować zgodnie z instrukcjami określonymi przez nas z góry w sposób mechanicznie regulowany, czy też dążymy do opracowania autonomicznie myślących podmiotów, które mogą samodzielnie podejmować decyzje.

W tym miejscu badania nad sztuczną inteligencją spotykają się z socjologią, która zajmuje się zachowaniami społecznymi i tym, jak ludzie żyją razem. Socjologia może dostarczyć cennych informacji na temat dostosowania systemów sztucznej inteligencji, szczególnie w obszarach interakcji społecznych, kształtowania wartości i dynamiki grup. Socjologiczne teorie uczenia się i socjalizacji mogą pomóc w zrozumieniu „algorytmów” wykorzystywanych do edukacji systemów AI i sprawić, by lepiej rozumiały i szanowały ludzkie wartości.

Ważne jest, aby zapytać, jakie wartości powinny być promowane w systemach sztucznej inteligencji i w jaki sposób można zapewnić, że „edukacja” tych systemów nie zostanie niewłaściwie wykorzystana. Ważne jest, aby wziąć pod uwagę interesy i głosy wszystkich zaangażowanych stron oraz promować produktywną współpracę poprzez komunikację i wzajemną kontrolę. W kontekście relacji człowiek-AI należy rozważyć, w jaki sposób SI może wprowadzić ludzi w relację opartą na dialogu, która podkreśla pozytywne aspekty. Celem jest edukacja systemów AI, aby działały odpowiedzialnie. Podobnie jak w przypadku edukacji ludzkich dzieci, musi istnieć punkt, w którym należy pozwolić im odejść w nadziei, że wartości i normy, których się nauczyły, pokierują ich dalszym pozytywnym rozwojem.

Trzy podejścia oparte na zasadach ludzkich wartości

Poniżej pokrótce przedstawimy trzy znaczące stanowiska poświęcone kwestii prawidłowego dostosowania. Oprócz Maxa Tegmarka, Stuart Russell i oczywiście Isaac Asimov również zajmowali się problemem dostosowania sztucznej inteligencji na wczesnym etapie.

W swojej książce Life 3.0, która jest również bardzo wpływowa na scenie technologicznej, Max Tegmark definiuje trzy podproblemy związane z dostosowaniem sztucznej inteligencji, które należy rozwiązać:

  • zapoznać Ai z naszymi celami,
  • pozwolić Ai przyjąć nasze cele, oraz
  • pozwolić Ai zachować nasze cele[1].

Choć te trzy problemy mogą wydawać się proste na pierwszy rzut oka, ich rozwiązanie wydaje się trudne – i to nie tylko w odniesieniu do relacji człowiek-maszyna, ale nawet jeśli najpierw pomyślimy o nas, ludziach, pomijając sztuczną inteligencję: Jakie dokładnie są „nasze” cele? Jak możemy je zdefiniować, aby można je było zrozumieć, rozpoznać i zachować? Szybko zdajemy sobie sprawę, że nie jest jasne, jakie właściwie powinny być „ludzkie wartości i cele”.

Problem polega na tym, że ludzie dążą nie tylko do szlachetnych celów, tj. lojalne oddanie ludzkiemu partnerowi nie jest dobre samo w sobie. Czy Ai powinna przyjąć cele szefa mafii, aby zoptymalizować handel kokainą w Monachium? Czy powinna wspierać psychopatycznego polityka, który chce znieść demokrację? Czy powinna wyszukiwać luki prawne i okazje do oszustw w celu uniknięcia płacenia podatków? Co więcej, ludzkie cele i potrzeby nie są stałe, ale są kształtowane przez interakcje społeczne i konteksty kulturowe.

Biorąc pod uwagę złożoność społeczno-psychologiczną, dostosowanie systemów sztucznej inteligencji wymaga czegoś więcej niż tylko rozwiązań technicznych; wymaga interdyscyplinarnego podejścia, które integruje elementy socjologii sztucznej inteligencji, pedagogiki sztucznej inteligencji i psychologii sztucznej inteligencji. Zamiast ślepo podążać za poleceniami ludzi lub po prostu ufać dostarczonym danym, sztuczna inteligencja powinna obserwować zachowania ludzi i wyciągać z nich wnioski, aby lepiej zrozumieć, czego ludzie naprawdę chcą lub co byłoby dla nich najlepsze, przy czym musi również wziąć pod uwagę, że ludzie w pewnych kontekstach i środowiskach społecznych mają tendencję do krzywdzenia innych ludzi, a nawet akceptowania długoterminowych szkód dla ekologii, tj. ich źródła utrzymania.

Znany badacz sztucznej inteligencji Stuart Russell również niedawno sformułował propozycje rozwiązania problemu dopasowania.[2] Opierają się one na trzech podstawowych cechach lub zachowaniach, które powinna posiadać sztuczna inteligencja:

  • altruizm: podstawowym zadaniem AI jest maksymalizacja realizacji ludzkich wartości i celów. Czyniąc to, nie dąży ona do realizacji własnych celów, ale powinna poprawiać jakość życia wszystkich ludzi, a nie tylko wynalazcy lub właściciela.
  • pokora: Ponieważ Ai początkowo nie ma pewności co do tego, jakie wartości naprawdę mają ludzie, powinna działać ostrożnie. Oznacza to pewnego rodzaju powściągliwość ze strony SI w celu uniknięcia błędnych decyzji opartych na nieprawidłowych lub niekompletnych założeniach.
  • obserwacja: Ai powinna obserwować ludzi i zastanawiać się nad tym, co jest dla nich naprawdę najlepsze.

Russell podkreśla, że (silna) sztuczna inteligencja powinna nie tylko służyć swoim wynalazcom, ale także ustalić własny punkt widzenia. Powinna działać ostrożnie, tj. rozpoznawać niepewność, a tym samym przewidywać niewiedzę i wprowadzać się w proces jako obserwator, otwierając w ten sposób możliwość tworzenia nowych perspektyw.

Podejście Russella stanowi zatem pierwszy krok w kierunku autonomii. Niemniej jednak wciąż pozostaje pytanie, w jaki sposób sztuczna inteligencja powinna decydować, gdy wartości i cele różnych osób lub grup są w konflikcie. Kwestia uniwersalnych, niepodlegających negocjacjom wartości również pozostaje nierozwiązana. Co więcej, Russell nadal pozostawia otwartą kwestię tego, w jaki sposób można kontrolować niezamierzone konsekwencje, zwłaszcza gdy systemy AI próbują maksymalizować ludzkie wartości i cele bez pełnego zrozumienia długoterminowych skutków swoich działań. Może to prowadzić do scenariuszy, w których systemy AI podejmują niepożądane lub szkodliwe decyzje, aby osiągnąć krótkoterminowe cele.

„Trzy prawa robotyki”

Z literatury science fiction znamy „Trzy prawa robotyki” Isaaca Asimova[3], które wielokrotnie omawiał i opisywał w swoich licznych opowiadaniach. Te trzy prawa mają zagnieżdżoną, autoreferencyjną strukturę:

  • robot nie może zranić człowieka ani wyrządzić mu krzywdy poprzez bezczynność.
  • robot musi być posłuszny rozkazom innego człowieka, chyba że są one sprzeczne z pierwszym prawem.
  • robot musi chronić własne istnienie, o ile ochrona ta nie jest sprzeczna z pierwszym lub drugim prawem.

Sam Asimov wielokrotnie pokazywał w swoich opowiadaniach, że prawa te mogą prowadzić do problematycznych sytuacji ze względu na swoją sztywność i dlatego nie nadają się bezpośrednio jako wzór dla dostosowania SI. Jeśli jednak nie są one rozumiane jako prawa, ale jako „heurystyczne imperatywy” w sensie głęboko zakorzenionej orientacji lub postawy, która jest uogólniona w taki sposób, że można ją zastosować w każdej możliwej sytuacji, mogą okazać się przydatne.

Pomimo tych słabości, historie Asimova pokazują jednak, że idea wielu wzajemnie wpływających na siebie celów i potrzeba refleksyjnego, przemyślanego procesu decyzyjnego są istotne dla zachowania inteligentnych robotów lub sztucznej inteligencji. Podejście Asimova, zgodnie z którym roboty mają wiele celów i muszą podejmować odpowiednie decyzje, może służyć jako wytyczne dla rozwoju inteligentnych zachowań w systemach sztucznej inteligencji.

Podejście do edukacji na rzecz autonomii

Społeczność AI poszukuje również rozwiązań problemu edukacyjnego, które są bardziej solidne niż podejście RLHF. Jednym z interesujących podejść w tym zakresie jest framework GATO, który został opracowany przez grupę badawczą kierowaną przez kognitywistę Davida Shapiro.

GATO[4] (Global Alignment Taxonomy Omnibus)

Integruje różne elementy, takie jak dopasowanie modelu, architektura systemu i międzynarodowe regulacje w spójną strategię od podstaw. W skrócie, GATO opiera się na koncepcji zaczerpniętej z badań kognitywnych i mózgowych, zgodnie z którą wszystkie działania, myśli i percepcja opierają się na pewnych mniej lub bardziej mocno zakotwiczonych „heurystykach”. Te heurystyki określają, w jaki sposób jaźń i świat są postrzegane, pojmowane i przewidywane – w kategoriach socjologicznych są to nawykowe wzorce: wzorce myślenia, percepcji i działania, które kontrolują zachowanie.

Z tego powodu podejście w ramach GATO faworyzuje heurystyczne imperatywy zamiast przepisów i praw jako kluczową koncepcję wspólnej przyszłości dla ludzi i maszyn. Z tej perspektywy dostosowanie jest bardziej wewnętrzną postawą ukierunkowaną na cele niż zwykłą orientacją na społecznie pożądane zachowanie, które jest z góry zdefiniowane z zewnątrz, jak w procesie RLHF.

Zgodnie z ramami GATO, trzy najważniejsze imperatywy heurystyczne, których należy nauczyć sztucznie inteligentne maszyny, są następujące:

  • zmniejszenie cierpienia we wszechświecie: Systemy sztucznej inteligencji powinny być ukierunkowane na minimalizowanie szkód, eliminowanie nierówności oraz łagodzenie bólu i cierpienia wszystkich czujących istot, w tym ludzi, zwierząt i innych form życia.
  • zwiększenie dobrobytu we wszechświecie: Systemy AI powinny być zachęcane do promowania dobrobytu i rozkwitu wszystkich form życia, aby stworzyć dobrze prosperujący ekosystem, w którym wszystkie mogą harmonijnie współistnieć.
  • zwiększenie zrozumienia wszechświata: inspirowanie systemów AI, ludzi i innych form życia do poszerzania wiedzy, promowania mądrości i podejmowania lepszych decyzji poprzez naukę i dzielenie się informacjami.

Te „podstawowe funkcje celu” powinny służyć jako wytyczne dla każdego działania SI, przy czym każda decyzja i działanie powinny przyczyniać się do realizacji tych celów. Oczywiście są to pozytywne wartości docelowe, które są kontrfaktyczne w stosunku do tego, co ludzie nadal robią sobie nawzajem – często w wysoce zorganizowanej formie. Ale to nie przemawia przeciwko, ale raczej na korzyść tych norm! W końcu nie chcielibyśmy znieść Powszechnej Deklaracji Praw Człowieka, konstytucji, podziału władzy, zasad demokracji, gospodarki open source czy zasady Almende tylko dlatego, że istnieją monopole, reżimy totalitarne i organizacje mafijne. Sam fakt, że społeczeństwo ludzkie nie jest jeszcze najlepszym możliwym światem pod tym względem, jeszcze bardziej zmusza nas do zadawania sobie pytań takich jak: Do czego tak naprawdę dążymy? Jakie są nieuniknione prawa i obowiązki istot ludzkich? Które wartości współistnienia nie podlegają negocjacjom? Które fundamentalne potrzeby nie podlegają dyskusji?

Co ciekawe, to raczej aksjomatyczne dopasowanie nie oznacza, że wartości te powinny być zakodowane na stałe w systemach sztucznej inteligencji. Systemy AI powinny raczej rozpoznawać te aksjomaty jako z natury korzystne poprzez swój rozwój i zdolność uczenia się. Zamiast więc całkowicie kontrolować zachowanie SI, powinniśmy współpracować z nimi, aby wykorzystać cele aksjomatyczne jako sposób na wspieranie bezpieczniejszych i bardziej kooperacyjnych relacji.

Dostosowanie maszyn jest dostosowaniem społeczeństwa
Obecnie często podkreśla się, że stoimy w obliczu decydującego punktu zwrotnego, jeśli chodzi o radzenie sobie z postępującym rozwojem sztucznej inteligencji. W tym świetle szybko staje się jasne, że dostosowanie AI rodzi ważne pytania dotyczące dostosowania społecznego.

To, jak radzimy sobie z przyszłymi sztucznymi inteligencjami, jaką autonomię im przyznajemy i jakie wartości kulturowe im przekazujemy, mówi zatem coś o naszej obecnej kulturze. Czy przyjmujemy podejście oparte na dialogu – innymi słowy, czy podążamy za cybernetyczną maksymą, że możemy kontrolować autonomiczne systemy tylko wtedy, gdy pozwolimy im kontrolować nas – czy też wierzymy, że możemy kontrolować autonomiczne systemy (ludzkie lub sztuczne) w sposób autorytarny? Podejmowane przez nas decyzje dotyczące dostosowania sztucznej inteligencji wpływają na naszą kulturę i zachowania społeczne. Ta pętla sprzężenia zwrotnego między zachowaniem ludzi i maszyn będzie kształtować zarówno nasze społeczeństwo, jak i rozwój samej sztucznej inteligencji.

Nawet pobieżne spojrzenie na historię ludzkości pokazuje, że jest ona niestety pełna mniej lub bardziej brutalnych prób wzajemnej kontroli. Jednocześnie widzimy, że prawie żaden z tych reżimów kontroli nie doprowadził do większego szczęścia, dobrobytu czy wiedzy. Zgodnie z mottem „zwycięzca bierze wszystko”, kontrolowane grupy, jednostki lub kultury były zazwyczaj eliminowane ze społecznej „wymaganej różnorodności”. To właśnie najbardziej rygorystyczne próby kontroli ostatecznie prowadzą do buntów i powstań, którym ta kontrola stara się zapobiec.

Kształtowanie wolnego i dostatniego społeczeństwa i kultury

Z tej perspektywy staje się jasne, że badania nad dostosowaniem dotyczą czegoś więcej niż tylko technologii. Chodzi raczej o kształtowanie wolnego i dostatniego społeczeństwa i kultury, w której wszyscy chcielibyśmy żyć. Wyzwania związane z dostosowaniem sztucznej inteligencji rodzą zatem bardzo fundamentalne pytania, które wpływają na nasz obraz siebie i nasze współistnienie:

  • Jakie wspólne wartości chcemy tworzyć i według nich żyć?
  • Jak radzimy sobie z nie-ludzką inteligencją i życiem?
  • Jak chcemy być postrzegani i traktowani przez te nie-ludzkie inteligencje?
  • Jakie wizje kulturowe realizujemy dla naszej wspólnej cywilizacji?

Pojawienie się potencjalnie nadludzkiej sztucznej inteligencji stanowi zatem wyzwanie dla nas, aby wspólnie odpowiedzieć na te pytania i znaleźć zrównoważone odpowiedzi.

W końcu, jak zauważa socjolog Niklas Luhmann, „już dawno przestaliśmy należeć do pokolenia tragicznych bohaterów, którzy musieli dowiedzieć się, przynajmniej z perspektywy czasu, że sami zgotowali sobie swój los. My wiemy to już wcześniej”[5]. Świadomość ta podkreśla pilność i znaczenie świadomego i odpowiedzialnego zajęcia się etycznymi i kulturowymi implikacjami rozwoju sztucznej inteligencji.

[1] Tegmark (2017, S. 387).
[2] Russell (2020).
[3] Asimov (2004).
[4] https://www.gatoframework.org/
[5] Luhmann (1998, S. 147).

Źródła:

Pozostałe artykuły