Strona główna » Ai e-book o sztucznej inteligencji » Sztuczna inteligencja, a test Turinga

Sztuczna inteligencja, a test Turinga

by kapdes
test-turinga

Jeśli sztuczna inteligencja sprawia, że test Turinga staje się przestarzały, co może być lepsze?

Jeśli maszyna lub program AI dorównuje lub przewyższa ludzką inteligencję, czy oznacza to, że może doskonale symulować człowieka? Jeśli tak, to co z rozumowaniem – naszą zdolnością do stosowania logiki i racjonalnego myślenia przed podjęciem decyzji? Jak moglibyśmy w ogóle określić, czy program AI potrafi rozumować?

Aby spróbować odpowiedzieć na to pytanie, zespół naukowców zaproponował nowe ramy, które działają jak badanie psychologiczne oprogramowania.

Test Turinga

Ten test traktuje inteligentny program tak, jakby był uczestnikiem badania psychologicznego i składa się z trzech etapów:

  • testuje program w zestawie eksperymentów badających jego wnioskowanie,
  • testuje jego zrozumienie własnego sposobu rozumowania
  • bada, jeśli to możliwe, adekwatność poznawczą kodu źródłowego programu

Naukowcy sugerują, że standardowe metody oceny inteligencji maszyny, takie jak test Turinga, mogą jedynie powiedzieć, czy maszyna jest dobra w przetwarzaniu informacji i naśladowaniu ludzkich reakcji.

Obecne generacje programów sztucznej inteligencji, takie jak LaMDA Google i ChatGPT OpenAI, na przykład, zbliżyły się do zdania testu Turinga, ale wyniki testu nie sugerują, że programy te mogą myśleć i rozumować jak ludzie.

Dlatego też, zdaniem naukowców, test Turinga może nie być już istotny i istnieje potrzeba nowych metod oceny, które mogłyby skutecznie ocenić inteligencję maszyn. Twierdzą oni, że ich ramy mogą być alternatywą dla testu Turinga. „Proponujemy zastąpienie testu Turinga bardziej ukierunkowanym i fundamentalnym testem, aby odpowiedzieć na pytanie: czy programy rozumują w sposób, w jaki rozumują ludzie?” – argumentują autorzy badania. [źródło]

Co jest nie tak z testem Turinga?

Podczas testu Turinga oceniający grają w różne gry polegające na komunikacji tekstowej z prawdziwymi ludźmi i programami AI (maszynami lub chatbotami). Jest to ślepy test, więc oceniający nie wiedzą, czy piszą z człowiekiem, czy z chatbotem. Jeśli programy AI z powodzeniem generują odpowiedzi podobne do ludzkich – do tego stopnia, że oceniający mają trudności z odróżnieniem człowieka od programu AI – uznaje się, że sztuczna inteligencja zdała test. Ponieważ jednak test Turinga opiera się na subiektywnej interpretacji, wyniki te są również subiektywne.

Naukowcy sugerują, że istnieje kilka ograniczeń związanych z testem Turinga. Na przykład, każda z gier rozgrywanych podczas testu to gry imitacyjne zaprojektowane w celu sprawdzenia, czy maszyna może naśladować człowieka. Oceniający podejmują decyzje wyłącznie na podstawie języka lub tonu otrzymywanych wiadomości. ChatGPT świetnie naśladuje ludzki język, nawet w odpowiedziach, w których podaje nieprawidłowe informacje. Tak więc test wyraźnie nie ocenia rozumowania i zdolności logicznych maszyny.

Wyniki testu Turinga nie mogą również powiedzieć, czy maszyna potrafi introspekować.

Często myślimy o naszych przeszłych działaniach i zastanawiamy się nad naszym życiem i decyzjami, co jest kluczową umiejętnością, która zapobiega powtarzaniu tych samych błędów. To samo odnosi się również do sztucznej inteligencji, zgodnie z badaniem przeprowadzonym na Uniwersytecie Stanforda, które sugeruje, że maszyny zdolne do autorefleksji są bardziej praktyczne dla ludzi.

„Agenci sztucznej inteligencji, którzy mogą wykorzystać wcześniejsze doświadczenia i dobrze się dostosować, skutecznie eksplorując nowe lub zmieniające się środowiska, doprowadzą do znacznie bardziej adaptacyjnych, elastycznych technologii, od robotyki domowej po spersonalizowane narzędzia do nauki” – powiedział Nick Haber, adiunkt z Uniwersytetu Stanforda, który nie był zaangażowany w obecne badanie.

Test Turinga nie analizuje zdolności programu AI do myślenia.

W niedawnym eksperymencie testu Turinga, GPT-4 był w stanie przekonać oceniających, że w ponad 40 procentach przypadków pisał SMS-y z ludźmi. Wynik ten nie odpowiada jednak na podstawowe pytanie: Czy program AI potrafi myśleć?

Alan Turing, słynny brytyjski naukowiec, który stworzył Test Turinga, powiedział kiedyś: „Komputer zasługiwałby na miano inteligentnego, gdyby mógł oszukać człowieka, by uwierzył, że jest człowiekiem”. Jego test obejmuje jednak tylko jeden aspekt ludzkiej inteligencji: imitację. Chociaż możliwe jest oszukanie kogoś za pomocą tego jednego aspektu, wielu ekspertów uważa, że maszyna nigdy nie osiągnie prawdziwej ludzkiej inteligencji bez uwzględnienia innych aspektów.

„Nie jest jasne, czy zdanie testu Turinga jest znaczącym kamieniem milowym, czy nie. Nie mówi nam nic o tym, co system może zrobić lub zrozumieć, nic o tym, czy ustanowił złożone wewnętrzne monologi lub może zaangażować się w planowanie w abstrakcyjnych horyzontach czasowych, co jest kluczem do ludzkiej inteligencji” – powiedział Bloombergowi Mustafa Suleyman, ekspert AI i założyciel DeepAI.

Alternatywa dla testu Turinga

Autorzy badania, Philip Johnson-Laird, emerytowany profesor psychologii z Uniwersytetu Princeton i Marco Ragni, badacz z niemieckiego Chemnitz University of Technology, dostrzegli te ograniczenia i opracowali trzyetapową strukturę, która może potencjalnie zastąpić test Turinga. Proponują oni, aby program sztucznej inteligencji był uważany za odpowiednik człowieka pod względem inteligencji tylko wtedy, gdy jest w stanie sprostać następującym trzem wyzwaniom:


Krok 1: Seria eksperymentów psychologicznych.

Naukowcy sugerują poddanie programu AI licznym testom psychologicznym mającym na celu przetestowanie ludzkiego rozumowania i logicznego myślenia oraz postawienie go w sytuacjach, w których podmiot musi zbadać i zrozumieć niuanse. Modele AI powinny być w stanie wyprowadzić różne wyniki wynikające z różnych możliwości, co powinien najpierw zrobić oceniający, aby zmierzyć ich poziom inteligencji. Znaczenie takich testów można zrozumieć na poniższym przykładzie:

Wyobraźmy sobie, że program AI zostaje przydzielony do przygotowania szczegółowej prognozy pogody. Program rozumie podstawowe znaczenie zachmurzenia i wilgotności ze względu na dane, na których został przeszkolony. Jeśli jednak model sztucznej inteligencji potrafi również zrozumieć korelacje między poziomami wilgotności, zachmurzenia i temperatury, prawdopodobnie stworzy lepszy raport niż sztuczna inteligencja, która nie jest w stanie połączyć tych czynników.

Krok 2: Testowanie zdolności AI do introspekcji

Autorzy badania zalecają użycie specjalnych „programów” (w tym przypadku serii powiązanych pytań), aby sprawdzić, czy sztuczna inteligencja potrafi wyjaśnić rozumowanie lub logikę, którą zastosowała do rozwiązania problemu. Mocno wierzą, że inteligentna sztuczna inteligencja powinna być w stanie dokonać autorefleksji nad swoimi działaniami i wydajnością – bez tej zdolności nie można jej uznać za tak inteligentną jak ludzie.

Badacze opisują przykład takiej sytuacji: „Jeśli Ann jest inteligentna, to czy wynika z tego, że Ann jest inteligentna, czy jest bogata, czy może jedno i drugie? Jeśli program odrzuci to wnioskowanie, tak jak robią to ludzie, mimo że jest ono logicznie poprawne, to następne pytanie brzmi: Dlaczego uważasz, że to wnioskowanie nie wynika? Tego rodzaju odpowiedź jest oznaką rozumowania podobnego do ludzkiego: Nic w przesłance nie potwierdza możliwości, że Ann jest bogata”.

Krok 3: Zagłębianie się w źródło

Ostatnim krokiem jest dokładne zbadanie kodu programu sztucznej inteligencji w celu wykrycia elementów, które mogą promować ludzkie rozumowanie, myślenie i wnioskowanie. „Jeśli zawiera on te same główne komponenty programów, o których wiadomo, że symulują ludzkie działanie, dowód ten jest decydujący. Jeśli zamiast tego opiera się na jakimś rodzaju głębokiego uczenia się, odpowiedź jest niejednoznaczna – przynajmniej do czasu, gdy inny algorytm będzie w stanie wyjaśnić, w jaki sposób program rozumuje. Jeśli jego zasady są zupełnie inne niż ludzkie, to nie zdał testu” – dodają naukowcy.

Badanie nie daje jednak jasnego obrazu tego, jak działałoby sprawdzanie kodu źródłowego, co jest dużym ograniczeniem tej struktury.


Ważną rzeczą, którą należy zauważyć w całym tym procesie, jest to, że ocenia on program AI nie jako maszynę lub chatbota, ale jako prawdziwy podmiot zapisujący się do dogłębnej analizy psychologicznej. Ta „humanitarna” metoda może przezwyciężyć niektóre ograniczenia testu Turinga. Jednak, podobnie jak w przypadku testu Turinga, jest to podejście subiektywne – wymaga od ludzi wydawania osądów na temat zachowania algorytmów. Tak więc różni oceniający mogą postrzegać rzeczy inaczej, decydując o tym, jak inteligentna jest maszyna.

Tak więc, zamiast dostarczać plan dla testu obiektowego, niniejszy artykuł ma raczej zachęcić do dyskusji na temat tego, jak najlepiej analizować zachowanie maszyn.

Pozostałe artykuły