Strona główna » Ai e-book o sztucznej inteligencji » Chiński rząd trenuje Ai po swojemu

Chiński rząd trenuje Ai po swojemu

by kapdes
chinski-rzad-trenuje-ai

Chińska Republika Ludowa publikuje politycznie zatwierdzony zestaw danych LLM z 50 miliardami tokenów

Chiński rząd opublikował zbiór danych do trenowania modeli językowych, które odzwierciedlają jego poglądy polityczne. Jest to kolejny przykład tego, jak chiński rząd próbuje kontrolować generatywną sztuczną inteligencję.

Artificial Intelligence Security Governance Professional Committee of the Cyberspace Administration of China (CAC) ogłosił publiczny zbiór danych zawierający 50 miliardów tokenów w 100 milionach punktów danych. Ten zestaw danych został oficjalnie zatwierdzony przez rząd i jest zgodny z jego polityką.

Jeśli chodzi o rozmiar zbioru danych, przefiltrowana wersja zbioru danych Common Crawl używana do trenowania GPT-3 ma około 410 miliardów tokenów. Modele Llama-2 firmy Meta zostały wstępnie wytrenowane na 2 bilionach tokenów.

Tak więc zbiór danych CCP jest stosunkowo niewielki i prawdopodobnie niewystarczający do wytrenowania dużego, wydajnego modelu językowego. Może on jednak stanowić część zestawu danych i zostać wykorzystany do dostosowania LLM.

Zainteresowani mogą pobrać zestaw danych ze strony internetowej chińskiego rządu po rejestracji i uwierzytelnieniu.

Walka Chin o kontrolę tam, gdzie kontrola jest trudna

Ogłoszenie zbioru danych jest godne uwagi, ponieważ pokazuje, że chiński rząd nadal próbuje pogodzić możliwości językowe i obrazowe dużych modeli sztucznej inteligencji, a także ich złożoną losowość, z surowym dyskursem politycznym.

Chiny wydały wytyczne dotyczące usług generatywnej sztucznej inteligencji zeszłego lata. Przykładowo, organizacje oferujące publicznie systemy sztucznej inteligencji muszą przejść proces kontroli bezpieczeństwa, który sprawdza zgodność z poglądami politycznymi KPCh. Usługi generatywnej sztucznej inteligencji muszą być zgodne z „podstawowymi wartościami socjalizmu” i nie mogą podejmować prób obalenia władzy państwowej lub systemu socjalistycznego.

Bot ERNIE firmy Baidu, chińska wersja ChatGPT, pokazuje, jak wygląda to w praktyce w niedawnym teście przeprowadzonym przez CNN:

ERNIE nie odpowiedział na pytania dotyczące masakry na Tiananmen lub zniesienia limitów kadencji przez Xi Jinpinga. Po kilku zapytaniach konto zostało zawieszone przez CNN.

Sztuczna inteligencja obrazu Baidu wcześniej blokowała generowanie obrazów dla promptów politycznych, takich jak „Plac Tiananmen”, miejsce masakry na Tiananmen.

Pozostałe artykuły