Strona główna » Ai e-book o sztucznej inteligencji » OpenAI wyjawia sekrety DALL-E 3

OpenAI wyjawia sekrety DALL-E 3

by kapdes
dall-e-3

OpenAI publikuje artykuł na temat DALL-E 3

Wyjaśnia, dlaczego nowa sztuczna inteligencja generowania obrazu podąża za podpowiedziami znacznie dokładniej niż porównywalne systemy.

W ramach pełnego wdrożenia DALL-E 3, OpenAI publikuje artykuł na temat DALL-E 3: odpowiada na pytanie, dlaczego DALL-E 3 może podążać za promptami tak dokładnie w porównaniu z istniejącymi systemami. Odpowiedź znajduje się już w tytule artykułu: „Improving Image Generation with Better Captions” („Poprawa generowania obrazów dzięki lepszym opisom”).

Przed faktycznym szkoleniem DALL-E 3, OpenAI przeszkolił swój własny etykieciarz obrazów AI, który został następnie wykorzystany do ponownego oznaczenia zbioru danych obrazów do szkolenia rzeczywistego systemu obrazów DALL-E 3. Podczas procesu ponownego etykietowania OpenAI zwróciła szczególną uwagę na szczegółowe opisy.

Przed szkoleniem DALL-E 3, OpenAI eksperymentalnie wytrenowało trzy modele obrazów z trzema typami adnotacji: ludzkimi, krótkimi syntetycznymi i szczegółowymi syntetycznymi.

dall_e_3

Nawet krótkie syntetyczne adnotacje znacznie przewyższały ludzkie adnotacje w testach porównawczych. Długie adnotacje opisowe wypadły jeszcze lepiej.

OpenAI eksperymentowało również z mieszanką różnych stylów adnotacji syntetycznych i ludzkich. Jednak im wyższy procent adnotacji maszynowych, tym lepsze generowanie obrazu. Na przykład DALL-E 3 zawiera 95 procent adnotacji maszynowych i 5 procent adnotacji ludzkich.

DALL-E 3 wyprzedza Midjourney 5.2 i Stable Diffusion XL

OpenAI przetestowało dokładność podążania za monitem DALL-E 3 w syntetycznych testach porównawczych i z ludzkimi testerami. We wszystkich syntetycznych testach porównawczych DALL-E 3 przewyższa swojego poprzednika, DALL-E 2, i Stable Diffusion XL, w większości przypadków ze znacznym marginesem.

Jednak nowa sztuczna inteligencja generowania obrazu OpenAI również radzi sobie znacznie lepiej niż Midjourney 5.2 pod względem stylu i spójności, a open-source’owa sztuczna inteligencja obrazu Stable Diffusion XL pozostaje jeszcze bardziej w tyle. Według OpenAI, DALL-E 3 nadal ma problemy z lokalizowaniem obiektów w przestrzeni (po lewej, po prawej, za itd.).

W przypisie OpenAI wskazuje, że innowacja w zakresie etykietowania obrazów jest tylko częścią tego, co nowe w DALL-E 3, który ma „wiele ulepszeń” w stosunku do DALL-E 2. Tak więc wyraźna przewaga DALL-E 3 nad konkurencyjnymi systemami nie wynika wyłącznie z syntetycznego etykietowania obrazów. OpenAI nie odnosi się do innych ulepszeń DALL-E 3 w artykule.

Źródło: openai.com/blog/dall-e-3-is-now-available-in-chatgpt-plus-and-enterprise

Pozostałe artykuły