Strona główna » Ai e-book o sztucznej inteligencji » OpenAI DevDay – najważniejsze newsy

OpenAI DevDay – najważniejsze newsy

by kapdes
openai-devs-days

OPENAI DEVDAY

Na swojej pierwszej konferencji deweloperskiej OpenAI potwierdziło swoje ambicje zbudowania nowego ekosystemu chatbotów.

Najważniejszą wiadomością jest niewątpliwie GPT-4 Turbo, w tym liczne innowacje API, takie jak asystenci i niestandardowe ChatGPT, które użytkownicy mogą zasilać swoimi danymi i programować w języku naturalnym. Ale poza tymi dwoma głównymi ogłoszeniami, OpenAI miało w zanadrzu jeszcze więcej.

Zamiana mowy na tekst: Whisper v3 dostępny jako open source
Whisper to open-source’owy model zamiany mowy na tekst od OpenAI. Nowy model v3 został wytrenowany na 1 milionie godzin słabo oznakowanego dźwięku i 4 milionach godzin pseudoznakowanego dźwięku zebranego za pomocą Whisper v2. Dodano również język kantoński. W testach porównawczych model v3 znacznie przewyższa swojego poprzednika pod względem poziomu błędów.

Wydajność różni się w zależności od języka, ale ogólnie rzecz biorąc, największa wersja Whisper v3 ma wskaźnik błędów poniżej 60 procent dla Common Voice 15 i Fleurs, co według OpenAI stanowi 10 do 20 procent redukcji błędów w porównaniu z Whisper large-v2.

Zamiana tekstu na mowę

Syntetyczne głosy OpenAI brzmią jak ludzkie. OpenAI ogłosiło również coś zupełnie innego: model zamiany tekstu na mowę, który może przyprawić Elevenlabs i spółkę o ból głowy. Dzięki modelowi TTS teksty mogą być odczytywane na głos przez maksymalnie sześć syntetycznych głosów brzmiących jak ludzkie. Głosy są znane z aplikacji ChatGPT i mają wiarygodną intonację.
TTS OpenAI jest dostępny w wersji wysokiej jakości i wersji przyciętej pod kątem szybkości. Firma pobiera opłatę w wysokości 0,015 USD za 1000 wypowiedzianych znaków, co jest znacznie tańsze niż ElevenLabs w przypadku przekroczenia stawki ryczałtowej (do 0,30 USD za 1000 znaków).

Dostrajanie GPT-4 jest kosztowne

Również na targach deweloperów OpenAI ogłosiło „bardzo ograniczony” program dla początkowych projektów dostrajania GPT-4. GPT-3.5 ma opcje dostrajania od jakiegoś czasu, które można wykonać bezpośrednio w interfejsie internetowym.

Jednak dostrajanie GPT-4 wydaje się być znacznie bardziej złożone, z cenami zaczynającymi się od dwóch milionów dolarów i wolumenem danych wynoszącym co najmniej miliard tokenów w bazie danych firmy. OpenAI oferuje dostrajanie tylko wybranym firmom, które następnie mają wyłączny dostęp do swojego modelu.

OpenAI chroni przed naruszeniami praw autorskich

Idąc w ślady Microsoftu i Google, OpenAI ogłosiło formę ochrony prawnej przed roszczeniami z tytułu praw autorskich. Firmy, które zostaną pozwane na mocy prawa autorskiego za treści wygenerowane za pomocą modeli OpenAI, mogą uzyskać od OpenAI zwrot kosztów potencjalnego pozwu. Dotyczy to tylko ChatGPT Enterprise i platformy deweloperskiej. Ochrona praw autorskich nie obejmuje standardowego ChatGPT.

Stable Diffusion

OpenAI Consistency Decoder jest aktualizacją open-source do dekodera używanego w Stable Diffusion Variational Autoencoder (VAE). Wykorzystuje on trening spójności w celu poprawy generowania obrazu, zwłaszcza w przypadku tekstu, twarzy i linii prostych. Jest on w pełni kompatybilny z VAE Stable Diffusion 1.0+. Ulepszenia nowego dekodera można zobaczyć tutaj.

ChatGPT jest bardziej aktualny i otrzymuje częstsze aktualizacje

Wraz z modelem GPT-4 Turbo, ChatGPT otrzyma również aktualizację zawartości do kwietnia 2023 roku. Ale to nie wszystko: Według CEO OpenAI, Sama Altmana, najbardziej irytującą rzeczą w ChatGPT jest to, że nie jest on aktualny, a OpenAI się z tym zgadza. Dlatego firma planuje bardziej regularne aktualizacje treści w przyszłości.

Płatność za GPT

Ważnym ogłoszeniem na konferencji deweloperów były „GPT”, instancje ChatGPT, które użytkownicy mogą dostosowywać i optymalizować do swoich celów, a następnie oferować na rynku. OpenAI ogłosiło, że odnoszący sukcesy wydawcy chatbotów również otrzymają wynagrodzenie, ale tryb był nadal niejasny.

Altman powiedział Alexowi Heathowi z The Verge, że początkowym planem jest zmniejszenie przychodów z subskrypcji ChatGPT. Będą różne poziomy w zależności od liczby użytkowników chatbota, a także specjalne bonusy dla kategorii. Altman nie podaje konkretnych liczb i spodziewa się, że cała sprawa będzie „bardzo ewoluować”.

DALL-E 3 ma dwa dodatkowe tryby

OpenAI pokazuje kilka szczegółów na temat DALL-E 3, gdy model jest sterowany przez API. DALL-E 3 oferuje dwa podstawowe tryby, „naturalny” i „żywy”, które, jak sama nazwa wskazuje, tworzą bardziej naturalne, realistyczne lub hiperrealistyczne, dramatyczne obrazy. DALL-E 3 jest ustawiony na „żywy” w ChatGPT. „Naturalny” powinien być bardziej podobny do DALL-E 2 i nadaje się na przykład do zdjęć.

Dwa inne tryby jakości to „HD” i „Standard”, ten drugi znany z ChatGPT. HD ma pokazywać więcej szczegółów i dokładniej podążać za podpowiedzią. HD jest jednak droższy i jego wygenerowanie zajmuje średnio dziesięć sekund dłużej. Wciąż jest to interesujące dla programistów, że mogą być w stanie osiągnąć nieco lepszą jakość dla swoich aplikacji niż to, co oferuje DALL-E 3 w ChatGPT.

ChatGPT wciąż ma niesamowitą liczbę użytkowników

ChatGPT osiągnął niesamowity wzrost w mniej niż rok, jak powtórzył CEO OpenAI Sam Altman na konferencji deweloperów: platforma ma obecnie 100 milionów aktywnych użytkowników tygodniowo.

Ponadto dwa miliony programistów ma dostęp do API, a ich aplikacje są również używane przez miliony użytkowników. Według Altmana 92% firm z listy Fortune 500 korzysta z technologii OpenAI. Łatwo powiedzieć, że OpenAI dominuje obecnie w generatywnej sztucznej inteligencji.

Według Similarweb, wzrost ChatGPT nieco zwolnił w miesiącach letnich. Biorąc pod uwagę powyższe liczby, nie powinno to umniejszać ogólnego sukcesu platformy.

Źródło: OpenAI DevDay

Pozostałe artykuły