Strona główna » Ai e-book o sztucznej inteligencji » Sora – generator wideo od OpenAi

Sora – generator wideo od OpenAi

by kapdes
sora-openai-text-to-video

Sora – text to video

OpenAI zaprezentowało swój pierwszy generatywny model sztucznej inteligencji dla wideo o nazwie Sora, a z wyglądu przypomina GPT-4 dla generowania wideo.

OpenAI ogłosiło Sora, pierwszy model tekst-wideo firmy, w poście na blogu i na X, dawniej Twitterze. Sora prezentuje imponujący wachlarz możliwości, z możliwością tworzenia filmów o długości do minuty, które mogą pochwalić się bezprecedensowym poziomem wierności wizualnej i, co najważniejsze, stabilnością czasową, przy jednoczesnym – według OpenAI – przestrzeganiu instrukcji użytkownika. Przykłady takie jak pies wspinający się między parapetami pokazują imponującą stabilność wideo modelu.

ebook

Jak Wykorzystać Sztuczną Inteligencję W Życiu Codziennym?

Sora – generator wideo

Model AI jest teraz dostępny dla wybranej grupy zespołów do oceny szkód i ryzyka, a także dla artystów wizualnych, projektantów i filmowców, którzy chcą przekazać opinie, aby poprawić jego użyteczność dla kreatywnych profesjonalistów.

OpenAI postrzega Sora jako podstawowy model na drodze do AGI

Według OpenAI obecne ograniczenia Sory to wyzwanie związane z dokładną symulacją złożonej fizyki lub uchwyceniem określonych scenariuszy przyczynowo-skutkowych. Na przykład, postać może ugryźć ciasteczko, ale może brakować wizualnego następstwa – śladu ugryzienia. Sora może również nie radzić sobie ze szczegółami przestrzennymi, takimi jak rozróżnianie lewej od prawej, i zmagać się ze szczegółowymi opisami wydarzeń w czasie, takimi jak podążanie za trajektorią kamery.

Jeśli chodzi o bezpieczeństwo, OpenAI wdraża kilka strategii przed integracją Sory ze swoimi produktami.

Obejmuje to współpracę z czerwonymi drużynami i opracowywanie narzędzi, takich jak klasyfikator wykrywania, aby zidentyfikować, kiedy wideo jest generowane przez Sora. Ich celem jest uwzględnienie metadanych C2PA w przyszłości, zakładając, że model zostanie wykorzystany w produkcie OpenAI. Opierając się na metodach bezpieczeństwa ustanowionych dla DALL-E 3, OpenAI planuje używać klasyfikatorów tekstu do sprawdzania monitów naruszających zasady dotyczące treści oraz klasyfikatorów obrazu do sprawdzania klatek wideo w celu zapewnienia zgodności z zasadami użytkowania.

Źródło: https://openai.com/sora
Prompt: The camera directly faces colorful buildings in burano italy. An adorable dalmation looks through a window on a building on the ground floor. Many people are walking and cycling along the canal streets in front of the buildings.

Sora to model dyfuzyjny

Który działa poprzez stopniowe przekształcanie statycznych, zaszumionych filmów w wyraźne obrazy. Reprezentując filmy jako zbiory łatek danych, podobnych do tokenów GPT, model może pracować z szerszym zakresem danych wizualnych niż było to wcześniej możliwe, twierdzi firma. Wykorzystując techniki rekapitulacji z DALL-E 3, Sora może wierniej wykonywać instrukcje tekstowe w generowanych filmach. Stabilność czasowa generowania Sory jest możliwa dzięki „umożliwieniu modelowi spojrzenia w przyszłość na wiele klatek na raz”.

OpenAI postrzega Sorę jako podstawowy model, „który może zrozumieć i symulować rzeczywisty świat”, co jest krytycznym krokiem w kierunku osiągnięcia sztucznej inteligencji ogólnej (AGI).

Źródło: https://openai.com/sora
Prompt: Tour of an art gallery with many beautiful works of art in different styles.

Źródło: https://openai.com/sora
Prompt: The camera follows behind a white vintage SUV with a black roof rack as it speeds up a steep dirt road surrounded by pine trees on a steep mountain slope, dust kicks up from it’s tires, the sunlight shines on the SUV as it speeds along the dirt road, casting a warm glow over the scene. The dirt road curves gently into the distance, with no other cars or vehicles in sight. The trees on either side of the road are redwoods, with patches of greenery scattered throughout. The car is seen from the rear following the curve with ease, making it seem as if it is on a rugged drive through the rugged terrain. The dirt road itself is surrounded by steep hills and mountains, with a clear blue sky above with wispy clouds.

Pozostałe artykuły