Sztuczna inteligencja Rynek Polecane tematy

OpenAI prezentuje Sora – nowe narzędzie AI do zamiany tekstu w wideo

Mikołaj Marszycki 16 lutego 2024

0 6 492 1 minuta czytania

Sora potrafi zamieniać tekst w wideo i tworzyć minutowe filmy, które wyglądają jak prawdziwe. Jak na razie, narzędzie to nie jest jednak szeroko dostępne. Obecnie znajduje się jeszcze w fazie red-teamingu. Firma OpenAI udostępniła je do testowania wybranym partnerom – m.in. ekspertom od dezinformacji czy nienawistnych treści, artystom wizualny, projektantom i filmowcom. W ten sposób chce upewnić się, że Sora nie tworzy szkodliwych lub nieodpowiednich treści, a także uzyskać informacje zwrotne na temat tego, jak ulepszyć model.

Sora jest w stanie generować złożone sceny z wieloma postaciami, określonymi rodzajami ruchu i dokładnymi szczegółami obiektu oraz tła. Jak wskazują przedstawiciele OpenAI, dogłębne rozumienie języka naturalnego pozwala modelowi dokładnie interpretować podpowiedzi i generować postaci, które wyrażają żywe emocje. Sora może również tworzyć wiele ujęć w ramach jednego wygenerowanego wideo, które dokładnie odzwierciedlają postacie oraz styl wizualny.

Szczegóły techniczne modelu

Podobnie jak modele GPT, Sora wykorzystuje architekturę transformerową. Filmy i obrazy prezentowane są jako zbiory mniejszych jednostek danych zwanych patchami, z których każdy podobny jest do tokena w GPT. Ujednolicając sposób reprezentowania danych, eksperci OpenAI mogą trenować transformery dyfuzyjne na szerszym zakresie danych wizualnych niż było to możliwe wcześniej, obejmującym różne czasy trwania, rozdzielczości i proporcje.

Sora opiera się na wcześniejszych badaniach nad modelami DALL-E i GPT. Wykorzystuje technikę recaptioningu z DALL-E 3, która polega na generowaniu wysoce opisowych podpisów dla wizualnych danych szkoleniowych. W rezultacie model ten jest w stanie jeszcze lepiej podążać za instrukcjami tekstowymi użytkownika w wygenerowanym filmie.

Oprócz możliwości generowania wideo wyłącznie na podstawie instrukcji tekstowych, model jest również w stanie pobrać istniejący nieruchomy obraz i wygenerować z niego wideo, animując zawartość obrazu z dokładnością i dbałością o drobne szczegóły. Model może również pobrać istniejące wideo i rozszerzyć je lub uzupełnić brakujące klatki.

Sora służy jako podstawa dla modeli, które mogą zrozumieć i symulować rzeczywisty świat, co zdaniem przedstawicieli OpenAI będzie ważnym kamieniem milowym w osiągnięciu ogólnej sztucznej inteligencji (AGI).

Niestety, model ma też słabe punkty. Otóż może on mieć trudności z dokładną symulacją fizyki złożonej sceny i nie rozumieć konkretnych przypadków przyczynowo-skutkowych. Przykładowo, osoba może ugryźć ciastko, ale później to samo ciasto może nie mieć śladu ugryzienia. Model może również mylić szczegóły przestrzenne (np. lewą i prawą stronę), a także mieć trudności z precyzyjnymi opisami wydarzeń, które mają miejsce w czasie, na przykład podążając za określoną trajektorią kamery.

Pod poniższym linkiem można obejrzeć możliwości modelu Sora.

Sora a bezpieczeństwo

Oprócz wspomnianej już współpracy z ekspertami dziedzinowymi w obszarach takich jak dezinformacja, nienawistne treści i uprzedzenia, OpenAI zapowiedziało również tworzenie narzędzi pomagających wykrywać wprowadzające w błąd treści, takie jak klasyfikator wykrywania, który może stwierdzić, czy wideo zostało wygenerowane przez Sora.

Oprócz opracowywania nowych technik, wykorzystywane są także istniejące już metody bezpieczeństwa, które stworzono dla produktów korzystających z DALL-E 3, a które mają zastosowanie również do modelu Sora.

Tagi