Sztuczna inteligencja Polecane tematy

Google DeepMind Veo czy OpenAI Sora – najlepsze modele AI do generowania wideo

Adam Jadczak 17 maja 2024

0 2 891 3 minut(y) czytania

Google Deep Mind pokazał właśnie – konkurencyjny do OpenAI Sora – model AI do generowania filmów po wpisaniu odpowiedniego prompta. Aby jednak stworzyć spójną scenę wideo, generatywne modele muszą dokładnie interpretować podpowiedzi tekstowe i łączyć te informacje z odpowiednimi odniesieniami wizualnymi.

Google DeepMind Veo czy OpenAI Sora – najlepsze modele AI do generowania wideo — Prompt: Wiele cętkowanych meduz pulsuje pod wodą. Ich ciała są przezroczyste i świecą w głębinach oceanu

„Dzięki rozumieniu języka naturalnego i semantyki wizualnej Veo generuje wideo, które ściśle podąża za podpowiedziami. Dokładnie oddaje niuanse i ton frazy, oddając skomplikowane szczegóły w złożonych scenach. Po otrzymaniu zarówno polecenia wejściowego wideo, jak i edycji, np. dodania kajaków do zdjęcia lotniczego linii brzegowej, Veo może zastosować to polecenie do początkowego wideo i utworzyć nowy, edytowany film” – piszą autorzy modelu.

Oto kilka promptów zastosowanych przez naukowców DeepMind:

Samotny kowboj jedzie na koniu po otwartej równinie o pięknym zachodzie słońca, delikatnym świetle i ciepłych kolorach.

Google DeepMind Veo czy OpenAI Sora – najlepsze modele AI do generowania wideo

Prompt: Szybki pojazd zestrzelił podmiejską ulicę wysadzaną drzewami. Dzień z czystym, błękitnym niebem. Nasycone kolory, wysoki kontrast.

Google DeepMind Veo czy OpenAI Sora – najlepsze modele AI do generowania wideo

Prompt: Ekstremalne zbliżenie kebabów z kurczaka i zielonej papryki grillowanych na grillu w płomieniach. Płytka ostrość i lekki dym. żywe kolory.

Google DeepMind Veo czy OpenAI Sora – najlepsze modele AI do generowania wideo

Prompt: Timelapse przedstawiający zorzę polarną tańczącą na arktycznym niebie, migoczące gwiazdy, krajobraz pokryty śniegiem.

Google DeepMind Veo czy OpenAI Sora – najlepsze modele AI do generowania wideo

Prompt: Zdjęcie lotnicze latarni morskiej stojącej wysoko na skalistym klifie, jej latarnia przecina wczesny świt, fale rozbijają się o skały poniżej.

Google DeepMind Veo czy OpenAI Sora – najlepsze modele AI do generowania wideo

„Veo może również wygenerować wideo zawierające obraz jako dane wejściowe wraz z podpowiedzią tekstową. Udostępnienie obrazu referencyjnego – w połączeniu z podpowiedzią tekstową – umożliwia wygenerowanie filmu zgodnego ze stylem obrazu i instrukcjami wyświetlanymi w podpowiedziach użytkownika” – można przeczytać na stronie DeepMind.

„Veo to jak dotąd nasz najpotężniejszy model generowania wideo. Generuje wysokiej jakości filmy w rozdzielczości 1080p, które mogą trwać dłużej niż minutę, w szerokiej gamie stylów kinowych i wizualnych.
Dokładnie oddaje niuanse i ton podpowiedzi oraz zapewnia bezprecedensowy poziom kontroli twórczej — zrozumienie podpowiedzi w przypadku wszelkiego rodzaju efektów kinowych, takich jak poklatki czasowe lub zdjęcia krajobrazu z lotu ptaka” – przekonują naukowcy Google.

„Nasz model generowania wideo pomoże stworzyć narzędzia, które sprawią, że produkcja wideo będzie dostępna dla każdego. Niezależnie od tego, czy jesteś doświadczonym filmowcem, aspirującym twórcą, czy pedagogiem chcącym dzielić się wiedzą, Veo odblokowuje nowe możliwości opowiadania historii, edukacji i nie tylko.

W nadchodzących tygodniach niektóre z tych funkcji będą dostępne dla wybranych twórców za pośrednictwem VideoFX, nowego eksperymentalnego narzędzia na labs.google. Już teraz możesz zapisać się na listę oczekujących.

Niestety na razie model DeepMind Veo za pośrednictwem usługi VideoFX nie jest dostępny w Europie, choć jest w tak egzotycznych krajach, jak Pakistan, czy Botswana. A przynajmniej będąc ich mieszkańcami można zapisać się na listę oczekujących na dostęp do niego.

W przyszłości niektóre możliwości Veo dostępne będą także w YouTube Shorts i innych usługach Google.

A oto, co OpenAI ChatGPT, posiłkując się danymi z wyszukiwarki Bing, pisze o obu modelach do generowania treści wideo.

OpenAI Sora vs. Google DeepMind Veo: porównanie funkcji

OpenAI Sora

Możliwości OpenAI Sora:

Multimodalna AI: Sora została zaprojektowana do obsługi zarówno tekstu, jak i obrazów, integrując te możliwości w celu wykonywania złożonych zadań wymagających zrozumienia i generowania różnych form treści.

Interaktywność: Sora oferuje wysoce interaktywny interfejs użytkownika, umożliwiając użytkownikom dostrajanie odpowiedzi AI i przekazywanie opinii w czasie rzeczywistym w celu poprawy jej wydajności.

Integracja z ekosystemem OpenAI: Sora jest częścią szerszego ekosystemu OpenAI, co oznacza, że może być zintegrowana z innymi produktami i usługami OpenAI dla zwiększenia funkcjonalności.

Zastosowania OpenAI Sora:

Tworzenie treści: Idealna do generowania kreatywnych treści, takich jak artykuły, historie i media wizualne.

Obsługa klienta: Może być używana do automatyzacji i poprawy interakcji z klientami.

Badania naukowe: Przydatna w badaniach akademickich i przemysłowych do analizy danych i interpretacji.

Google DeepMind Veo

Możliwości DeepMind Veo:

Generowanie wysokiej jakości wideo: Veo wyróżnia się w tworzeniu wysokiej jakości treści wideo, co czyni go odpowiednim do zastosowań w mediach i rozrywce.

Zaawansowane modele AI: Wykorzystuje modele z rodziny Gemini, znane ze swojej uniwersalności i wysokiej wydajności w różnych zadaniach.

Zwiększone zrozumienie kontekstu: Modele Veo, takie jak Gemini Pro i Flash, oferują zaawansowane możliwości w rozumieniu i generowaniu kontekstowo odpowiednich treści, odpowiednich do złożonych i dynamicznych środowisk.

Zastosowania DeepMind Veo:

Produkcja mediów: Głównie używany do tworzenia wysokiej jakości treści wideo i innych multimediów.

Tworzenie agentów AI: Zawiera agentów AI, którzy mogą wykonywać zadania autonomicznie, co jest przydatne w symulacjach i wirtualnych środowiskach.

Badania naukowe: Pomaga w rozwiązywaniu skomplikowanych problemów naukowych i inżynieryjnych, przynosząc korzyści branżom wymagającym zaawansowanej analizy AI.

Różnice pomiędzy OpenAI Sora i Google DeepMind Veo

Obszary zastosowań: Sora jest bardziej skoncentrowana na tworzeniu treści multimodalnych i aplikacjach interaktywnych, podczas gdy Veo jest skierowany na generowanie wysokiej jakości wideo i wdrażanie agentów AI.

Integracja: Sora korzysta z ścisłej integracji z innymi usługami OpenAI, oferując bardziej jednolite doświadczenie AI. Veo wykorzystuje szerokie badania DeepMind w dziedzinie AI, dostarczając zaawansowane modele do różnorodnych zastosowań.

Interakcja z użytkownikiem: Sora kładzie nacisk na opinie użytkowników i interaktywność w celu doskonalenia swoich wyników, podczas gdy Veo jest zaprojektowany do zadań wymagających wysokiej wydajności, z mniejszym naciskiem na interakcję użytkownika.

Tagi

Dodaj komentarz Anuluj pisanie odpowiedzi

Adam Jadczak
O IT w biznesie pisze od 1994 roku. Specjalizuje się w zagadnieniach związanych z rynkiem IT oraz informatyką w zastosowaniach biznesowych.
Piotr Waszczuk
Związany z rynkiem nowych technologii od 2004 roku. Autor publikacji, wywiadów i opracowań dotyczących trendów i wydarzeń branżowych, a także technologii i rozwiązań IT.
Mikołaj Marszycki
Dziennikarz z kilkunastoletnim doświadczeniem. Autor opracowań i wywiadów dotyczących nowych technologii.
Szymon Augustyniak
Od 2000 roku pisze o burzliwej współpracy IT i biznesu kreśląc także jej szerszy, społeczny, naukowy i gospodarczy kontekst. Od 2009 animuje działalność społeczności CIO i CxO, obecnie w ramach ekosystemu ITwiz.