Google Deep Mind pokazał właśnie - konkurencyjny do OpenAI Sora - model AI do generowania filmów po wpisaniu odpowiedniego prompta. Aby jednak stworzyć spójną scenę wideo, generatywne modele muszą dokładnie interpretować podpowiedzi tekstowe i łączyć te informacje z odpowiednimi odniesieniami wizualnymi. "Dzięki rozumieniu języka naturalnego i semantyki wizualnej Veo generuje wideo, które ściśle podąża za podpowiedziami. Dokładnie oddaje niuanse i ton frazy, oddając skomplikowane szczegóły w złożonych scenach. Po otrzymaniu zarówno polecenia wejściowego wideo, jak i edycji, np. dodania kajaków do zdjęcia lotniczego linii brzegowej, Veo może zastosować to polecenie do początkowego wideo i utworzyć nowy, edytowany film" - piszą autorzy modelu. Oto kilka promptów zastosowanych przez naukowców DeepMind: Samotny kowboj jedzie na koniu po otwartej równinie o pięknym zachodzie słońca, delikatnym świetle i ciepłych kolorach. Prompt: Szybki pojazd zestrzelił podmiejską ulicę wysadzaną drzewami. Dzień z czystym, błękitnym niebem. Nasycone kolory, wysoki kontrast. Prompt: Ekstremalne zbliżenie kebabów z kurczaka i zielonej papryki grillowanych na grillu w płomieniach. Płytka ostrość i lekki dym. żywe kolory. Prompt: Timelapse przedstawiający zorzę polarną tańczącą na arktycznym niebie, migoczące gwiazdy, krajobraz pokryty śniegiem. Prompt: Zdjęcie lotnicze latarni morskiej stojącej wysoko na skalistym klifie, jej latarnia przecina wczesny świt, fale rozbijają się o skały poniżej. "Veo może również wygenerować wideo zawierające obraz jako dane wejściowe wraz z podpowiedzią tekstową. Udostępnienie obrazu referencyjnego - w połączeniu z podpowiedzią tekstową - umożliwia wygenerowanie filmu zgodnego ze stylem obrazu i instrukcjami wyświetlanymi w podpowiedziach użytkownika" - można przeczytać na stronie DeepMind. "Veo to jak dotąd nasz najpotężniejszy model generowania wideo. Generuje wysokiej jakości filmy w rozdzielczości 1080p, które mogą trwać dłużej niż minutę, w szerokiej gamie stylów kinowych i wizualnych. Dokładnie oddaje niuanse i ton podpowiedzi oraz zapewnia bezprecedensowy poziom kontroli twórczej — zrozumienie podpowiedzi w przypadku wszelkiego rodzaju efektów kinowych, takich jak poklatki czasowe lub zdjęcia krajobrazu z lotu ptaka" - przekonują naukowcy Google. "Nasz model generowania wideo pomoże stworzyć narzędzia, które sprawią, że produkcja wideo będzie dostępna dla każdego. Niezależnie od tego, czy jesteś doświadczonym filmowcem, aspirującym twórcą, czy pedagogiem chcącym dzielić się wiedzą, Veo odblokowuje nowe możliwości opowiadania historii, edukacji i nie tylko. W nadchodzących tygodniach niektóre z tych funkcji będą dostępne dla wybranych twórców za pośrednictwem VideoFX, nowego eksperymentalnego narzędzia na labs.google. Już teraz możesz zapisać się na listę oczekujących. W przyszłości niektóre możliwości Veo dostępne będą także w YouTube Shorts i innych usługach Google. A oto, co OpenAI ChatGPT, posiłkując się danymi z wyszukiwarki Bing, pisze o obu modelach do generowania treści wideo. OpenAI Sora vs. Google DeepMind Veo: porównanie funkcji OpenAI Sora Możliwości OpenAI Sora: Multimodalna AI: Sora została zaprojektowana do obsługi zarówno tekstu, jak i obrazów, integrując te możliwości w celu wykonywania złożonych zadań wymagających zrozumienia i generowania różnych form treści. Interaktywność: Sora oferuje wysoce interaktywny interfejs użytkownika, umożliwiając użytkownikom dostrajanie odpowiedzi AI i przekazywanie opinii w czasie rzeczywistym w celu poprawy jej wydajności. Integracja z ekosystemem OpenAI: Sora jest częścią szerszego ekosystemu OpenAI, co oznacza, że może być zintegrowana z innymi produktami i usługami OpenAI dla zwiększenia funkcjonalności. https://youtu.be/HK6y8DAPN_0?si=KffFwMHo6MJUzI8P Zastosowania OpenAI Sora: Tworzenie treści: Idealna do generowania kreatywnych treści, takich jak artykuły, historie i media wizualne. Obsługa klienta: Może być używana do automatyzacji i poprawy interakcji z klientami. Badania naukowe: Przydatna w badaniach akademickich i przemysłowych do analizy danych i interpretacji. Google DeepMind Veo Możliwości DeepMind Veo: Generowanie wysokiej jakości wideo: Veo wyróżnia się w tworzeniu wysokiej jakości treści wideo, co czyni go odpowiednim do zastosowań w mediach i rozrywce. Zaawansowane modele AI: Wykorzystuje modele z rodziny Gemini, znane ze swojej uniwersalności i wysokiej wydajności w różnych zadaniach. Zwiększone zrozumienie kontekstu: Modele Veo, takie jak Gemini Pro i Flash, oferują zaawansowane możliwości w rozumieniu i generowaniu kontekstowo odpowiednich treści, odpowiednich do złożonych i dynamicznych środowisk. https://youtu.be/diqmZs1aD1g?si=9xGgWPGaNQUFlS2R Zastosowania DeepMind Veo: Produkcja mediów: Głównie używany do tworzenia wysokiej jakości treści wideo i innych multimediów. Tworzenie agentów AI: Zawiera agentów AI, którzy mogą wykonywać zadania autonomicznie, co jest przydatne w symulacjach i wirtualnych środowiskach. Badania naukowe: Pomaga w rozwiązywaniu skomplikowanych problemów naukowych i inżynieryjnych, przynosząc korzyści branżom wymagającym zaawansowanej analizy AI. Różnice pomiędzy OpenAI Sora i Google DeepMind Veo Obszary zastosowań: Sora jest bardziej skoncentrowana na tworzeniu treści multimodalnych i aplikacjach interaktywnych, podczas gdy Veo jest skierowany na generowanie wysokiej jakości wideo i wdrażanie agentów AI. Integracja: Sora korzysta z ścisłej integracji z innymi usługami OpenAI, oferując bardziej jednolite doświadczenie AI. Veo wykorzystuje szerokie badania DeepMind w dziedzinie AI, dostarczając zaawansowane modele do różnorodnych zastosowań. Interakcja z użytkownikiem: Sora kładzie nacisk na opinie użytkowników i interaktywność w celu doskonalenia swoich wyników, podczas gdy Veo jest zaprojektowany do zadań wymagających wysokiej wydajności, z mniejszym naciskiem na interakcję użytkownika.