Sztuczna inteligencjaRynek

Google udostępniło w Polsce Veo3, najnowszy model generowania wideo z dźwiękiem

Narzędzie to pozwala tworzyć 8-sekundowe filmy wideo w rozdzielczości 720p wraz z dźwiękiem, na podstawie prostych opisów tekstowych. Veo3 jest dostępne dla subskrybentów pakietu Google AI Pro w aplikacji Gemini.

Google udostępniło w Polsce Veo3, najnowszy model generowania wideo z dźwiękiem

Veo 3 to najnowszy model generatywnej AI od Google, który umożliwia tworzenie krótkich filmów z dźwiękiem i dialogami na podstawie promptu, który opisuje scenę (postaci, akcję i nastrój). Wygenerowane wideo ma format panoramiczny 16:9, trwa 8 sekund i jest dostarczane jako plik MP4.

Z Veo 3 można korzystać bezpośrednio z poziomu aplikacji Gemini – wystarczy kliknąć „Narzędzia” przy pasku promptu i wybrać opcję „Film”. Jak zapewniają specjaliści Google, narzędzie świetnie sprawdza się w tworzeniu dynamicznych klipów do mediów społecznościowych, krótkich wizualizacji koncepcji, a nawet spersonalizowanych memów.

Aby osiągnąć najlepsze efekty, Google zaleca szczegółowo opisywać główną postać, lokalizację, styl wizualny i nastrój. Veo potrafi też dopasować dźwięk do ruchów ust postaci, a wygenerowane filmy są automatycznie oznaczane znakami wodnymi – widocznym i niewidocznym (SynthID) – zapewniającymi transparentność pochodzenia treści.

Zalety Google Veo3:

  • Natywne generowanie dźwięku i obrazu z naturalnie brzmiącą mową i szumem tła lub muzyką.
  • Realistyczna symulacja fizyki elementów takich jak woda, tkanina i światło.
  • Doskonałe sterowanie kamerą kinową i kompozycja sceny.
  • Zaawansowane rozumienie podpowiedzi, szczególnie w przypadku wskazówek dotyczących interakcji.
  • Wiele opcji wprowadzania (tekst, obraz, ramki).
  • Zintegrowane w Flow i Gemini, z intuicyjnym interfejsem (szczególnie w Flow).
  • Ciągłe doskonalenie rozwiązania.

Wady Google Veo3:

  • Ograniczenie długości do 8 sekund.
  • Niespójna ciągłość postaci w scenach, nawet przy szczegółowych podpowiedziach.
  • Interpretacja podpowiedzi jest różna, co utrudnia powtarzalne wyniki.
  • Ograniczona dokładność tekstu w elementach wizualnych (np. błędnie napisane słowa).
  • Zdarzają się błędy i awarie podczas łączenia ujęć lub przełączania między trybami.
  • Widoczne znaki wodne.
Tagi

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *